Open Research · Updated June 2026

Какая LLM лучше всех пишет Qlik Set Analysis?

Бенчмарк 13 моделей на 31 задаче из трёх доменов (Sports, HR, Sales). Каждый ответ проверяли два независимых LLM-судьи: сначала по итоговому числу, потом по эквивалентности логики выражения эталонной формуле. А ещё интереснее: примерно в 18% верных ответов модель пишет формулу грамотнее эталона — например, считает по уникальному ключу ID, а не по Name.

Models 13 Tasks 31 Domains 3 Budget $17.35 By Datanomix
#? Model? Provider? Overall? Number OK? Logic OK? Better? Coincidental? Tasks passed?
01 Gemini 2.5 Pro Google 58% 68% 47% 4 2 21/31
02 Claude Opus 4.7 Anthropic 41% 55% 27% 4 4 17/31
03 Claude Sonnet 4.6 Anthropic 36% 52% 20% 3 6 16/31
04 Mistral Large Mistral 34% 45% 23% 3 4 14/31
05 Grok 3 xAI 36% 45% 27% 3 2 14/31
06 GPT-5 OpenAI 30% 39% 20% 2 4 12/31
07 DeepSeek V3LOCAL DeepSeek 24% 32% 17% 2 2 10/31
08 Gemini 2.5 Flash Google 18% 26% 10% 2 2 8/31
09 Claude Haiku 4.5 Anthropic 23% 26% 20% 1 1 8/31
10 Qwen 2.5 72BLOCAL Alibaba 18% 19% 17% 1 0 6/31
11 GPT-5 mini OpenAI 18% 19% 17% 1 0 6/31
12 Llama 3.3 70BLOCAL Meta 4% 6% 3% 0 1 2/31
13 Qwen 2.5 Coder 32BLOCAL Alibaba 4% 6% 3% 1 0 2/31
Top tier (overall ≥45%) Mid tier Low / weak

Number OK — итоговое число совпало с эталонным KPI. Logic OK — выражение строго эквивалентно эталонной формуле. Better — выражение отличается от эталона, но семантически грамотнее (счёт по ключу ID вместо Name): из 300 верных ответов таких 54 (18%) — модель поправляет человека-эталон. Coincidental — число совпало через хрупкую формулу. Overall — среднее Number OK и Logic OK.
Методология

Как мы это считали — в четырёх абзацах.

Phase 1 · Phase 2

Двухфазная схема

Phase 1 — 13 моделей × 31 задача × 1 стандартный промпт (отбор). Phase 2 — топ-5 финалистов × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель Phase 2 — измерить эффект промпт-инжиниринга.

Dual judge

Два независимых LLM-судьи

Claude Opus 4.7 проверяет, совпадает ли итоговое число с эталонным KPI. Claude Sonnet 4.6 проверяет, эквивалентно ли само выражение эталонной формуле. Разница между двумя оценками и есть «логический разрыв».

Tasks · qata.datanomix.pro

Реальные задачи с автопроверкой

31 верифицированная задача Set Analysis из трёх доменов: Sports, HR, Sales. Использовали платформу QATA для автопроверки результатов с эталонами.

Budget

$17.35 из $20 на OpenRouter

~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Opus в Phase 1) — при повторе с Sonnet стоимость в 14× ниже. Reasoning-модели (GPT-5, Gemini 2.5 Pro) потребовали max_tokens=4000 + reasoning_effort=low.

Full Report · PDF · ~1 MB

Хотите углубиться?

Скачайте полный отчёт. Внутри — детальный разбор coincidental correctness с примерами кода, разбивка по доменам, эффект разных промптов, тест на стабильность ±5–15 п.п., таблица стоимости и production-рекомендации по сценариям.

  • Phase 1 + Phase 2 со всеми числами
  • 114 случаев coincidental correctness · 2 паттерна с кодом
  • Cost breakdown по моделям
  • 3 production-сценария: Sonnet / GPT-5 / DeepSeek
  • On-prem рекомендации (DeepSeek V3, Qwen, Llama)
✓ Спасибо! Отчёт открылся в соседней вкладке. Если нет — кликните сюда.
Reproduce on GitHub