Open Research · Updated June 2026 · Execution-verified v2

Какая LLM лучше всех пишет Qlik Set Analysis?

Бенчмарк 13 моделей на 31 задаче из трёх доменов (Sports, HR, Sales). В этой версии каждое выражение реально выполнено в Qlik через Engine API против эталонной модели данных и сверено с правильным ответом — без доверия оценкам LLM-судьи. Пять задач исключены: их эталонные ответы оказались битыми.

Models 13 Tasks 31 (26 valid) Domains 3 Verified in Qlik By Datanomix
#? Model? Provider? Overall? Number OK? Logic OK? Coincidental? Tasks passed?
01 Gemini 2.5 Pro Google 48% 58% 38% 5 15/26
02 Mistral Large Mistral 32% 46% 19% 7 12/26
03 Claude Opus 4.7 Anthropic 30% 42% 19% 6 11/26
04 Claude Sonnet 4.6 Anthropic 28% 42% 15% 7 11/26
05 Grok 3 xAI 34% 42% 27% 4 11/26
06 DeepSeek V3LOCAL DeepSeek 25% 31% 19% 3 8/26
07 GPT-5 OpenAI 23% 31% 15% 4 8/26
08 Gemini 2.5 Flash Google 18% 23% 12% 3 6/26
09 Claude Haiku 4.5 Anthropic 21% 23% 19% 1 6/26
10 Qwen 2.5 72BLOCAL Alibaba 19% 19% 19% 0 5/26
11 GPT-5 mini OpenAI 14% 15% 12% 1 4/26
12 Llama 3.3 70BLOCAL Meta 6% 8% 4% 1 2/26
13 Qwen 2.5 Coder 32BLOCAL Alibaba 4% 4% 4% 0 1/26
Top tier (overall ≥45%) Mid tier Low / weak

Number OK — выражение модели при реальном выполнении в Qlik вернуло правильный ответ. Logic OK — формула совпала с эталонной по ядру логики. Overall — среднее двух. Coincidental — верное число через другую формулу. 5 из 31 задачи исключены из метрик: эталонные ответы битые (sports q06 считает значения роста, а не атлетов; hr q09/q10 — формула скопирована с q08; sports q09/q11 — списки эталона обрезаны). Метрики — на 26 валидных задачах.
Методология

Как мы это считали — в четырёх абзацах.

Phase 1 · Phase 2

Двухфазная схема

Phase 1 — 13 моделей × 31 задача × 1 стандартный промпт (отбор). Phase 2 — топ-5 финалистов × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель Phase 2 — измерить эффект промпт-инжиниринга.

Dual judge

Что изменилось в v2: реальное выполнение

Исходно оба вердикта ставили LLM-судьи без выполнения кода. Мы перепроверили: судья по числу разошёлся с реальным Qlik в ~27% случаев (завернул верные ответы, пропустил неверные). Поэтому здесь Number OK — это фактическое выполнение через Engine API, а не предсказание судьи.

Tasks · qata.datanomix.pro

Реальные задачи с автопроверкой

31 задача Set Analysis из трёх доменов: Sports, HR, Sales. Эталоны взяты из QATA. При перепроверке 5 эталонов оказались битыми и исключены из метрик — честная находка про сам ground truth.

Budget

$17.35 из $20 на OpenRouter

~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Opus в Phase 1) — при повторе с Sonnet стоимость в 14× ниже. Reasoning-модели (GPT-5, Gemini 2.5 Pro) потребовали max_tokens=4000 + reasoning_effort=low.

Full Report · PDF · ~1 MB

Хотите углубиться?

Скачайте полный отчёт. Внутри — разбор coincidental correctness с примерами кода, разбивка по доменам, эффект промптов, тест на стабильность ±5–15 п.п. и production-рекомендации. Примечание: отчёт/PDF пока с числами v1 — лендинг выше уже обновлён на реальное выполнение.

  • Реальное выполнение всех 868 выражений в Qlik
  • Number OK по факту: топ-модели ~40–58%, общий ~30%
  • Судья ошибался на ~27% — детально по кейсам
  • Битые эталоны (q06, hr q09/q10, q09/q11) — что нашли
  • ID vs Name: почему модель права, а эталон спорный
✓ Спасибо! Отчёт открылся в соседней вкладке. Если нет — кликните сюда.
Reproduce on GitHub