Open Research · Updated June 2026

Какая LLM лучше всех пишет Qlik Set Analysis?

Бенчмарк 13 моделей на 31 задаче из трёх доменов (Sports, HR, Sales). Каждый ответ проверяли два независимых LLM-судьи: сначала по итоговому числу, потом по эквивалентности логики выражения эталонной формуле.

Models 13 Tasks 31 Domains 3 Budget $17.35 By Datanomix
#? Model? Provider? Overall? Number OK? Logic OK? Coincidental? Tasks passed?
01 Gemini 2.5 Pro Google 60% 68% 53% 4 21/31
02 Claude Opus 4.7 Anthropic 46% 55% 37% 5 17/31
03 Claude Sonnet 4.6 Anthropic 40% 52% 27% 7 16/31
04 Mistral Large Mistral 36% 45% 27% 6 14/31
05 Grok 3 xAI 39% 45% 33% 3 14/31
06 GPT-5 OpenAI 33% 39% 27% 4 12/31
07 DeepSeek V3LOCAL DeepSeek 28% 32% 23% 2 10/31
08 Gemini 2.5 Flash Google 22% 26% 17% 2 8/31
09 Claude Haiku 4.5 Anthropic 24% 26% 23% 1 8/31
10 Qwen 2.5 72BLOCAL Alibaba 20% 19% 20% 0 6/31
11 GPT-5 mini OpenAI 18% 19% 17% 1 6/31
12 Llama 3.3 70BLOCAL Meta 4% 6% 3% 1 2/31
13 Qwen 2.5 Coder 32BLOCAL Alibaba 6% 6% 7% 0 2/31
Top tier (overall ≥45%) Mid tier Low / weak

Overall — среднее «Number OK» и «Logic OK». Number OK — итоговое число совпало с эталонным KPI при выполнении в Qlik. Logic OK — выражение эквивалентно эталонной Set Analysis-формуле. Coincidental — число совпало, но выражение от эталона отличается; часть таких случаев — допустимые альтернативы (например, счёт по ключу ID вместо Name).
Методология

Как мы это считали — в четырёх абзацах.

Phase 1 · Phase 2

Двухфазная схема

Phase 1 — 13 моделей × 31 задача × 1 стандартный промпт (отбор). Phase 2 — топ-5 финалистов × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель Phase 2 — измерить эффект промпт-инжиниринга.

Dual judge

Два независимых LLM-судьи

Claude Opus 4.7 проверяет, совпадает ли итоговое число с эталонным KPI. Claude Sonnet 4.6 проверяет, эквивалентно ли само выражение эталонной формуле. Разница между двумя оценками и есть «логический разрыв».

Tasks · qata.datanomix.pro

Реальные задачи с автопроверкой

31 верифицированная задача Set Analysis из трёх доменов: Sports, HR, Sales. Использовали платформу QATA для автопроверки результатов с эталонами.

Budget

$17.35 из $20 на OpenRouter

~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Opus в Phase 1) — при повторе с Sonnet стоимость в 14× ниже. Reasoning-модели (GPT-5, Gemini 2.5 Pro) потребовали max_tokens=4000 + reasoning_effort=low.

Full Report · PDF · ~1 MB

Хотите углубиться?

Скачайте полный отчёт. Внутри — детальный разбор coincidental correctness с примерами кода, разбивка по доменам, эффект разных промптов, тест на стабильность ±5–15 п.п., таблица стоимости и production-рекомендации по сценариям.

  • Phase 1 + Phase 2 со всеми числами
  • Coincidental correctness · паттерны с кодом
  • Cost breakdown по моделям
  • 3 production-сценария: Sonnet / GPT-5 / DeepSeek
  • On-prem рекомендации (DeepSeek V3, Qwen, Llama)
✓ Спасибо! Отчёт открылся в соседней вкладке. Если нет — кликните сюда.
Reproduce on GitHub