Бенчмарк 13 моделей на 31 задаче из трёх доменов (Sports, HR, Sales). В этой версии каждое выражение реально выполнено в Qlik через Engine API против эталонной модели данных и сверено с правильным ответом — без доверия оценкам LLM-судьи. Пять задач исключены: их эталонные ответы оказались битыми.
| # | Model | Provider | Overall | Number OK | Logic OK | Coincidental | Tasks passed |
|---|---|---|---|---|---|---|---|
| 01 | Gemini 2.5 Pro | 48% | 58% | 38% | 5 | 15/26 | |
| 02 | Mistral Large | Mistral | 32% | 46% | 19% | 7 | 12/26 |
| 03 | Claude Opus 4.7 | Anthropic | 30% | 42% | 19% | 6 | 11/26 |
| 04 | Claude Sonnet 4.6 | Anthropic | 28% | 42% | 15% | 7 | 11/26 |
| 05 | Grok 3 | xAI | 34% | 42% | 27% | 4 | 11/26 |
| 06 | DeepSeek V3LOCAL | DeepSeek | 25% | 31% | 19% | 3 | 8/26 |
| 07 | GPT-5 | OpenAI | 23% | 31% | 15% | 4 | 8/26 |
| 08 | Gemini 2.5 Flash | 18% | 23% | 12% | 3 | 6/26 | |
| 09 | Claude Haiku 4.5 | Anthropic | 21% | 23% | 19% | 1 | 6/26 |
| 10 | Qwen 2.5 72BLOCAL | Alibaba | 19% | 19% | 19% | 0 | 5/26 |
| 11 | GPT-5 mini | OpenAI | 14% | 15% | 12% | 1 | 4/26 |
| 12 | Llama 3.3 70BLOCAL | Meta | 6% | 8% | 4% | 1 | 2/26 |
| 13 | Qwen 2.5 Coder 32BLOCAL | Alibaba | 4% | 4% | 4% | 0 | 1/26 |
Phase 1 — 13 моделей × 31 задача × 1 стандартный промпт (отбор). Phase 2 — топ-5 финалистов × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель Phase 2 — измерить эффект промпт-инжиниринга.
Исходно оба вердикта ставили LLM-судьи без выполнения кода. Мы перепроверили: судья по числу разошёлся с реальным Qlik в ~27% случаев (завернул верные ответы, пропустил неверные). Поэтому здесь Number OK — это фактическое выполнение через Engine API, а не предсказание судьи.
31 задача Set Analysis из трёх доменов: Sports, HR, Sales. Эталоны взяты из QATA. При перепроверке 5 эталонов оказались битыми и исключены из метрик — честная находка про сам ground truth.
~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Opus в Phase 1) — при повторе с Sonnet стоимость в 14× ниже. Reasoning-модели (GPT-5, Gemini 2.5 Pro) потребовали max_tokens=4000 + reasoning_effort=low.
Скачайте полный отчёт. Внутри — разбор coincidental correctness с примерами кода, разбивка по доменам, эффект промптов, тест на стабильность ±5–15 п.п. и production-рекомендации. Примечание: отчёт/PDF пока с числами v1 — лендинг выше уже обновлён на реальное выполнение.