Бенчмарк 13 моделей на 31 задаче из трёх доменов (Sports, HR, Sales). Каждое выражение выполнено в Qlik против реальной модели данных и сверено с эталоном: сначала по итоговому числу, затем по эквивалентности формулы эталонной.
| # | Model | Provider | Overall | Number OK | Logic OK | Coincidental | Tasks passed |
|---|---|---|---|---|---|---|---|
| 01 | Gemini 2.5 Pro | 60% | 68% | 53% | 4 | 21/31 | |
| 02 | Claude Opus 4.7 | Anthropic | 46% | 55% | 37% | 5 | 17/31 |
| 03 | Claude Sonnet 4.6 | Anthropic | 40% | 52% | 27% | 7 | 16/31 |
| 04 | Mistral Large | Mistral | 36% | 45% | 27% | 6 | 14/31 |
| 05 | Grok 3 | xAI | 39% | 45% | 33% | 3 | 14/31 |
| 06 | GPT-5 | OpenAI | 33% | 39% | 27% | 4 | 12/31 |
| 07 | DeepSeek V3LOCAL | DeepSeek | 28% | 32% | 23% | 2 | 10/31 |
| 08 | Gemini 2.5 Flash | 22% | 26% | 17% | 2 | 8/31 | |
| 09 | Claude Haiku 4.5 | Anthropic | 24% | 26% | 23% | 1 | 8/31 |
| 10 | Qwen 2.5 72BLOCAL | Alibaba | 20% | 19% | 20% | 0 | 6/31 |
| 11 | GPT-5 mini | OpenAI | 18% | 19% | 17% | 1 | 6/31 |
| 12 | Llama 3.3 70BLOCAL | Meta | 4% | 6% | 3% | 1 | 2/31 |
| 13 | Qwen 2.5 Coder 32BLOCAL | Alibaba | 6% | 6% | 7% | 0 | 2/31 |
Phase 1 — 13 моделей × 31 задача × 1 стандартный промпт (отбор). Phase 2 — топ-5 финалистов × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель Phase 2 — измерить эффект промпт-инжиниринга.
Каждое выражение выполняется в Qlik (Engine API) и сверяется с эталонным KPI — это Number OK. Затем формула сравнивается с эталонной Set Analysis по полям и логике множеств — это Logic OK. Разница между двумя метриками и есть «логический разрыв».
31 верифицированная задача Set Analysis из трёх доменов: Sports, HR, Sales. Использовали платформу QATA для автопроверки результатов с эталонами.
~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Opus в Phase 1) — при повторе с Sonnet стоимость в 14× ниже. Reasoning-модели (GPT-5, Gemini 2.5 Pro) потребовали max_tokens=4000 + reasoning_effort=low.
Скачайте полный отчёт. Внутри — детальный разбор coincidental correctness с примерами кода, разбивка по доменам, эффект разных промптов, тест на стабильность ±5–15 п.п., таблица стоимости и production-рекомендации по сценариям.