Open Research · Updated June 2026

Какая LLM лучше всех пишет Qlik Set Analysis?

Name: QSABench: LLM × Qlik Set Analysis Benchmark
Creator: Datanomix
Published: 2026-05-15
License: https://creativecommons.org/licenses/by/4.0/
Keywords: Qlik Set Analysis, LLM benchmark, GPT-5, Claude Opus, Gemini 2.5 Pro, DeepSeek V3, LLM evaluation, Set Analysis, Qlik, business intelligence

Бенчмарк 13 моделей на 31 задаче из трёх доменов (Sports, HR, Sales). Каждый ответ проверяли два независимых LLM-судьи: сначала по итоговому числу, потом по эквивалентности логики выражения эталонной формуле. А ещё интереснее: примерно в 18% верных ответов модель пишет формулу грамотнее эталона — например, считает по уникальному ключу ID, а не по Name.

Models 13 Tasks 31 Domains 3 Budget $17.35 By Datanomix

#?	Model?	Provider?	Overall?	Number OK?	Logic OK?	Better?	Coincidental?	Tasks passed?
01	Gemini 2.5 Pro	Google	58%	68%	47%	4	2	21/31
02	Claude Opus 4.7	Anthropic	41%	55%	27%	4	4	17/31
03	Claude Sonnet 4.6	Anthropic	36%	52%	20%	3	6	16/31
04	Mistral Large	Mistral	34%	45%	23%	3	4	14/31
05	Grok 3	xAI	36%	45%	27%	3	2	14/31
06	GPT-5	OpenAI	30%	39%	20%	2	4	12/31
07	DeepSeek V3LOCAL	DeepSeek	24%	32%	17%	2	2	10/31
08	Gemini 2.5 Flash	Google	18%	26%	10%	2	2	8/31
09	Claude Haiku 4.5	Anthropic	23%	26%	20%	1	1	8/31
10	Qwen 2.5 72BLOCAL	Alibaba	18%	19%	17%	1	0	6/31
11	GPT-5 mini	OpenAI	18%	19%	17%	1	0	6/31
12	Llama 3.3 70BLOCAL	Meta	4%	6%	3%	0	1	2/31
13	Qwen 2.5 Coder 32BLOCAL	Alibaba	4%	6%	3%	1	0	2/31

Top tier (overall ≥45%) Mid tier Low / weak

Number OK — итоговое число совпало с эталонным KPI. Logic OK — выражение строго эквивалентно эталонной формуле. Better — выражение отличается от эталона, но семантически грамотнее (счёт по ключу ID вместо Name): из 300 верных ответов таких 54 (18%) — модель поправляет человека-эталон. Coincidental — число совпало через хрупкую формулу. Overall — среднее Number OK и Logic OK.

Методология

Как мы это считали — в четырёх абзацах.

Phase 1 · Phase 2

Двухфазная схема

Phase 1 — 13 моделей × 31 задача × 1 стандартный промпт (отбор). Phase 2 — топ-5 финалистов × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель Phase 2 — измерить эффект промпт-инжиниринга.

Dual judge

Два независимых LLM-судьи

Claude Opus 4.7 проверяет, совпадает ли итоговое число с эталонным KPI. Claude Sonnet 4.6 проверяет, эквивалентно ли само выражение эталонной формуле. Разница между двумя оценками и есть «логический разрыв».

Tasks · qata.datanomix.pro

Реальные задачи с автопроверкой

31 верифицированная задача Set Analysis из трёх доменов: Sports, HR, Sales. Использовали платформу QATA для автопроверки результатов с эталонами.

Budget

$17.35 из $20 на OpenRouter

~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Opus в Phase 1) — при повторе с Sonnet стоимость в 14× ниже. Reasoning-модели (GPT-5, Gemini 2.5 Pro) потребовали max_tokens=4000 + reasoning_effort=low.

Full Report · PDF · ~1 MB

Хотите углубиться?

Скачайте полный отчёт. Внутри — детальный разбор coincidental correctness с примерами кода, разбивка по доменам, эффект разных промптов, тест на стабильность ±5–15 п.п., таблица стоимости и production-рекомендации по сценариям.

Phase 1 + Phase 2 со всеми числами
114 случаев coincidental correctness · 2 паттерна с кодом
Cost breakdown по моделям
3 production-сценария: Sonnet / GPT-5 / DeepSeek
On-prem рекомендации (DeepSeek V3, Qwen, Llama)