Open Research · Updated June 2026 · Execution-verified v2

Какая LLM лучше всех пишет Qlik Set Analysis?

Name: QSABench: LLM × Qlik Set Analysis Benchmark
Creator: Datanomix
Published: 2026-05-15
License: https://creativecommons.org/licenses/by/4.0/
Keywords: Qlik Set Analysis, LLM benchmark, GPT-5, Claude Opus, Gemini 2.5 Pro, DeepSeek V3, LLM evaluation, Set Analysis, Qlik, business intelligence

Бенчмарк 13 моделей на 31 задаче из трёх доменов (Sports, HR, Sales). В этой версии каждое выражение реально выполнено в Qlik через Engine API против эталонной модели данных и сверено с правильным ответом — без доверия оценкам LLM-судьи. Пять задач исключены: их эталонные ответы оказались битыми.

Models 13 Tasks 31 (26 valid) Domains 3 Verified in Qlik By Datanomix

#?	Model?	Provider?	Overall?	Number OK?	Logic OK?	Coincidental?	Tasks passed?
01	Gemini 2.5 Pro	Google	48%	58%	38%	5	15/26
02	Mistral Large	Mistral	32%	46%	19%	7	12/26
03	Claude Opus 4.7	Anthropic	30%	42%	19%	6	11/26
04	Claude Sonnet 4.6	Anthropic	28%	42%	15%	7	11/26
05	Grok 3	xAI	34%	42%	27%	4	11/26
06	DeepSeek V3LOCAL	DeepSeek	25%	31%	19%	3	8/26
07	GPT-5	OpenAI	23%	31%	15%	4	8/26
08	Gemini 2.5 Flash	Google	18%	23%	12%	3	6/26
09	Claude Haiku 4.5	Anthropic	21%	23%	19%	1	6/26
10	Qwen 2.5 72BLOCAL	Alibaba	19%	19%	19%	0	5/26
11	GPT-5 mini	OpenAI	14%	15%	12%	1	4/26
12	Llama 3.3 70BLOCAL	Meta	6%	8%	4%	1	2/26
13	Qwen 2.5 Coder 32BLOCAL	Alibaba	4%	4%	4%	0	1/26

Top tier (overall ≥45%) Mid tier Low / weak

Number OK — выражение модели при реальном выполнении в Qlik вернуло правильный ответ. Logic OK — формула совпала с эталонной по ядру логики. Overall — среднее двух. Coincidental — верное число через другую формулу. 5 из 31 задачи исключены из метрик: эталонные ответы битые (sports q06 считает значения роста, а не атлетов; hr q09/q10 — формула скопирована с q08; sports q09/q11 — списки эталона обрезаны). Метрики — на 26 валидных задачах.

Методология

Как мы это считали — в четырёх абзацах.

Phase 1 · Phase 2

Двухфазная схема

Phase 1 — 13 моделей × 31 задача × 1 стандартный промпт (отбор). Phase 2 — топ-5 финалистов × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель Phase 2 — измерить эффект промпт-инжиниринга.

Dual judge

Что изменилось в v2: реальное выполнение

Исходно оба вердикта ставили LLM-судьи без выполнения кода. Мы перепроверили: судья по числу разошёлся с реальным Qlik в ~27% случаев (завернул верные ответы, пропустил неверные). Поэтому здесь Number OK — это фактическое выполнение через Engine API, а не предсказание судьи.

Tasks · qata.datanomix.pro

Реальные задачи с автопроверкой

31 задача Set Analysis из трёх доменов: Sports, HR, Sales. Эталоны взяты из QATA. При перепроверке 5 эталонов оказались битыми и исключены из метрик — честная находка про сам ground truth.

Budget

$17.35 из $20 на OpenRouter

~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Opus в Phase 1) — при повторе с Sonnet стоимость в 14× ниже. Reasoning-модели (GPT-5, Gemini 2.5 Pro) потребовали max_tokens=4000 + reasoning_effort=low.

Full Report · PDF · ~1 MB

Хотите углубиться?

Скачайте полный отчёт. Внутри — разбор coincidental correctness с примерами кода, разбивка по доменам, эффект промптов, тест на стабильность ±5–15 п.п. и production-рекомендации. Примечание: отчёт/PDF пока с числами v1 — лендинг выше уже обновлён на реальное выполнение.

Реальное выполнение всех 868 выражений в Qlik
Number OK по факту: топ-модели ~40–58%, общий ~30%
Судья ошибался на ~27% — детально по кейсам
Битые эталоны (q06, hr q09/q10, q09/q11) — что нашли
ID vs Name: почему модель права, а эталон спорный