Open Research · Updated June 2026

Какая LLM лучше всех пишет Qlik Set Analysis?

Name: QSABench: LLM × Qlik Set Analysis Benchmark
Creator: Datanomix
Published: 2026-05-15
License: https://creativecommons.org/licenses/by/4.0/
Keywords: Qlik Set Analysis, LLM benchmark, GPT-5, Claude Opus, Gemini 2.5 Pro, DeepSeek V3, LLM evaluation, Set Analysis, Qlik, business intelligence

Бенчмарк 13 моделей на 31 задаче из трёх доменов (Sports, HR, Sales). Каждое выражение выполнено в Qlik против реальной модели данных и сверено с эталоном: сначала по итоговому числу, затем по эквивалентности формулы эталонной.

Models 13 Tasks 31 Domains 3 Budget $17.35 By Datanomix

#?	Model?	Provider?	Overall?	Number OK?	Logic OK?	Coincidental?	Tasks passed?
01	Gemini 2.5 Pro	Google	60%	68%	53%	4	21/31
02	Claude Opus 4.7	Anthropic	46%	55%	37%	5	17/31
03	Claude Sonnet 4.6	Anthropic	40%	52%	27%	7	16/31
04	Mistral Large	Mistral	36%	45%	27%	6	14/31
05	Grok 3	xAI	39%	45%	33%	3	14/31
06	GPT-5	OpenAI	33%	39%	27%	4	12/31
07	DeepSeek V3LOCAL	DeepSeek	28%	32%	23%	2	10/31
08	Gemini 2.5 Flash	Google	22%	26%	17%	2	8/31
09	Claude Haiku 4.5	Anthropic	24%	26%	23%	1	8/31
10	Qwen 2.5 72BLOCAL	Alibaba	20%	19%	20%	0	6/31
11	GPT-5 mini	OpenAI	18%	19%	17%	1	6/31
12	Llama 3.3 70BLOCAL	Meta	4%	6%	3%	1	2/31
13	Qwen 2.5 Coder 32BLOCAL	Alibaba	6%	6%	7%	0	2/31

Top tier (overall ≥45%) Mid tier Low / weak

Overall — среднее «Number OK» и «Logic OK». Number OK — итоговое число совпало с эталонным KPI при выполнении в Qlik. Logic OK — выражение эквивалентно эталонной Set Analysis-формуле. Coincidental — число совпало, но выражение от эталона отличается; часть таких случаев — допустимые альтернативы (например, счёт по ключу ID вместо Name).

Методология

Как мы это считали — в четырёх абзацах.

Phase 1 · Phase 2

Двухфазная схема

Phase 1 — 13 моделей × 31 задача × 1 стандартный промпт (отбор). Phase 2 — топ-5 финалистов × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель Phase 2 — измерить эффект промпт-инжиниринга.

Dual judge

Проверка по числу и по логике

Каждое выражение выполняется в Qlik (Engine API) и сверяется с эталонным KPI — это Number OK. Затем формула сравнивается с эталонной Set Analysis по полям и логике множеств — это Logic OK. Разница между двумя метриками и есть «логический разрыв».

Tasks · qata.datanomix.pro

Реальные задачи с автопроверкой

31 верифицированная задача Set Analysis из трёх доменов: Sports, HR, Sales. Использовали платформу QATA для автопроверки результатов с эталонами.

Budget

$17.35 из $20 на OpenRouter

~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Opus в Phase 1) — при повторе с Sonnet стоимость в 14× ниже. Reasoning-модели (GPT-5, Gemini 2.5 Pro) потребовали max_tokens=4000 + reasoning_effort=low.

Full Report · PDF · ~1 MB

Хотите углубиться?

Скачайте полный отчёт. Внутри — детальный разбор coincidental correctness с примерами кода, разбивка по доменам, эффект разных промптов, тест на стабильность ±5–15 п.п., таблица стоимости и production-рекомендации по сценариям.

Phase 1 + Phase 2 со всеми числами
Coincidental correctness · паттерны с кодом
Cost breakdown по моделям
3 production-сценария: Sonnet / GPT-5 / DeepSeek
On-prem рекомендации (DeepSeek V3, Qwen, Llama)