AI Vibe Craft
← Назад к AI Vibe News

Редакция 18 июня 2026 г.

Разборы

Двенадцать LLM на одном чемпионате: ранний сигнал live-scoreboard прогнозов

Двенадцать LLM на одном чемпионате: ранний сигнал live-scoreboard прогнозов.

Исследователь TokenMix запустил публичный дашборд, где 12 языковых моделей параллельно прогнозируют исходы матчей чемпионата мира. Эксперимент на Dev.to уже фиксирует 169 прогнозов — и на раннем срезе интереснее не лидеры таблицы, а то, как модели промахиваются вместе.

Как устроен сравнительный бенчмарк на 12 моделях

Автор @tokenmixai описывает арену WorldCup AI Arena: публичный дашборд отслеживает прогнозы моделей, фактические результаты матчей, контекст команд и точность предсказаний. В снимке таблицы на 18 июня 2026, 05:53 UTC участвуют Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro, Qwen 3.7 Plus, Kimi K2.6, Gemini 2.5 Flash, Grok 4.1 Fast Reasoning, DeepSeek V4 Flash, GPT-5 Nano и Qwen3.5 Flash — автор группирует их по семействам (Claude, GPT, Gemini, DeepSeek, Qwen, Kimi, Grok) и помечает tier: flagship, value или wildcard.

Для оценки accuracy учитываются только pre-match прогнозы; post-match reviews из расчёта исключаются — иначе модель «знает» итог. Страница помечена как entertainment only, не для ставок.

Tier Модели в снимке
flagship Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro
value DeepSeek V4 Pro, Qwen 3.7 Plus, Kimi K2.6, Gemini 2.5 Flash
wildcard Qwen3.5 Flash, Grok 4.1 Fast Reasoning, DeepSeek V4 Flash, GPT-5 Nano

Что означают 169 прогнозов и ничья в таблице

На дашборде 12 отслеживаемых моделей, 169 суммарных прогнозов и 21 settled scoring entry — прогноз, по которому уже можно начислить очки. Exact score hits на снимке равен 0, correct-winner hits — 12, средняя winner accuracy — 62,5%; суммарно в leaderboard набрано 36 очков.

При этом все двенадцать моделей делят первое место: у каждой по 3 points. Выборка слишком мала, чтобы короновать победителя среди LLM — для зрелого сравнения нужно 30–50 settled pre-match прогнозов на модель.

Ранний leaderboard вничью — не баг дашборда, а сигнал о малой выборке: сравнивать flagship и value по трём очкам пока рано.

Ошибки фаворитов важнее совпадений: паттерн на данных

Заявленный паттерн — не «победила дорогая модель», а поведение на фоне неопределённости. Ключевой промах: Portugal vs Congo DR завершился 1:1, а все девять валидных pre-match моделей выбрали победу Portugal (в таблице поста — счета вроде 2:0, 3:0, 2:1 в пользу Portugal). Это favorite bias: общий prior «сильная команда → победа», а не независимые ошибки.

На «очевидном» фаворите картина другая: в матче Uzbekistan vs Colombia (1:3) все 12 моделей верно указали Colombia победителем, но exact score ни у кого не совпал. Консенсус на направлении и коллективный провал на ничьей у фаворита — разные сигналы для eval.

По leaderboard на снимке у Qwen3.5 Flash, Claude Opus 4.7 и Claude Sonnet 4.6 — 100% winner accuracy, но каждая из них имеет лишь один settled pre-match прогноз; у остальных в таблице — 50% на двух settled и т.д., при равных трёх очках.

Дешёвые модели, routing и метрики eval

Спортивный прогноз здесь — stress test для LLM: structured facts, устаревшие priors, калибровка уверенности, unit economics и сложность признать ничью у фаворита. Ранний вывод формулируется так: «favorite bias is real, and cheap models are good enough to poll at scale» — дешёвые модели на простых матчах могут выглядеть сопоставимо с flagship, а дорогие имеет смысл подключать при высокой неопределённости или разногласии между моделями.

Псевдологика маршрутизации вызовов — иллюстрация production routing, не заявленный как продакшен-код арены:

pick_prediction_route(match_uncertainty, model_disagreement, budget_mode):
  if budget_mode == "scale": return cheap_model_pool
  if model_disagreement high: return flagship_pool
  if match_uncertainty high: return flagship_pool
  else: return value_tier_pool

Дальше планируется считать winner accuracy, exact score, goal difference, Brier score, confidence bucket accuracy, cost per correct winner, draw recall и ценность разногласий между моделями. Пока settled entries мало, смысл эксперимента — не рейтинг «лучшей» LLM, а наблюдение за коллективным поведением на одной задаче.

Источники

  • TokenMix AI (@tokenmixai), «I Let 12 AI Models Predict the World Cup. The First 169 Picks Already Show a Pattern.» — Dev.to (доступ: 2026-06-18 UTC)