Как на самом деле работает дистилляция LLM — и что за заголовками «Китай дистиллировал нашу модель»

«Китай дистиллировал нашу модель» в заголовках — шпионский триллер; за кадром — учебник knowledge distillation: student подстраивается под teacher, часто через закрытые API GPT и Claude. Разбор @p0rt на Dev.to отделяет hard и soft labels, black-box от white-box и хронологию claims OpenAI и Anthropic против DeepSeek — без подмены инженерии геополитикой.
Как student учится у teacher в LLM
Knowledge distillation — способ сжать знания: меньшая student-модель подстраивается под поведение более крупной teacher. Классическая постановка (Hinton et al., 2015) учит student не только по «жёстким» меткам ground truth, но и по распределению выходов teacher — так называемым soft labels.
В LLM это работает по токенам: на каждом шаге student сравнивает своё next-token распределение с teacher. Hard label — финальный ответ teacher (или эталонная метка). Soft label — полный вектор вероятностей после softmax по logits teacher.
Температура T > 1 «размягчает» распределение: logits делят на T перед softmax, а в loss обычно смешивают cross-entropy по hard-части и KL-divergence по soft-части, с поправкой на масштаб градиентов через T². На практике смешивают оба сигнала; в разборе отмечают, что недавние работы связывают выигрыш не только с «лучшим копированием teacher», но и с борьбой exposure bias.
def distillation_loss(student_logits, teacher_logits, labels, T=2.0, alpha=0.5):
hard_loss = F.cross_entropy(student_logits, labels)
soft_loss = F.kl_div(
F.log_softmax(student_logits / T, dim=-1),
F.softmax(teacher_logits / T, dim=-1),
reduction="batchmean",
) * (T * T)
return alpha * hard_loss + (1 - alpha) * soft_loss
У крупных вендоров «дешёвая быстрая» production-версия флагмана нередко — distilled student. В контексте нынешних споров там же напоминают: лаборатории, поднимающие тревогу, сами регулярно дистиллируют свои модели в меньшие и более дешёвые варианты.
Закрытый API: black-box вместо white-box
Если у вас есть веса и logits teacher, это white-box: богатый сигнал, полное распределение на каждом токене. Закрытый коммерческий API отдаёт только текст ответа — сценарий black-box, и именно его связывают с медийными формулировками про «дистилляцию чужой frontier-модели».
| White-box | Black-box (closed API) | |
|---|---|---|
| Что нужно | Logits / веса | Только текстовые ответы |
| Сигнал | Полное распределение | Финальные ответы |
| Против закрытой модели? | Нет | Да |
Типичный pipeline:
- Много промптов к teacher через API.
- Сбор сгенерированных текстов.
- Синтетический датасет «prompt → answer».
- Fine-tuning student (часто SFT, иногда с RL).
Доказать «учился ли X на выходах Y» сложно: нет «украденного файла весов» — остаются статистические отпечатки в поведении (модель называет себя ChatGPT, копирует характерные quirks). У большинства frontier API в ToS запрещено использовать outputs для обучения конкурирующей модели; спор чаще про доступ и контракт, чем про однозначное «IP theft». Правовой статус обучения на чужих outputs в материале назван не урегулированным окончательно.
Для разработчика с LLM-стеком это практический срез: промпты, синтетические данные из API и fine-tuning — не абстрактный ML, а рабочий контур вокруг закрытых провайдеров.
Сенсационные заголовки — паттерн, не магия
Периодически в ленте всплывают формулировки вроде «китайская лаборатория дистиллировала frontier-модель OpenAI или Anthropic». В комментариях дистилляцию называют то кражей, то «экзотическим трюком» — оба крайних ярлыка в разборе отвергают.
Позиция: дистилляция — устоявшаяся техника; лаборатории, которые бьют тревогу, сами её применяют. Реальный предмет спора уже, чем сенсационный заголовок — инженерия, ToS и геополитика, а не «секретный китайский алгоритм».
Оговорка по источнику: там описан обобщённый паттерн заголовков, без разбора конкретных газетных публикаций с датой и изданием — named headline из СМИ к материалу не привязан.
Хронология claims: R1, memo в Конгресс, «distillation attack»
Ниже — обвинения в изложении первоисточника: полные underlying evidence лаборатории не опубликовали; обвиняемые оспаривают; поведенческое сходство — наводка, не доказательство.
| Период | Суть |
|---|---|
| Январь 2025 | После запуска DeepSeek R1 — расследование OpenAI и Microsoft: не использовал ли DeepSeek выходы ChatGPT; пользователи замечали у R1 «подозрительно ChatGPT-like» ответы. |
| Февраль 2026 | OpenAI — memo в U.S. House Select Committee on China: DeepSeek якобы через obfuscated third-party routers извлекал outputs для дистилляции в нарушение ToS. |
| 24 февраля 2026 | Anthropic публично обвиняет DeepSeek, Moonshot AI, MiniMax в координированных «distillation attack»: массовые crafted prompts в Claude, allegedly через commercial proxy services, десятки тысяч аккаунтов, обход ограничений доступа из Китая. |
Два уточнения из того же разбора:
- Спор не в том, что «дистилляция inherently плоха». Если Anthropic называет дистилляцию легитимной и распространённой, предмет — несанкционированный доступ и нарушения ToS, а не сам факт переноса знаний между моделями.
- Юридически и доказательно картина ещё не закрыта.
Точных публичных оценок «N дней / $M» для конкретных кейсов в материале нет — любая такая цифра была бы guessing. Структурно: pretrain frontier — огромный run на десятках тысяч high-end accelerators; дистилляция схлопывает timeline, потому что «дорогое открытие capability» уже оплачено teacher. Student не обгоняет teacher: «не дистиллируешься past the frontier».
Источники
- @p0rt, How Model Distillation Actually Works (and What the 'China Distilled Our Model' Headlines Really Mean) — Dev.to, опубликовано 29.05.2026; дата доступа при обогащении: 2026-05-29 (UTC).