Редакция 30 мая 2026 г.

Как на самом деле работает дистилляция LLM — и что за заголовками «Китай дистиллировал нашу модель»

«Китай дистиллировал нашу модель» в заголовках — шпионский триллер; за кадром — учебник knowledge distillation: student подстраивается под teacher, часто через закрытые API GPT и Claude. Разбор @p0rt на Dev.to отделяет hard и soft labels, black-box от white-box и хронологию claims OpenAI и Anthropic против DeepSeek — без подмены инженерии геополитикой.

Как student учится у teacher в LLM

Knowledge distillation — способ сжать знания: меньшая student-модель подстраивается под поведение более крупной teacher. Классическая постановка (Hinton et al., 2015) учит student не только по «жёстким» меткам ground truth, но и по распределению выходов teacher — так называемым soft labels.

В LLM это работает по токенам: на каждом шаге student сравнивает своё next-token распределение с teacher. Hard label — финальный ответ teacher (или эталонная метка). Soft label — полный вектор вероятностей после softmax по logits teacher.

Температура T > 1 «размягчает» распределение: logits делят на T перед softmax, а в loss обычно смешивают cross-entropy по hard-части и KL-divergence по soft-части, с поправкой на масштаб градиентов через T². На практике смешивают оба сигнала; в разборе отмечают, что недавние работы связывают выигрыш не только с «лучшим копированием teacher», но и с борьбой exposure bias.

def distillation_loss(student_logits, teacher_logits, labels, T=2.0, alpha=0.5):
    hard_loss = F.cross_entropy(student_logits, labels)
    soft_loss = F.kl_div(
        F.log_softmax(student_logits / T, dim=-1),
        F.softmax(teacher_logits / T, dim=-1),
        reduction="batchmean",
    ) * (T * T)
    return alpha * hard_loss + (1 - alpha) * soft_loss

У крупных вендоров «дешёвая быстрая» production-версия флагмана нередко — distilled student. В контексте нынешних споров там же напоминают: лаборатории, поднимающие тревогу, сами регулярно дистиллируют свои модели в меньшие и более дешёвые варианты.

Закрытый API: black-box вместо white-box

Если у вас есть веса и logits teacher, это white-box: богатый сигнал, полное распределение на каждом токене. Закрытый коммерческий API отдаёт только текст ответа — сценарий black-box, и именно его связывают с медийными формулировками про «дистилляцию чужой frontier-модели».

	White-box	Black-box (closed API)
Что нужно	Logits / веса	Только текстовые ответы
Сигнал	Полное распределение	Финальные ответы
Против закрытой модели?	Нет	Да

Типичный pipeline:

Много промптов к teacher через API.
Сбор сгенерированных текстов.
Синтетический датасет «prompt → answer».
Fine-tuning student (часто SFT, иногда с RL).

Доказать «учился ли X на выходах Y» сложно: нет «украденного файла весов» — остаются статистические отпечатки в поведении (модель называет себя ChatGPT, копирует характерные quirks). У большинства frontier API в ToS запрещено использовать outputs для обучения конкурирующей модели; спор чаще про доступ и контракт, чем про однозначное «IP theft». Правовой статус обучения на чужих outputs в материале назван не урегулированным окончательно.

Для разработчика с LLM-стеком это практический срез: промпты, синтетические данные из API и fine-tuning — не абстрактный ML, а рабочий контур вокруг закрытых провайдеров.

Сенсационные заголовки — паттерн, не магия

Периодически в ленте всплывают формулировки вроде «китайская лаборатория дистиллировала frontier-модель OpenAI или Anthropic». В комментариях дистилляцию называют то кражей, то «экзотическим трюком» — оба крайних ярлыка в разборе отвергают.

Позиция: дистилляция — устоявшаяся техника; лаборатории, которые бьют тревогу, сами её применяют. Реальный предмет спора уже, чем сенсационный заголовок — инженерия, ToS и геополитика, а не «секретный китайский алгоритм».

Оговорка по источнику: там описан обобщённый паттерн заголовков, без разбора конкретных газетных публикаций с датой и изданием — named headline из СМИ к материалу не привязан.

Хронология claims: R1, memo в Конгресс, «distillation attack»

Ниже — обвинения в изложении первоисточника: полные underlying evidence лаборатории не опубликовали; обвиняемые оспаривают; поведенческое сходство — наводка, не доказательство.

Период	Суть
Январь 2025	После запуска DeepSeek R1 — расследование OpenAI и Microsoft: не использовал ли DeepSeek выходы ChatGPT; пользователи замечали у R1 «подозрительно ChatGPT-like» ответы.
Февраль 2026	OpenAI — memo в U.S. House Select Committee on China: DeepSeek якобы через obfuscated third-party routers извлекал outputs для дистилляции в нарушение ToS.
24 февраля 2026	Anthropic публично обвиняет DeepSeek, Moonshot AI, MiniMax в координированных «distillation attack»: массовые crafted prompts в Claude, allegedly через commercial proxy services, десятки тысяч аккаунтов, обход ограничений доступа из Китая.

Два уточнения из того же разбора:

Спор не в том, что «дистилляция inherently плоха». Если Anthropic называет дистилляцию легитимной и распространённой, предмет — несанкционированный доступ и нарушения ToS, а не сам факт переноса знаний между моделями.
Юридически и доказательно картина ещё не закрыта.

Точных публичных оценок «N дней / $M» для конкретных кейсов в материале нет — любая такая цифра была бы guessing. Структурно: pretrain frontier — огромный run на десятках тысяч high-end accelerators; дистилляция схлопывает timeline, потому что «дорогое открытие capability» уже оплачено teacher. Student не обгоняет teacher: «не дистиллируешься past the frontier».

Источники

@p0rt, How Model Distillation Actually Works (and What the 'China Distilled Our Model' Headlines Really Mean) — Dev.to, опубликовано 29.05.2026; дата доступа при обогащении: 2026-05-29 (UTC).