Редакция 11 мая 2026 г.

Reinforcement learning и нейросети: зачем автору серии на Dev.to отдельный этаж после backpropagation

Во второй части цикла про связку RL и нейросетей автор rijultp показывает, как привычный backpropagation упирается в постановку без эталонного ответа на каждом шаге и почему дальше в сюжет входят policy gradients. https://dev.to/rijultp/understanding-reinforcement-learning-with-neural-networks-part-2-why-backpropagation-is-not-enough-2el2

Заметка на Dev.to датирована 10 мая 2026; у материала теги ai и machinelearning — площадка относит текст к теме обучения моделей для разработчиков.

Как в учебном блоке устроен цикл backpropagation для нейросети

На странице автор начинает с сценария, где уже есть эталонные выходы для сравнения с ответом сети. Идею поясняет компактная таблица «голод → вероятность выбора B»: 0,0 → 0, 1,0 → 1, 0,1 → 0, 0,9 → 1 (вход и выход перечислены в тексте заметки как числовые пары).

Дальше логика близка тем, кто работал с supervised learning: подаём пример, сравниваем выход с целевым значением из данных и по ошибке сдвигаем параметры.

Отдельно подчёркивается роль смещения (bias): направление правки связано со знаком производной, но опора всё равно в том, что «идеальные» ответы заданы данными. Именно это и описывается как базовая идея backpropagation в разговоре про нейросети — механика для случая, когда целевой выход известен заранее.

В RL та же опора пропадает: нет заранее выписанного «правильного» ответа на каждый шаг, и цепочка «ошибка → производная → обновление» ломается в привычном виде.

Почему в RL нет эталонных выходов для привычного backpropagation

В разделе про RL аргумент строится на контрасте: в учебном примере выход сравнивают с целью из таблицы, а в интерактивной постановке (иллюстрация с выбором между Place A и Place B) заранее неизвестны идеальные выходы для той же схемы «факт минус эталон». Без этой разницы в стандартной форме нет привычного способа посчитать производные для обновления весов.

По логике страницы в такой постановке:

нет заранее заданной «идеальной» метки на шаг, которую можно подставить в разницу с выходом сети;
без этой разницы обычная цепочка градиентного обновления в привычном виде не собирается.

То, что в supervised режиме для нейросети выглядело рутиной, здесь превращается в методологический разрыв.

Во вступлении к материалу указано, что в предыдущей статье серии разбирался пример, где нужен reinforcement learning, а стандартные методы не работают. Во второй части автор переходит к тому, зачем в этой архитектуре понадобятся policy gradients и почему ограничение бьёт именно по backpropagation в привычном виде, а не по идее градиентного обучения вообще.

Чем «другой подход» готовит почву для policy gradients

В финальном блоке на странице описан обходной ход: угадывать, какими могли бы быть идеальные выходы, и уже от этих гипотез оценивать производные. Это подаётся как основа policy gradients; далее автор анонсирует продолжение — как RL и policy gradients решают задачу на практике.

Для читателя, который следит за обучением моделей, это мост между схемой «есть эталон в данных» и инструментарием RL, где эталон на каждом шаге не приходит от поставщика датасета, а возникает из взаимодействия агента со средой. Именно так нейросетевой RL оказывается ближе к прикладному ИИ, чем пересказ одного лишь backpropagation без контекста постановки.

Исходного кода в материале нет — только числовая мини-таблица и текстовые разделы с подзаголовками, как на той же странице.

Источники

rijultp. Understanding Reinforcement Learning with Neural Networks Part 2: Why Backpropagation Is Not Enough — https://dev.to/rijultp/understanding-reinforcement-learning-with-neural-networks-part-2-why-backpropagation-is-not-enough-2el2 (дата обращения: 2026-05-10, 21:15 UTC).
Ссылка на предыдущую часть в тексте заметки: https://dev.to/rijultp/understanding-reinforcement-learning-with-neural-networks-part-1-learning-without-correct-answers-47ld (зафиксирована при обращении к основной статье 2026-05-10, 21:15 UTC).