Джон Шульман: тупики в RL, масштабирование и исследовательские команды

На YouTube доступен разговор с John Schulman — фигурой, которую чаще всего связывают с RLHF и практическим обучением языковых моделей через подкрепление. В подкасте заходят о том, в какой момент большие модели перестали быть лабораторной демонстрацией и стали инструментом на каждый день, как устроены исследовательские группы вокруг экспериментов и инфраструктуры, и куда может двигаться reinforcement learning после эры чат-ботов и агентов «в проде».

Для разработчика или инди-хакера, который вайб-кодит в Cursor и опирается на LLM в продукте, ценность не в формулах, а в перспективе: где сейчас dead ends, что даёт масштабирование RL, зачем внутри компаний вообще выделяют отдельные research-институты и как это стыкуется с инженерной реальностью. Это помогает отделить хайп от направлений, куда реально вкладывают людей и вычисления.

Формат — длинное интервью без «чек-листа на вечер»; удобно слушать выборочно или на фоне, если вам близки темы агентов, обучения с подкреплением и культуры исследований.

Источник: видео на YouTube.