TPU с 121 эксафлопс: Google выложила ролик, как тензорные процессоры тянут GenAI

121 эксафлопс вычислительной мощности у заявленного нового поколения TPU и вдвое выше пропускная способность относительно прошлой линейки — Google [LINK:выложила] пятиминутный ролик, как Tensor Processing Units устроены под матричную математику, на которой держатся большие модели. Аппаратные ускорители проектируют с нуля больше десяти лет специально под machine learning, а не как универсальные CPU для произвольного кода.
Тезисы из ролика
- TPU — кастомные чипы под масштабную линейную алгебру, а не разогнанный «универсальный» CPU.
- Ориентир по цифрам: 121 эксафлопс и вдвое больше полосы, чем у прошлой линейки — запас и по чистым вычислениям, и по обмену с памятью при тренировке и инференсе.
- Нить с продуктами: за обычными сервисами Google стоят тензорные конвейеры; ролик связывает кремний с тем, что вы видите в выдаче модели.
Для инженера, который смотрит на облачный AI снизу вверх, схема близка к обсуждению GPU-кластеров: пока веса и активации идут пакетами тензоров, ускоритель с памятью, шиной и матричными блоками под линейную алгебру обычно бьёт по задержке и стоимости кадра сильнее, чем универсальная связка. Ролик — вводный уровень, не даташит, но отвечает на вопрос, зачем в стеке отдельные TPU, если рядом есть CPU и GPU. Один просмотр вечером перекладывает картинку с презентаций вендоров в голове на что-то, за что реально цепляется бюджет на инференс.
Источник: Here’s how our TPUs power increasingly demanding AI workloads.