OpenAI и Broadcom выпустили Jalapeño — чип под инференс LLM

OpenAI и Broadcom представили Jalapeño — кастомный AI-чип под инференс LLM с тремя заявленными приоритетами: производительность, эффективность и масштаб AI-систем.
Jalapeño собран не как универсальный ускоритель «на всё», а под вывод больших языковых моделей в продакшене — там, где решают латентность ответа и стоимость токена. В связке владельца ChatGPT и чипмейкера Broadcom это шаг к собственному silicon под реальные профили нагрузки, а не только под чужие GPU.
Для разработчиков на LLM-стеке анонс маркирует тренд: крупные игроки заказывают железо под свой inference-пайплайн. Кастомный чип даёт шанс выжать больше из фиксированного бюджета на инференс и плотнее упаковать запросы в дата-центрах.
Детали архитектуры и график внедрения в облако пока без публичных метрик — но сам факт совместного кастомного чипа усиливает вертикальную интеграцию OpenAI: модели, софт и теперь железо под их сценарии.
Источник: OpenAI and Broadcom unveil LLM-optimized inference chip.