Qualcomm анонсировала новую архитектуру памяти HBC для ИИ-ускорителей, размещающую вычислительный чип под стеком LPDDR. Решение призвано преодолеть «стену памяти» без сложной упаковки HBM: задержки сопоставимы с SRAM, а энергоэффективность в разы выше.

Несмотря на стремительный рост вычислительных мощностей ИИ, развитие отрасли сдерживается аппаратными ограничениями. Главным барьером остается так называемая «стена памяти» — разрыв между растущими потребностями вычислителей в данных и скоростью увеличения пропускной способности оперативной памяти. Даже современные решения, такие как высокопроизводительная память HBM, сталкиваются с этим ограничением, что стимулирует поиск альтернативных подходов.
Компания Qualcomm представила архитектуру высокопроизводительных вычислений с близкой памятью, получившую обозначение HBC. Предложенная схема предполагает физическое отделение AI-ускорителя от основного системного чипа (SoC) и размещение его непосредственно под стеком памяти LPDDR. Соединение осуществляется через сквозные кремниевые отверстия (TSV), что позволяет отказаться от сложного и дорогостоящего промежуточного слоя, используемого в HBM.
По заявлениям компании, данное решение обеспечивает задержки, сопоставимые со встроенной SRAM, при сохранении высокой плотности хранения. Сравнительные показатели HBC выглядят следующим образом: пропускная способность в пересчете на единицу потребляемой мощности в 5–7 раз превышает показатели HBM, а доступный объем памяти более чем в 200 раз превосходит возможности встроенной SRAM. При этом разработчики признают, что по абсолютной пиковой пропускной способности и максимальному объему HBC уступает традиционной HBM. Конкретные цифры производительности компания пока не раскрыла.
Идея близкого размещения памяти не является уникальной разработкой Qualcomm. Ряд производителей в сфере систем хранения данных и ASIC-чипов ведут исследования в этом направлении. Например, компания GUC (Zhibang Integrated Circuit) недавно анонсировала технологию DoL (DRAM-on-Logic), предполагающую установку до четырех слоев DRAM на логический чип, что обеспечивает пропускную способность около 5 ТБ/с, в некоторых сценариях превосходящую показатели HBM3E.
Qualcomm также обнародовала дорожную карту развития своих AI-ускорителей серии Dragonfly. В текущем году ожидается выпуск модели AI200 с традиционной памятью LPDDR5X и объемом до 43 ТБ. В следующем году дебютирует продукт первого поколения с архитектурой HBC под индексом AI250 с аналогичной емкостью, но с пропускной способностью, в 18 раз превышающей AI200. В дальнейшем запланирован релиз AI300, где, как заявлено, этот показатель будет в 54 раза выше, чем у базовой модели AI200, хотя детальные спецификации не уточняются.
