В то время как большинство современных суперкомпьютеров и кластеров искусственного интеллекта строятся на комбинации CPU и GPU, Китай развернул несколько машин, использующих только центральные процессоры. Причина — запрет США на поставки графических ускорителей. Суперкомпьютер LineShine мощностью 1,54 эксафлопс работает на 20 480 специализированных процессорах LX2 архитектуры Armv9, оптимизированных для задач ИИ и высокопроизводительных вычислений.

Суперкомпьютер LineShine оснащен специализированными процессорами LX2, также основанными на Armv9, разработанными для крупномасштабных задач ИИ и высокопроизводительных вычислений. Разработчик LX2 официально не раскрывается, однако аналитики называют его процессором «Huawei LX2». Возможные варианты: это специализированный CPU Huawei для HPC, совместная разработка Huawei и NSCC или процессор от стороннего поставщика, поддерживаемого китайским правительством.
Каждый процессор LX2 содержит два вычислительных кристалла и имеет в сумме 304 ядра CPU, организованных в восемь кластеров по 38 ядер. Каждое ядро включает блоки Arm SVE (векторные расширения) и SME (матричные расширения), ускоряющие операции векторов и матриц, используемые в обучении ИИ и научных расчетах, с поддержкой форматов FP64, FP32, BF16, FP16 и INT8. Объем кэш-памяти L1 — 32 КБ на инструкции и 32 КБ на данные на ядро, а каждый кластер использует 28,5 МБ общей L2-кэш-памяти.
Подсистема памяти процессора включает 32 ГБ встроенной памяти HBM с пропускной способностью до 4 ТБ/с и до 256 ГБ внешней памяти DDR5. Аналогичное решение применялось в процессоре Fujitsu A64FX для суперкомпьютера Fugaku, но LX2 — вероятно, первый процессор на Armv9 для ИИ и HPC с такой архитектурой памяти. Каждый чиплет содержит четыре домена HBM и четыре домена DDR, что дает 16 доменов NUMA на процессор. Доступ к HBM зависит от локальности, тогда как доступ к DDR более равномерен в пределах кристалла. Для перемещения данных между DDR и HBM используется специальный механизм SDMA.
Производительность одного LX2: 60,3 терафлопс в режиме FP64, 240 терафлопс в BF16/FP16 и 960 терафлопс в INT8. В отличие от обычных серверных CPU, эта архитектура существенно оптимизирована для ресурсоемких задач ИИ и матричных вычислений. В статье отмечается, что для поддержания высокой загрузки матричных процессоров потребовалась тщательная совместная разработка ядер, планирование выполнения, управление кэшем и размещение тензоров в иерархии HBM и DDR.
Суперкомпьютер LineShine состоит из 20 480 вычислительных узлов, каждый с двумя процессорами LX2. Таким образом, всего в системе 40 960 процессоров LX2 и 2 451 840 ядер. Узлы соединены высокоскоростной сетью LingQi (LQLink) со скоростью 1,6 Тбит/с на узел.