Числогрызы ткнулись в физический предел полупроводников. Куда дальше?

Технологии
автор: Евгений Золотов  27 ноября 2013

Суперкомпьютеры всегда представлялись особенным классом вычислительной техники. Поскольку строят такие машины для решения задач необычных, то и бюджеты имеют необычные, а это, в свою очередь, давало ощущение бесконечных возможностей: казалось, проблема всегда только в деньгах и, влей ещё десяток–другой миллионов, производительность можно наращивать бесконечно. Случившееся в последние месяцы и годы и выраженное свежим списком 500 самых мощных числогрызов планеты — известным вам TOP500.org — даёт, однако, повод утверждать, что «бесконечность» кончилась. Суперкомпьютеры первыми из современных компьютерных систем ткнулись в физический предел возможностей полупроводниковой электроники — и для них прежде всего необходимо теперь отыскать выход из тупика. Новую технологию компьютинга.

Формальной зацепкой для такого далекоидущего утверждения стала странная закономерность, подмеченная составителями вышеназванного списка. Топ-500 обновляется дважды в год, и в верхних позициях его последней версии, опубликованной на прошлой неделе, изменений почти не произошло (в десятку «лучших» добавился всего один новый участник, да суммарная производительность всех пяти сотен машин немного выросла, с 0,223 до 0,250 эксафлопс). Зато случилась качественная общая перемена: «центр тяжести» списка сместился в верхнюю его часть, или, говоря проще, основная вычислительная мощь теперь сконцентрирована в сравнительно небольшом (исторически — рекордно малом) количестве самых быстрых машин. Выглядит это так: половина кумулятивной мощи Топ-450 обеспечивается всего лишь 17 первыми компьютерами списка. Тренд этот обозначился не вчера, однако за последние шесть лет оформился настолько, что над ним необходимо задуматься.

Asci_Red-720x478

Единого несомненного объяснения нет. Одно из самых убедительных — финансовое: за последние годы суперкомпьютеры стали сильно дороже (примерно вчетверо, в сравнении, скажем, с числогрызами середины «нулевых»), а потому доступны теперь лишь относительно немногим государственным агентствам и крупным компаниям. Вдобавок конструкторы и покупатели новых не слишком мощных машин не стремятся засветиться в рейтинге, чтобы не портить себе имидж. Так и получается, что чем дальше, тем ярче проявляется тренд: сильные становятся сильней, слабые нелинейно быстро отстают.

Важный вывод: суперкомпьютеры не перестали быть нужными, они лишь стали менее доступными. Но как же неумирающий закон Мура? Разве он не должен компенсировать рост цен более плотной компоновкой и, соответственно, повышением производительности? Вот тут-то и всплывает главное подозрение. Похоже, мы вышли на финишную прямую, где закон Мура хоть ещё и работает, но воспользоваться им уже слишком дорого для большинства игроков.

Результат учёные формулируют так: за неимением прорывных технологий, которые одним скачком обеспечили бы недостижимую ранее скорость вычислений, суперкомпьютерная индустрия вынуждена двигаться по экстенсивному пути — тупо наращивая численность процессоров на своих машинах. И даже хуже того: поскольку такой путь не способен удовлетворить аппетиты пользователей (а числогрызы традиционно не только инструмент для обработки данных, но ещё и способ утвердить корпоративный и национальный авторитет), конструкторы сделали ставку на графические акселераторы, которые, скажем так, пригодны для решения не всяких задач. Численность суперкомпьютеров, активно использующих GPU, выросла за последние пять лет на порядок!

Roadrunner: 2008, 1,026 петафлопс, $100 млн.

Roadrunner: 2008, 1,026 петафлопс, $100 млн.

И тут очень кстати вспомнить про готовящуюся замену знаменитого теста Linpack, который с самого начала публикации Топ-500 (двадцать лет назад) служит главным мерилом производительности суперкомпьютерных систем. Заменить его предлагается на недавно разработанный тест HPCG (High Performance Conjugate Gradient). Причина: Linpack — написанный на «Фортране» аж в 1979 году — отражает истинную производительность измеряемых систем неудовлетворительно и расхождение растёт.

Вообще, внятно объяснить отличие Linpack от HPCG не может даже их общий соавтор Джек Донгарра. Но, сильно упрощая, разницу можно свести к следующему: Linpack оценивает главным образом способность суперкомпьютера к чистым вычислениям (что хорошо делают GPU-акселераторы), тогда как HPCG учитывает ещё и важную при решении практических научных и технических задач производительность внутренних коммуникаций (то есть частое нерегулярное обращение к памяти, например).

HPCG если и не заменит, то дополнит Linpack уже через несколько лет «обкатки» (кому интересно, исходники доступны под BSD-лицензией с сайта лабораторий Sandia). И это может привести к значительным перестановкам по всему списку Топ-500, возврату в него мелких участников, которые станут получать более высокие, более справедливые оценки, и даже внесению корректировок в архитектуру суперкомпьютеров, когда их перестанут оптимизировать под Linpack. Хоть на последнее, конечно, особенно надеяться не следует — ведь прорывной технологии компьютинга по-прежнему нет!

Tianhe-2: 2013 год, 33,8 петафлопс, $390 млн.

Tianhe-2: 2013 год, 33,8 петафлопс, $390 млн.

А без прорывов в мире числогрызов воцарилась скука. Как построить более мощную машину? Поставить больше процессоров — а значит, найти больше денег. Но реалии таковы, что параллелизация практических задач выше некоторого (и уже достигнутого) уровня не приносит выигрыша в скорости, да и самые мощные суперкомпьютеры уже настолько дороги, что постройка и эксплуатация их по карману единицам, о чём шла речь выше. В результате суперкомпьютерный ручеёк пересыхает. Это конец технологической эры, конец полупроводников в том виде, в каком мы знали их последние пятьдесят лет. И пока не найдётся технологии, способной вывести компьютерную производительность на новый уровень, мы так и будем топтаться на месте, довольствуясь годовым инкрементом в несколько процентов.

Что может обеспечить такой рывок? Западная пресса засматривается на нанотрубки, из которых ребятам в Стэнфорде удалось построить одномерные полярные транзисторы (CNFET), научиться делать микросхемы с гарантированной функциональностью (главная проблема: всё ещё трудно избежать большого числа неправильно уложенных нанотрубок) и даже построить MIPS-совместимый компьютер, продемонстрированный как раз на прошлой неделе, на суперкомпьютерной конференции ACM/IEEE SC13 («Компьютерра» писала об этом проекте: см. «От кремния к углероду»). В перспективе эта технология способна дать 13-кратное превосходство в производительности на единицу энергопотребления к полупроводниковым чипам. Интересно, занимается ли нанотрубками кто-то у нас?

Поделиться
Поделиться
Tweet
Google
 
Читайте также
Linux и её старики: почему ссыхается сообщество разработчиков Ядра?
Linux и её старики: почему ссыхается сообщество разработчиков Ядра?
Чем больна IBM (и чем вообще занимается)?
Чем больна IBM (и чем вообще занимается)?
От кремния к углероду: как создавали первый процессор на углеродных нанотрубках
От кремния к углероду: как создавали первый процессор на углеродных нанотрубках
  • Сергей Зыкин

    Тут скорее системные проблемы
    1. Параллельные алгоритмы обработки информации решают далеко не все задачи, а некоторые решить не могут в принципе (собственно в это и уперлись).
    2. Процессоры требуют сопутствующую инфраструктуру (то же не 5 копеек стоящую). Использование в составе суперкомпьютеров «док-станций» для процессоров и ОЗУ в голову никому не пришло. (принцип виртуальных ядер — т.е. ПО рассматривает такой суперкомпьютер как один системник с процессором, например, на 20 тысяч ядер и с Тб ОЗУ)

    3. Отсутствие прорывных работ в организации вычислений на суперкомпьютерах. Кластеры/облака/ системы распределенных вычислений можно так же выводить в класс суперкомпьютеров, но вот подвижек в самой технологии распараллеливания вычислений не наблюдается.

    4. Отсутствие рыночной мотивации. Суперкомпьютеры имеют низкую рыночную ценность, поэтому интерес к их развитию небольшой.

    5. Слабое представление заинтересованных лиц о том «что это» и «зачем это нужно».

    Думаю «облако» развернутое на суперкомпьютере резко повысит привлекательность данного вида вычислительных систем.

    ИМХО, Единственная ошибка в статье — суперкомпьютеры уперлись не в технологический предел, а в «логический» — дальнейшее увеличение мощности при слабой параллелизации вычислений…

    Можно конечно извратиться и загнать СПК в жидкий азот и давануть 15-20 ГГц, тогда и последовательные вычисления резко ускоряться…

    • ExMuser

      пмсм, в Лос-Аламосе стоит далеко не самый кошерный монстр. Да и в Китае, думаю, тоже…

  • // ..в физический предел возможностей полупроводниковой электроники..
    Физический предел полупроводникового транзистора 100-200 Ггц.
    Проблемы тут в использовании 50 летней архитектуры коммутации элементов.

    • ExMuser

      А разве коммутация не подразумевает интерференцию? При таких-то частотах, да с такими интервалами между проводниками, пмсм, это породит очередной тип модуляции и кодирования сигналов, который будет съедать и время, и энергию…

      • Плюс электромагнитные наводки между дорожками, и нагрев, и еще умножить на разрядность — количество одновременно используемых кана передачи сигналов.

        • ExMuser

          Ну, это очевидно. :)
          Имхо, ведущие державы таки должны, как бы им не не хотелось, конкретно взяться за квантовые вычисления. Не грантами копеечными отмахиваться, а вбухать реальные миллиарды в НИОКР. Кто первый — тот герой.

          • Ага, кто первый новое слово придумал — того и откат/инвестиции.
            У квантовых обработчиков те же проблемы, считает сразу, снять нужный результат медленно.

          • ExMuser

            Почему-то у меня в голове первым делом всплыли такие нетехнологичные, зато весьма эффективные фонарные столбы… И тишина…

          • Мм, давно точу зубы на передачу данных с лампочек — visual light communication — http://innovations.rbc.ua/rus/britanskie-uchenye-dostigli-skorosti-peredachi-dannyh-v-29102013171500

          • ExMuser

            Я немного про другое намекал. Про тех, кто на этих столбах развешан. ;)

          • Так было такое при Сталине. Отбор по Дарвину. Из 10к пару генеральных конструкторов типа Королева, Туполева.
            Слишком КПД у метода слабый. Народ не поймет.

          • ExMuser

            Нам сегодня хотя бы до Сталина дотянуть… Сроки-то поджимают. БП на носу, нужно быть готовыми. А у нас кроме экономастов и юрастов и прочих педерастов с дипломами и нетути никого.

          • Да есть. Почитайте блог Анатолия Левенчука. Посмотрите видео на vimeo про системную инженерию.

      • Аа, понял вопрос. Простое наращивание количества проводков в канале упрется в ограничения архитектуры. То что имеем сейчас.

        Уберите коммутацию до одного канала. Интегрируйте элементы хранения и изменения в одном месте, установите буферы для медленных элементов, и наконец забудьте о тактировании.

        • ExMuser

          USB и SATA по этому пути и идут. Правда, USB уже обратно набирает проводники… А асинхронность всегда была близким другом надёжности и злейшим врагом скорости. :)

          • Ну, по торренту большие файлы быстрее перекачиваються, из-за того что узкое горлышко-тормоз, тсп протокол, требует на каждый отосланный пакет операции подтверждения доставки. А если проверка доставки не будет тормозить фазу передачи данных плюс будет использоваться весь доступный объем канала то и будет быстрее.

            Так что скорее неправильная реализация в русле производительности, причина проблем с ассинхронностью.

          • ExMuser

            Бесспорно.

      • А еще забыли про слой микрокода который тоже убивает производительность от 10 до 100 раз.

        • ExMuser

          Про микрокод не знаю больше того, что это «типа прошивка» самого проца. Зато знаю про шестислойные платы. Где царят и интерференция, и наводки, и тепло, и энергопотери. Ведь, даже с фотолитографией уже подобрались вплотную к квантовым размерам. У инженеров-разрабов — аццки крепкий орешек для разгрызания.

          • А я вот жду когда будет 3д принтер полупроводниковой электроники…

          • ExMuser

            Не при нашей жизни, уверяю Вас.

          • Alexander Sidorov

            Платы 20 слойные и частоты 2-10Ггц. Самое больное место подложка корпуса микросхемы и разводка на слоях в силиконе + потребление на выских частотах и утечки по 20-40 ватт на 19-28 нанометров… Ух не тем силиконом мы занимаемся…

        • _Alex_

          А чем микрокод-то плох? Это же экономия обращений к памяти: процессор читает одну сложную инструкцию, а потом делает кучу работы. А на RISC даже чтобы регистр в стек поместить надо программу писать.

          • ExMuser

            О, началось. Извечная борьба RISC с CISC. Запасаюсь попкорном…

          • Ничем не плох.
            С одной стороны легко менять задним числом функциональность вычислителя, меньше затрат на физическую реализацию сложных команд.
            С другой, уменьшение производительности, увеличение энергопотребления на операцию.

            Зато у risc-а в одной команде и сравнение, и операция. Потому арм-ы такие холодные. Только набор операций реализованных в железе давно не менялся, из-за проклятия совместимости. Вот отсюда и сложности с некоторыми типами операций.

            А надо просто генерацию кода делать автоматически.

          • _Alex_

            Совершенно согласен. Просто меня зацепила эта оценка, что микрокод убивает производительность в 100 раз.

            Возможно, в компьютерах 70-х и 80-х что-то похожее было, когда микрокод читался из медленных ПЗУ и ПЛМ, и их быстродействие задавало тактовую частоту. Но потом микрокод стал храниться в статическом ОЗУ, повсеместно стала использоваться конвейеризация, и разница в производительности на основных операция исчезла — если инструкция выбрана и декодирована, она выполняется за один такт.
            Ну, ценой роста числа исполнительных устройств и энергопотребления, естественно.

          • T_at_work

            если инструкция выбрана и декодирована, она выполняется за один такт.

            это вы так про x86?..

          • _Alex_

            А что?

          • T_at_work

            да то, что это катастрофически далеко от действительности

        • Denis Fed

          слой микрокода который тоже убивает производительность от 10 до 100 раз.

          А доказать можете или так голословно ….

          • сложные операции исполняются за сотню тактов. в большинстве случаев конвейер позволяет выполнить за такт. однако при неудачном прогнозировании следующих команд, конвейер опустошается, возникает задержка из-за полного цикла исполнения операции.
            такие редкие задержки накапливаются и в итоге тормозят суммарную производительность.

            тут путаница слова производительность.
            на физическом уровне, полупроводник только эмулирует логические операции на скорости в ггц.
            микрокод эмулирует арифметические операции с помощью логических.

            отсюда минимум два показатели — 1) количество арифметических операций в секунду, flops-ы например.
            2) количество логических операций в секунду, такты. физическая производительность полупроводника.

            в итоге с учетом разных задержек, разных вероятностях угадывания следующего кода, суммарная производительность сильно плавает.

    • _Alex_

      Это вы про какую память? У современных процессоров во-первых кэш, во-вторых тактовая частота не привязана к скорости работы памяти.

    • Denis Fed

      Физический предел полупроводникового транзистора 100-200 Ггц.

      Фокус в том что вам не нужен 1 транзистор а нужен ансамбль из МИЛЛИОНОВ работающих транзисторов. А это уже немного другая задача !!!

      • А откуда взялся этот миллион ? Из-за интенсивного наращивания вширь — увеличение количества вычислителей.

        Нужно изменять сигнал с максимальной скоростью — количество за время.
        Можно увеличивать количество, что, после 50 лет использования, сейчас мешает дальше двигаться. А можно уменьшать время исполнения. Но для этого не надо за собой тянуть старые стереотипы.

        • T_at_work

          даже не из-за этого. Процессоры за редчайшими исключениями — синхронные машины. Все эти длинные конвейеры и т.п. делаются для того, чтобы как-то «размазать» операции по тактам. А вот ежели тактов не станет вообще… нейронная сеть ведь как-то без них обходится, и ничо — живём!

          • Чудовищно неэффективное решение, впрочем как и все что в природе эволюционировало. 3 года на выращивание нейронов, потом еще 15 лет на обучение, а в результате арифметические операции над числами до 20 с трудом производятся.

          • T_at_work

            да-да, зато в понимании смыслов кремневые компьютеры прямо таки превзошли своих создателей.. или нет? все эти петафлопсы и терабайты до сих пор не научились думать. Может, дело вовсе не в грубой производительности, а в какой-то другой штуке, типа организации процеса или вовсе в основных принципах?

          • кремниевые вычислители, как и другие вычислители никогда не делались для «понимания смысла». только для выполнения логических операций а поверх них — арифметических.

          • T_at_work

            однако, асинхронные системы есть и для вычислений. Просто они ОЧЕНЬ непривычны.

          • Есть пример железки ?

          • T_at_work

            у меня нет, но вот популяризующая идею статья

            http://www.electronicsforu.com//EFYLinux/efyhome/cover/January2008/Asynchronous%20Microprocessor.pdf

            и вообще, погуглите «clockless asynchronous»

          • почитал. малополезное. в четверть меньше энергопотребление.
            про общую скорость ни слова.
            существующую архитектуру, архитектуру фон-неймана критикуют из-за бутылочного горлышка скорости обмена данными с памятью.
            пока это не решат, ускорения в других местах, конвейер, асинхронность ариф.операций, мало чем помогут.

          • T_at_work

            теоретически, скорость может быть поднята до буквально физического предела — данные на выходе регистра появляются, грубо говоря, спустя время распространения сигнала, а оно может быть очень и очень малым, и нет нужды дожидаться следующего такта для передачи их дальше.

          • Тогда первым делом нужно это пристроить к памяти, а не к алу.

          • T_at_work

            изменения будут очень глубокими. Возможно даже, изменится архитектура вообще — не отдельные процессоры и блоки памяти, а что-то наподобие того, что внутри ПЛИС — куча LUT, которые одновременно данные и хранят, и обрабатывают. И процесс обработки данных будет чем-то напоминать волны, расходящиеся по поверхности воды от брошенного камня — пришёл пакет, волна активности разбежалась, результат на выходе появился и снова тишь да гладь

          • T_at_work

            однако, на них пытаются натянуть эту задачу последние уже не помню сколько лет. И только вот совсем-совсем недавно появились работоспособные решения, позволяющие распознавать (но всё равно НЕ понимать) речь «на лету». А понимание нужно, чтобы правильно учитывать контекст и работать точнее, не тратя лишние ватты на перемалывание не относящихся к делу данных.

          • Есть такое, онтологи таким занимаются. Например cyc — http://ru.wikipedia.org/wiki/Cyc

          • T_at_work

            да много чего есть. начиная от простейших экспертных систем и автоматических доказателей теорем, заканчивая Ватсоном. И иногда они даже могут удивить. Но, опять же, сколько места занимает Ватсон. сколько энергии он жрёт? сравните с размерами и потребляемой мощностью (и долговечностью, кстати) мозга. Разница более чем очевидна

            потому что природа, при всей своей «неэффективности», умудряется объединять в одних и тех же конструктивных элементах очень разные функции.

          • T_at_work

            кстати, утверждение «как и все что в природе эволюционировало» несколько далеко от смысла. Эффективность природных систем максимальна, с учётом условия задачи. Человечьи технологии нацелены на другое совсем — а когда делаются попытки повторить «как в природе», то выходит, что всё как раз наоборот: именно человечьи технологии чудовищно неэффетивны.

          • // Эффективность природных систем максимальна, с учётом условия задачи.
            Вот оно. Разные задачи и цели. И виноваты в такой путанице люди которые раздули из мухи слона, те кто нафантазировал что компьютер это разум.

          • Андрей Иванов

            Живая сеть нейронов (мозг) не имеет ничего общего с так называемыми «обучаемыми нейросетями»

      • T_at_work

        уже давно миллиардов

    • sergey andriyaka

      При частоте 100 ГГц

      размер проводника, который превратиться в эффективную антенну примерно = c/f = 3*10^8 / 1*100*10^9 = 3*10^-3 = 1 мм
      Открываем корпус компа, вуаля, дорожки, как останковские телебашни для частоты 100ГГц.
      Но это еще полбеды, температура то что в-основном мешает гнать процы

      Короче если б архитектура а не физика была на пути интела или амд они бы легко ее изменили,

      скорее всего есть конкретные физ.проблемы

      • опять вы взялись за вторичные структурные элементы.
        элемент — «перемещение сигналов пространстве» служит только для обслуживания «перемещения во времени — хранение» и «изменение сигнала».
        торт из шести слоев и кучи дорожек появилась только в результате экстенсивного наращивания производительности.
        «давайте добавим 64 дорожки вместо 32-ух — получим двухкратную производительность».

        тут интересно другое. сигнал кодируется амплитудой — +1в — «цифра 1», 0 — «цифра 0». если вспомнить историю развития радио, то после кодирования сигнала амплитудным модулированием, взялись а частотное.
        — Когда же додумаются до частотного кодирования сигнала, найдут комбинацию материала позволяющего выполнять логические операции над двумя каналами, как полупроводниковый триггер над амплитудой. И где это все хранить.

        • switch

          Весьма интересная идея!

  • Alexander Agafontsev

    «Но реалии таковы, что параллелизация практических задач выше некоторого (и уже достигнутого) уровня не приносит выигрыша в скорости »

    Читаем про multiscale-методы. Тот же Multiscale finite elements method может давать эффективность распараллеливания под 100%. Так что в задачах моделирования точно можно использовать методы с естественной параллельностью.

    Уверен, что и в статистике и других направлениях такие методы существуют. Так что проблема параллелизации несколько раздута. Она скорее в нежелании ряда исследователей осваивать новые методы (но это относится больше к России). Хотя, конечно, существуют ситуации, где хоть ты тресни, а не распараллелишь. Вот только вопрос — а нужно ли для таких задач использовать суперкомпьютеры или можно обойтись каким-нибудь маленьким кластером?

  • Драйден

    По нанотрубкам в МФТИ еще в 2004м дипломы делали.
    Только вот сомневаюсь, что в Сколково их внедряют.

  • Denis Fed

    Тут проблема скорее всго психологическая. ВСЕ привекли что за последние 40 лет идет постоянный рост вычислительной мощности …
    У ВСЕ решили что это данность которая будет всегда.

    А когда это подходит к концу происходит психологическая ломка ….

  • Кирилл

    Подпись к фотографии «Tianhe-2: 2013 год, 33,8 терафлопс, $390 млн» — имелось ввиду «петафлопс»?

    • Sentinel

      Да-да, конечно! Замучился их в ряд выстраивать :-)

  • Недавно нашел интересное видео на ютуб, про вакуумную микроэлектронику, как альтернативу кремниевой микроэлектронике.
    Много пафоса, но обещают аналог транзисторам на частоте в пару сотен терагерц.

  • Sergei Svinobaklan

    У нас,возможно,занимаются исследованием новых»рельсов» для числогрызового паровоза,память нового поколения по — крайней мере,Крокус нано,начинал разрабатывать. Да,было бы интересно выйти на новый уровень мощности вычислений,причем,уровень абсолютный(что раньше давало повышение тактовой частоты — повышалась мощность абсолютно любых вычислений и параллельных и непараллельных),все остальные методы(пожалуй,кроме гипотетического увеличения разрядности процессора)дают,частичное повышение производительности,только,в некоторых задачах.Остановилось все давно,уже,предельной частоты достигли еще в начале века

Хостинг "ИТ-ГРАД"
© ООО "Компьютерра-Онлайн", 1997-2017
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.
«Партнер Рамблера» Почта защищена сервером "СПАМОРЕЗ" Хостинг "Fornex"