Как машиностроительная компания обновила суперкомпьютерный кластер и ускорила инженерные расчеты

В машиностроении точность и скорость расчетов определяют все: от сроков проектирования до запуска продукции в производство. А когда вычислительные мощности не справляются, тормозится весь рабочий цикл. У заказчика, крупной машиностроительной компании, кластер отработал больше десяти лет. Он устарел, стал потреблять слишком много энергии и не выдерживал современных нагрузок. Некоторые расчеты приходилось запускать по частям, а сложные задачи вовсе откладывать.

Чтобы не терять время и сохранить темп развития, компания решила модернизировать инфраструктуру и обратилась к К2 НейроТех и экспертам по ЦОД из К2Тех. Как создавался новый суперкомпьютерный кластер и какие задачи пришлось решать — рассказываем в кейсе.

От устаревшего железа к суперкомпьютеру

Заказчик — крупная машиностроительная компания, для которой суперкомпьютерные вычисления являются ключевым этапом разработки. Прежний кластер, проработавший более десяти лет, перестал справляться с современными задачами. Мощностей оборудования уже не хватало для эффективного выполнения конструкторских расчетов — системы морально и физически устарели, а старое железо потребляло много энергии. 

Для компании, которая расширяет производство, это стало серьезным ограничением. Модернизировать кластер было уже невозможно, поэтому решили создать новый. Он должен был:

  • обеспечить кратный рост производительности для инженерных задач;
  • поддерживать современные пакеты ПО;
  • работать на энергоэффективном оборудовании и быть готовым к масштабированию;
  • при необходимости выполнять одновременно несколько независимых расчетов с минимальным взаимным влиянием на их скорость.

Партнером по проекту выбрали К2Тех. За вычислительную часть отвечал центр К2 НейроТех — подразделение, специализирующееся на ИИ-инфраструктуре и суперкомпьютерных кластерах. Его решения — готовые программно-аппаратные комплексы для HPC, машинного обучения и ИИ, построенные на российских технологиях из реестров Минцифры и Минпромторга.

Инженерную основу проекта взяла на себя команда по ЦОД К2Тех. Она отвечала за все, что обеспечивает «жизнь» кластера инженерную инфраструктуру дата-центра с отказоустойчивыми системами электропитания, охлаждения и безопасности. Эта основа гарантирует отказоустойчивость и энергоэффективность – необходимые условия для бесперебойной работы высокопроизводительного оборудования.

Такое распределение ролей позволило объединить вычислительные технологии и инженерную инфраструктуру в единое решение. 

Больше мощности, меньше ожидания: расчеты в 3–4 раза быстрее

Работу начали с обследования площадки и анализа требований заказчика. Для промышленной компании важно, чтобы внедрение ИТ не тормозило производство. Архитектуру кластера спроектировали так, чтобы она органично интегрировалась в существующую инфраструктуру и позволяла постепенно переносить задачи без перебоев. 

Проект разделили на несколько направлений:

  1. Сначала собрали кластер на современном серверном оборудовании с теоретической мощностью 256 ТФлопс. Это позволило выполнять более сложные расчеты, повысить точность моделирования и ускорять время разработки новых изделий.
  2. Для надежной работы при пиковых нагрузках установили источник бесперебойного питания с автономией до 30 минут и систему автоматического корректного отключения и запуска оборудования. Она позволяет избежать эксплуатации оборудования в режимах, которые потенциально могут привести к его преждевременному выходу из строя. 
  3. Сложнее всего оказалось настроить систему охлаждения. При запуске расчетов тепловыделение возрастало в четыре раза по сравнению с простоями. Для кондиционеров это означало постоянные скачки и риск износа. Эксперты К2Тех настроили параметры так, чтобы система охлаждения работала стабильно во всем диапазоне нагрузок, без лишних включений и выключений.
  4. Еще удалось адаптировать инженерное ПО заказчика под новую инфраструктуру. Используемые программы не поддерживались вендорами, но были необходимы для работы. Команда интегрировала их в новую систему и обеспечила стабильность работы без изменения привычных инструментов инженеров.

На весь проект ушел год — с ноября 2023 по ноябрь 2024 года. За это время команда К2Тех прошла полный цикл: от анализа бизнес-задач и согласования технических решений до тестирования, оптимизации и запуска кластера в промышленную эксплуатацию. 

В итоге заказчик получил полностью обновленный суперкомпьютерный кластер, который закрыл все задачи. Теперь расчеты на каждом узле выполняются в 3–4 раза быстрее, инженеры могут запускать больше задач одновременно и получать результаты без задержек.  Долгие вычисления больше не тормозят работу, а новые проекты стартуют быстрее.  Цифровая инфраструктура готова к росту, масштабированию и внедрению современных инженерных решений.

Планы на будущее

Техническое сопровождение кластера продолжается: ИТ‑партнер обеспечивает стабильную работу, а производители поддерживают оборудование по гарантии. Архитектура и инженерные системы построены так, чтобы при необходимости можно было легко расширить вычислительные мощности и масштабировать кластер вместе с заказчиком.

В российской промышленности растет интерес к высокопроизводительным вычислениям и ИИ. Все больше компаний используют такие технологии для контроля оборудования, оптимизации расхода ресурсов и ускорения производственных процессов. Сегодня 39% крупных предприятий уже внедрили ИИ‑инструменты, а еще четверть планируют сделать это в ближайшие годы.

«Перед нашей командой стояли амбициозные задачи: повысить производительность системы, без простоев в работе интегрировать существующий кластер и созданный, заменить устаревшие проприетарные решения на новые и обеспечить их совместимость с ИТ-системами. Нам удалось создать единое пространство, которое позволит качественно и с меньшими временными затратами осуществлять сложные расчеты при проектировании агрегатов». 

Святослав Смирнов, руководитель подразделения К2 НейроТех

Что будем искать? Например,ChatGPT

Мы в социальных сетях