«Яндекс» сэкономил 4,8 млрд рублей в год на обучении нейросетей

Компания «Яндекс» оптимизировала процессы обучения больших языковых моделей, что позволило сократить операционные расходы примерно на 4,8 миллиарда рублей в год. В компании подчеркивают, что повышение эффективности достигнуто без потери качества разработок за счет внедрения собственных технологических решений.

«Яндекс» сэкономил 4,8 млрд рублей в год на обучении нейросетей

Центральным элементом оптимизации стала собственная разработка компании — библиотека YCCL. Ее внедрение позволило ускорить обмен данными между графическими процессорами при обучении нейросетей в два раза. Помимо ускорения передачи информации, новая система сократила ее объем и перевела управление этими процессами с графических процессоров на центральные. Отмечается, что библиотека YCCL способна эффективно работать на крупных кластерах, а аналогичные разработки на данный момент существуют лишь у ведущих мировых технологических компаний.

Дополнительный эффект дал переход на формат вычислений FP8, который подразумевает пониженную точность. Это нововведение ускорило обучение моделей на 30% и позволило сократить объем коммуникаций, то есть обмена данными, в два раза. В ходе исследований компания также выяснила, что увеличение объема передаваемых данных (батча), не замедляет процесс обучения. В результате «Яндекс» нарастил батч до 16–32 миллионов токенов, что обеспечило работу графических процессоров с минимальными простоями.

Кроме того, в компании провели работу по повышению стабильности ИТ-инфраструктуры. Сокращение числа аппаратных сбоев позволило уменьшить затраты на перезапуск обучения моделей. В комплекс мер также вошли оптимизация программного кода и усовершенствование архитектурных решений, используемых для обучения искусственного интеллекта.

Что будем искать? Например,ChatGPT

Мы в социальных сетях