ITGLOBAL.COM предоставил GPU-инфраструктуру для обучения ML-моделей компании из финтех-сектора

ITGLOBAL.COM (международное облачное направление корпорации ITG) предоставил GPU-инфраструктуру для обучения ML-моделей одной из российских компаний из финтех-сектора. Решение позволило ускорить запуск новых сервисов, повысить скорость подготовки и обучения моделей, а также снять инфраструктурные ограничения, которые замедляли работу команд специалистов по машинному обучению и аналитике данных.

Клиентом ITGLOBAL.COM стала компания из финтех-сектора, развивающая цифровые сервисы в области скоринга, персонализированных предложений и прогнозной аналитики. Для работы этих продуктов заказчик регулярно обучал ML-модели на больших массивах транзакционных, поведенческих и CRM-данных. По мере роста числа сервисов и объема данных существующей инфраструктуры перестало хватать: обучение моделей занимало слишком много времени, вычислительные ресурсы приходилось распределять между командами, а запуск новых инициатив замедлялся. При этом развертывание нового собственного on-prem-кластера требовало значительных капитальных вложений и на данном этапе оказалось для заказчика экономически нецелесообразным.

До перехода в облачную GPU-инфраструктуру часть моделей обучалась на CPU-ресурсах, часть — на локальных GPU с ограниченным доступом. В результате обучение отдельных моделей занимало до 30–36 часов, а командам приходилось часами ждать свободные мощности, выстраивая очередь на доступ к единственному GPU-серверу. Вынужденная последовательная работа снижала скорость проверки гипотез, усложняла A/B-тестирование и увеличивала срок вывода новых ML-сценариев в продакшн.

Для решения задачи ITGLOBAL.COM предоставил заказчику облачную GPU-инфраструктуру на базе NVIDIA H200 с несколькими конфигурациями под разные этапы работы — от пилотного тестирования до полноценных production-нагрузок. Выбор H200 был обусловлен спецификой задач заказчика: 141 ГБ памяти HBM3e и высокая пропускная способность позволяют обучать крупные модели без существенных ограничений по размеру пакета данных, а поддержка технологии MIG (разделения одного GPU на несколько изолированных экземпляров) дала возможность нескольким командам работать параллельно на одном графическом процессоре, не блокируя друг друга. На платформе были развернуты среды для обучения моделей классификации, прогнозирования оттока, рекомендательных алгоритмов и NLP-задач. Заказчик получил возможность гибко масштабировать ресурсы в зависимости от объема данных и сложности эксперимента, не закупая собственное оборудование и не резервируя мощности под пиковую нагрузку.

Переход на GPU Cloud позволил сократить среднее время обучения моделей в 3-5 раз — с десятков часов до 5-7 часов. Время дообучения на обновленных данных уменьшилось с 8–10 часов до 2–3 часов. Благодаря MIG команды перестали ждать в очереди и смогли запускать эксперименты параллельно, что увеличило общее количество проверяемых гипотез более чем на 60%. Срок вывода новых ML-сценариев в продакшн сократился примерно на 40%. По оценке заказчика, совокупный экономический эффект — от отказа от капитальных затрат на собственный GPU-кластер и ускорения запуска цифровых сервисов — составил более 14 млн рублей в год.

«Для проектов, связанных с обучением и дообучением ML-моделей, критичны производительность инфраструктуры, возможность быстро масштабировать ресурсы и гибко подбирать конфигурацию под текущую задачу. Использование GPU Cloud позволяет сократить цикл подготовки моделей, ускорить запуск новых сервисов и эффективнее использовать вычислительные мощности без капитальных вложений в собственную инфраструктуру».

Евгений Свидерский, директор облачного направления ITGLOBAL.COM, корпорация ITG

Проект показал, что сильная команда, рабочие модели и реальный бизнес-эффект начинают упираться в ограничения инфраструктуры. Когда несколько команд делят один GPU-сервер, проверка гипотезы, которая в нормальной вычислительной среде занимает несколько часов, может растягиваться на несколько дней. После перехода на GPU Cloud с NVIDIA H200 заказчик получил возможность организовать параллельную работу нескольких команд на одном графическом процессоре без заметных потерь в производительности. Это одна из ключевых ценностей GPU Cloud для ML-проектов: не только ускорить вычисления, но и убрать инфраструктурные ограничения, которые тормозят весь цикл разработки.

Подписывайтесь на наш Telegram Подписаться