Как Deeray за неделю перенесла в облако высоконагруженную ИИ-платформу

Ежемесячно Deeray, разработчик ИИ-платформы речевой и текстовой аналитики для бизнеса, обрабатывает 4 млн минут речи и 1,5 млн чатов. В 2024 году компания столкнулась сразу с двумя вызовами: с одной стороны, сегмент малого и среднего бизнеса показал впечатляющий спрос на омниканальную речевую аналитику. С другой, арендованные вычислительные мощности заканчивались, а сотрудничество с прошлым провайдером сопровождалось рядом проблем. Цены на GPU росли, сеть работала нестабильно, а поддержка запаздывала с ответами. Это мешало развитию продукта.

По этой причине команда приняла решение искать новую платформу, способную выдержать высокие нагрузки и развивать свои ИИ-модели без страха «упереться в потолок». Так Deeray начала тестировать сервисы Cloud.ru, а позже перенесла в облако 100% инфраструктуры. Рассказываем, как прошла миграция и что изменилось.

Не зависеть, а управлять

Deeray работает в сфере омниканальной речевой аналитики, где стабильность и скорость работы инфраструктуры критичны, особенно в часы пиковых нагрузок Платформой пользуются банки, госструктуры, телеком-компании и десятки других сервисов. 

Для этого Deeray требовалась среда, которая позволит одновременно развивать нейросетевые модели, удерживать стоимость вычислений в разумных пределах и работать одинаково гибко, как в облаке, так и on-premise.

Требования Deeray к новой инфраструктуре были такими:

  • Ресурсы можно гибко масштабировать — платформа должна позволять быстро наращивать вычислительные мощности с учетом роста числа клиентов и обрабатываемых данных;
  • GPU по экономически выгодной цене — для дообучения и инференса моделей нужны производительные ускорители, при этом стоимость вычислений должна оставаться предсказуемой;
  • Стабильная и бесперебойная сеть — инфраструктура должна работать без сбоев, чтобы платформа оставалась доступной в любое время суток;
  • Оперативная техническая поддержка — команда должна оперативно получать ответы на вопросы и помощь при инцидентах;
  • Удобная консоль управления — поскольку проект ведет научная команда, простота работы в консоли также была принципиальной;
  • Возможность развертывать продукт как в облаке, так и on-premise, чтобы подстраиваться под требования разных клиентов и не зависеть от узкоспециализированных managed-сервисов.

Неделя на миграцию: перенос высоконагруженной ИИ-платформы

К миграции готовились заранее, потому что команда хотела убедиться, что новая инфраструктура выдержит пики нагрузки — ночную обработку данных и утренний шквал звонков. Тесты начали еще в августе 2023 года. Пилот показал, что платформа Cloud.ru справляется с нагрузкой, и компания решила переносить продакшн.

Работали с жестким дедлайном — миграция должна была пройти так, чтобы клиенты не заметили изменений. Основная часть подготовки пришлась на подготовку — написание скриптов автоматизации и настройку окружений. Это заняло больше времени, чем сам переход, но позволило заранее отработать все возможные сценарии.

Весь процесс миграции потребовал около недели, а финальное переключение — всего полчаса. Даунтайм был минимальным и контролируемым. Узел данных построили на PostgreSQL и ClickHouse, кеш-узел — на Redis, узел приложений с микросервисами — в Kubernetes, узел инференса — на GPU/vGPU, а мониторинг вплоть до температуры GPU-серверов реализовали в Grafana Stack.

После запуска система работала стабильно. Серьезных инцидентов не было, а единственная проблема — нехватка оперативной памяти на кеш-сервере — решилась за счет оперативной реакции поддержки Cloud.ru. 

К моменту, когда Deeray начала искать новую площадку, Cloud.ru, провайдер облачных сервисов и AI-технологий, уже развивал среду Evolution AI Factory. Это единая экосистема из шести сервисов: от каталога открытых больших языковых моделей Foundation Models до инструментов для инференса, дообучения и запуска ИИ-агентов (ML Inference, ML Finetuning, Evolution Notebooks, Managed RAG, AI Agents). На данный момент Evolution AI Factory прошла публичное тестирование и вышла в коммерческую эксплуатацию. 

Уже после миграции команда начала активно использовать Evolution Foundation Models. Одна из моделей, Qwen 2.5, позволила снизить стоимость инференса почти в 30 раз за счет выгодного тарифа и большого токен-буфера, подходящего под типичные промпты Deeray.

Предсказуемость как суперсила

Миграция на Cloud.ru полностью изменила работу платформы Deeray — она стала на 100% предсказуемой. Пиковые нагрузки — ночью, когда систематизируются данные клиентов по всей России, и утром, когда обрабатывается основной поток звонков, — больше не создают проблем. Платформа стабильно справляется с миллионами минут речи и чатами, а команда больше не тратит время на устранение инфраструктурных сбоев и может полностью сосредоточиться на продукте.

«Компания успешно переобучает модели распознавания речи, достигая впечатляющих результатов: для одного из клиентов удалось снизить Word Error Rate до 1,5% против стандартных 25-29% у коробочных решений»

Алексей Ри, ведущий менеджер по продажам Cloud.ru

Планы на будущее

Deeray рассматривает Cloud.ru как стратегического партнера для реализации амбициозных планов развития ИИ-инфраструктуры. В ближайшее время компания планирует перейти на автоматическое масштабирование с помощью Kubernetes Cluster Autoscaler и перейти на управление инфраструктурой как кодом (IaC) с Terraform. Это позволит оперативно разворачивать дополнительные серверы, выполнять вычисления и освобождать ресурсы, экономя на избыточных мощностях.

Также в планах использовать Evolution ML Inference для более простого развертывания и управления ML-моделями. В следующем году Deeray планирует запуск собственных больших языковых моделей с токенизатором, оптимизированным под русский язык. Новое решение повысит качество анализа и ускорит обработку данных на 90-95%, особенно для русскоязычных терминов и фамилий.

«С запуском Evolution AI Factory ресурсы для создания и промышленного внедрения ИИ-решений стали доступными компаниям любого масштаба. Это значительно ускорит развитие прикладных ИИ-технологий не только в случае Deeray, но и откроет новые перспективы для всего российского рынка» 

Алексей Ри, ведущий менеджер по продажам Cloud.ru

Что будем искать? Например,ChatGPT

Мы в социальных сетях