Российский облачный провайдер «Турбо Облако» (входит в группу «Ростелеком») представил сервис Inference Platform, предназначенный для развертывания и эксплуатации моделей искусственного интеллекта. На данный момент продукт доступен в тестовом режиме.

Новая платформа призвана сократить усилия компаний по настройке инфраструктуры для ИИ, что часто замедляет внедрение таких проектов. Inference Platform поддерживает различные типы моделей, включая open-source, а также позволяет загружать собственные модели или контейнерные образы без дополнительных настроек.
Сервис включает автоматическое масштабирование ресурсов в зависимости от нагрузки, что помогает оптимизировать использование GPU и снижать затраты при нерегулярном трафике. Тарификация поминутная, что дает более точный контроль расходов по сравнению с почасовой оплатой.
Платформа поддерживает распределенный инференс для ресурсоемких задач, позволяя запускать модели объемом до триллиона параметров на нескольких узлах. Для связи между узлами используется высокоскоростная сеть InfiniBand. Также предусмотрено гибкое использование GPU, включая их дробление под небольшие задачи. Аппаратной основой служат ускорители NVIDIA H200 SXM.
«Спрос на использование ИИ-моделей в бизнесе растет, но для многих компаний основным барьером остается не только развертывание, сопровождение и масштабирование инфраструктуры, но и высокая стоимость вычислительного оборудования. Наш новый сервис Inference Platform снимает эту нагрузку и позволяет сосредоточиться на прикладных задачах. Мы даем возможность работать с моделями как с сервисом — быстро запускать, масштабировать и интегрировать их в бизнес-процессы без построения собственной инфраструктуры».
Дмитрий Подшибякин, директор по продуктам компании «Турбо Облако»
Inference Platform объединяет работу с моделями разного масштаба в единой среде, предоставляя готовый URL для интеграции в бизнес-приложения без изменения их архитектуры.