Облачный сервис immers.cloud объявляет о запуске Foundation Models — автоматизированного каталога open-source моделей, который предоставляет готовые конфигурации для инференса больших языковых моделей и существенно упрощает их запуск. Продукт создан для разработчиков и продуктовых команд, которые хотят самостоятельно запускать инференс на серверах в РФ с предсказуемым бюджетом, без зависимости от API-провайдеров, оплаты за токены и неожиданных издержек.

Рынок генеративного ИИ столкнулся с фундаментальным разрывом: модели быстро эволюционируют, а промышленное внедрение тормозится на уровне инфраструктуры и экономики. Выбор семейства моделей и квантизации, расчет требований к видеопамяти и подбор конфигурации, настройка бэкенда или непредсказуемые счета за каждый токен превращают пилотный проект в инженерные изыскания или в финансовую лотерею. Особенно остро это ощущают стартапы и независимые команды, которым нужны реалистичные оценки бюджета, производительности, качества и возможности быстро валидировать гипотезы на дорогом оборудовании до вложения капитала в железо.
Immers Foundation Models решает эту проблему. Каталог формируется ручной инженерной валидацией. Разработчик получает не копипаст релизного текста, а четкое понимание, в чем заключается прорыв модели, где ее архитектурные ограничения и в каких сценариях она выигрывает у аналогов.
Модели добавляются в каталог вместе с весами в трех основных квантизациях: 4, 8 и 16 бит, что позволяет найти оптимальный баланс между текущей доступностью оборудования, качеством ответов и бюджетом на аренду.
Для каждой модели в каталоге заранее рассчитаны значимые для запуска параметры: рекомендуемая величина контекста, требования к VRAM для каждой квантизации, оценка доступной памяти под пользовательские запросы и максимальное количество одновременных запросов (параллельность). В процессе валидации каталог наполняется бенчмарками: скоростью генерации и пропускной способностью (в токенах в секунду). Система автоматически подбирает совместимые конфигурации от бюджетных решений на одном GPU до кластерных сценариев для высоконагруженного инференса с использованием программных балансировщиков и аппаратных NVLink и NVSwitch.
В отличие от зарубежных облачных сервисов, где оплата начисляется за каждый токен, в immers.cloud клиент платит за время работы виртуальной машины или выделенного сервера российскому облачному провайдеру. Модель разворачивается на арендованном сервере с GPU под полным контролем пользователя: версия vllm, приватный доступ, кастомные веса, возможность масштабирования. Для команд, столкнувшихся со сложностями в настройке окружения, доступна круглосуточная техническая поддержка и рекомендуемые параметры деплоя.
«Путь от идеи до начала активной разработки упирается в две взаимосвязанные проблемы: зарубежные облачные сервисы не всегда безопасны и предсказуемы по цене, а своя инфраструктура требует огромных вложений.
Мы решили эту проблему, создав Immers Foundation Models — каталог проверенных open-source моделей с автоматическим подбором конфигураций GPU. Система сама рассчитывает ресурсы, учитывает квантование и разворачивает частные эндпоинты, балансировщик и авторизацию в несколько кликов. При больших объемах потребления токенов вы платите только за время работы сервера, а не за токены.
С другой стороны, благодаря нашим публичным эндпоинтам с доступом по API, вы можете очень быстро прототипировать решения и тестировать некоторые модели и качество генерации без каких-либо расходов».
Павел Самойлов, руководитель направления по ИИ
Попробовать бесплатные модели, изучить готовые конфигурации и запустить приватный инстанс можно на сайте.
Реклама. ООО «ДТЛ». ИНН 9717073792
