immers.cloud запускает каталог нейросетей Foundation Models без оплаты за токены

Облачный сервис immers.cloud объявляет о запуске Foundation Models — автоматизированного каталога open-source моделей, который предоставляет готовые конфигурации для инференса больших языковых моделей и существенно упрощает их запуск. Продукт создан для разработчиков и продуктовых команд, которые хотят самостоятельно запускать инференс на серверах в РФ с предсказуемым бюджетом, без зависимости от API-провайдеров, оплаты за токены и неожиданных издержек.

Рынок генеративного ИИ столкнулся с фундаментальным разрывом: модели быстро эволюционируют, а промышленное внедрение тормозится на уровне инфраструктуры и экономики. Выбор семейства моделей и квантизации, расчет требований к видеопамяти и подбор конфигурации, настройка бэкенда или непредсказуемые счета за каждый токен превращают пилотный проект в инженерные изыскания или в финансовую лотерею. Особенно остро это ощущают стартапы и независимые команды, которым нужны реалистичные оценки бюджета, производительности, качества и возможности быстро валидировать гипотезы на дорогом оборудовании до вложения капитала в железо.

Immers Foundation Models решает эту проблему. Каталог формируется ручной инженерной валидацией. Разработчик получает не копипаст релизного текста, а четкое понимание, в чем заключается прорыв модели, где ее архитектурные ограничения и в каких сценариях она выигрывает у аналогов.

Модели добавляются в каталог вместе с весами в трех основных квантизациях: 4, 8 и 16 бит, что позволяет найти оптимальный баланс между текущей доступностью оборудования, качеством ответов и бюджетом на аренду.

Для каждой модели в каталоге заранее рассчитаны значимые для запуска параметры: рекомендуемая величина контекста, требования к VRAM для каждой квантизации, оценка доступной памяти под пользовательские запросы и максимальное количество одновременных запросов (параллельность). В процессе валидации каталог наполняется бенчмарками: скоростью генерации и пропускной способностью (в токенах в секунду). Система автоматически подбирает совместимые конфигурации от бюджетных решений на одном GPU до кластерных сценариев для высоконагруженного инференса с использованием программных балансировщиков и аппаратных NVLink и NVSwitch.

В отличие от зарубежных облачных сервисов, где оплата начисляется за каждый токен, в immers.cloud клиент платит за время работы виртуальной машины или выделенного сервера российскому облачному провайдеру. Модель разворачивается на арендованном сервере с GPU под полным контролем пользователя: версия vllm, приватный доступ, кастомные веса, возможность масштабирования. Для команд, столкнувшихся со сложностями в настройке окружения, доступна круглосуточная техническая поддержка и рекомендуемые параметры деплоя.

«Путь от идеи до начала активной разработки упирается в две взаимосвязанные проблемы: зарубежные облачные сервисы не всегда безопасны и предсказуемы по цене, а своя инфраструктура требует огромных вложений.

Мы решили эту проблему, создав Immers Foundation Models — каталог проверенных open-source моделей с автоматическим подбором конфигураций GPU. Система сама рассчитывает ресурсы, учитывает квантование и разворачивает частные эндпоинты, балансировщик и авторизацию в несколько кликов. При больших объемах потребления токенов вы платите только за время работы сервера, а не за токены.

С другой стороны, благодаря нашим публичным эндпоинтам с доступом по API, вы можете очень быстро прототипировать решения и тестировать некоторые модели и качество генерации без каких-либо расходов».

Павел Самойлов, руководитель направления по ИИ

Попробовать бесплатные модели, изучить готовые конфигурации и запустить приватный инстанс можно на сайте.

Реклама. ООО «ДТЛ». ИНН 9717073792

Подписывайтесь на наш Telegram Подписаться