Как построить инфраструктуру для 5000 разговоров с ИИ: кейс neuro.net

Голосовые ассистенты на базе больших языковых моделей создают для инфраструктуры довольно необычную нагрузку. Если обычный чат-бот может позволить себе несколько секунд на генерацию ответа, то в голосовом канале такой роскоши нет. Пользователь ожидает почти мгновенной реакции, а задержка даже в пару секунд делает диалог неестественным.

Именно с такой задачей столкнулась компания neuro.net, разрабатывающая платформу голосового ИИ для бизнеса. Ее виртуальные операторы обрабатывают обращения клиентов, проводят обзвоны, помогают HR-службам и автоматизируют сервисные коммуникации. При этом система должна одновременно обслуживать тысячи звонков, распознавать речь, генерировать ответы с помощью LLM и синтезировать голос практически в реальном времени.

В результате перед командой встали сразу три инфраструктурные задачи: масштабировать платформу под высокую нагрузку, сократить задержки между сервисами и организовать запуск больших языковых моделей без резкого роста затрат на вычислительные ресурсы. О том, как это реализовали, — в статье. 

Как построить инфраструктуру для 5000 разговоров с ИИ: кейс neuro.net

Когда миллисекунды начинают стоить дорого

Архитектура платформы neuro.net объединяет несколько ресурсоемких компонентов одновременно. Во время каждого разговора система принимает аудиопоток, преобразует речь в текст, передает запрос языковой модели, формирует ответ и синтезирует его обратно в голос.

Все это должно укладываться примерно в 1200 миллисекунд от реплики пользователя до ответа голосового помощника. Причем речь идет не о десятках соединений, а о тысячах параллельных сессий.

Платформа обслуживает сценарии в продажах, технической поддержке, клиентском сервисе и HR-процессах. В пиковых режимах инфраструктура должна обрабатывать сотни запросов в секунду без заметного увеличения задержек.

Запустить LLM и не разориться на GPU

Главной задачей стало развертывание собственной платформы инференса для больших языковых моделей. Голосовые и текстовые ассистенты предъявляют высокие требования к скорости генерации ответов, но при этом экономика проекта не позволяет бесконечно наращивать вычислительные мощности.

Использование ускорителей уровня NVIDIA H100 или H200 могло бы повысить производительность, однако одновременно существенно увеличило бы стоимость сервиса для конечных заказчиков. Поэтому команда искала баланс между производительностью, масштабируемостью и стоимостью эксплуатации.

Для решения этой задачи команда развернула основные компоненты платформы на выделенных серверах Selectel с видеокартами NVIDIA A100, RTX 5000, RTX 6000 и T4. На этой инфраструктуре работают дообученные версии Qwen3-32B и Qwen3.5-27B, а также тестируются различные варианты Llama, Gemma и DeepSeek. 

За счет широкого выбора GPU-конфигураций компания смогла подобрать оптимальные ресурсы под разные сценарии нагрузки и избежать перехода на более дорогое оборудование без необходимости.

Как сократили задержки между облаками

Для повышения отказоустойчивости платформа neuro.net была распределена между несколькими облачными провайдерами. Такой подход снижает инфраструктурные риски, но создает другую проблему — большое количество межоблачных запросов.

По мере роста нагрузки команда начала замечать, что значительная часть времени тратится не на работу самих моделей, а на передачу данных между различными инфраструктурными площадками. Каждый дополнительный переход увеличивал задержки и объем сетевого трафика, что особенно чувствительно для голосовых сервисов, работающих в режиме реального времени.

Чтобы сократить количество таких обращений, neuro.net перестроила взаимодействие между сервисами на базе инфраструктуры Selectel. В облаке провайдера был развернут единый API-слой, через который проходят основные запросы платформы.

Вместо множества отдельных соединений между различными облачными площадками система получила единую точку входа. Основная бизнес-логика и взаимодействие сервисов теперь выполняются внутри инфраструктуры Selectel, а между внешними площадками передается только минимально необходимый объем данных.

Для реализации этой схемы команда развернула API и компоненты оркестрации на облачных серверах Selectel, а для хранения данных и артефактов использует объектное хранилище S3. В результате удалось уменьшить объем межоблачного трафика и сократить задержки при обработке запросов.

С помощью чего сократили простой дорогих GPU

Даже после выбора оптимальной конфигурации остается еще одна проблема. Ускорители уровня NVIDIA A100 стоят дорого, поэтому любая простаивающая видеокарта превращается в прямые финансовые потери.

В neuro.net решили использовать вычислительные ресурсы максимально эффективно. Для этого собственный сервер с восемью GPU A100 работает в разных режимах в зависимости от времени суток:

  • Днем, когда на платформу приходится основной поток обращений, мощности используются для инференса языковых моделей и обслуживания голосовых ассистентов. Если посмотреть на графики нагрузки, их пики практически совпадают с рабочим днем по московскому времени.
  • Ночью, когда количество пользовательских запросов резко падает, вычислительные ресурсы освобождаются. Вместо того чтобы держать оборудование в режиме ожидания, компания переключает его на обучение собственной модели распознавания речи.

Такой подход позволяет использовать дорогостоящие GPU практически круглосуточно. Одни и те же вычислительные мощности днем обслуживают клиентов, а ночью участвуют в развитии собственных технологий компании.

Что в итоге

В результате текущая конфигурация позволяет одновременно поддерживать до 5000 голосовых каналов, обрабатывать до 800 запросов в секунду и обслуживать около 400 параллельных сессий распознавания речи. Платформа работает с заявленным уровнем доступности 99,9%. 

«За время сотрудничества Selectel зарекомендовал себя как надежный партнер, который понимает потребности высоконагруженных проектов. Нам важно, что помимо инфраструктуры мы получаем экспертизу и возможность гибко подбирать решения под текущие задачи. Такой подход помогает нам быстрее запускать новые сервисы и масштабироваться по мере роста нагрузки».

Илья Спирин, ИТ-архитектор neuro.net

Но главный результат кейса заключается не только в цифрах нагрузки. Компания смогла построить архитектуру, которая одновременно решает несколько противоречивых задач: обеспечивает низкие задержки для голосового ИИ, позволяет запускать современные LLM и при этом сохраняет контроль над стоимостью инфраструктуры.

Что будем искать? Например,ChatGPT

Мы в социальных сетях