Компания «Яндекс» разработала отказоустойчивую платформу Agents Transport System (ATS), которая позволяет ИИ-агентам продолжать выполнение многошаговых задач с того же места после внезапного обрыва интернет-соединения или закрытия приложения пользователем, а не запускать их заново. На этой базе теперь будут создаваться все ИИ-агенты компании.

Основная задача системы — обеспечивать выполнение многошаговых заданий даже в условиях нестабильной связи или при случайном закрытии приложения пользователем. Например, если агент анализирует большое количество источников для развернутого ответа, ATS позволяет ему не начинать работу заново после сбоя. При восстановлении соединения процесс продолжается именно с того шага, на котором произошел разрыв. Это ускоряет получение конечного результата.
Платформа особенно полезна для сложных задач, которые могут занимать до получаса, как, например, в агенте «Исследовать» внутри Алисы AI. Без ATS потеря интернета привела бы к полному перезапуску всех операций, что заставило бы пользователя ждать дольше. Новая система сохраняет текущее состояние задачи и восстанавливает его с последнего шага. При этом пользователь может видеть промежуточные результаты генерации ответа — они не теряются.
Помимо устойчивости к сбоям, ATS помогает «Яндексу» экономить вычислительные и финансовые ресурсы: агентам не приходится повторно обращаться к моделям с одними и теми же запросами после сбоев. Компания уже выпустила набор инструментов, позволяющих разработчикам создавать агентов на основе ATS.
Подобные устойчивые системы есть и у других крупных ИТ-компаний, например у OpenAI, но они обычно используются только внутри этих организаций. С внедрением ATS команда «Яндекса» может сосредоточиться непосредственно на разработке логики агентов, не тратя время на создание отказоустойчивой инфраструктуры. Программисту достаточно написать код, а платформа берет на себя обеспечение стабильности работы.