Робот, разработанный в Сбере, успешно функционировал более десяти часов без перерывов. Этот результат позволил соответствующему исследованию занять лидирующую позицию в рейтинге дня на платформе для разработчиков искусственного интеллекта Hugging Face, опередив работы компаний и университетов из Китая и США.

Сбербанк опубликовал технический отчет Green-VLA, в котором описана методология создания и обучения моделей Vision-Language-Action для физического искусственного интеллекта. Эти модели позволяют роботам интерпретировать визуальную информацию и команды на естественном языке для выполнения практических задач.
Публикация заняла первую позицию в рейтинге дня на платформе Hugging Face, опередив исследования ряда международных организаций и университетов. Отчет представляет собой системное описание подхода к обучению — от базового предобучения на основе нейросети «ГигаЧат» до адаптации под конкретные робототехнические системы.
В документе отмечается, что ключевыми задачами в области Physical AI остаются повышение стабильности работы, обеспечение кроссплатформенности и выполнение сложных многоэтапных действий. Предлагаемая методология направлена на решение этих проблем за счет инженерно обоснованных принципов обучения.
Эффективность подхода подтверждается результатами на международных тестовых наборах, включая бенчмарки от Стэнфордского университета, Google и Фрайбургского университета. Кроме того, на конференции AI Journey 2025 робот под управлением Green-VLA продемонстрировал непрерывную работу в течение 10 часов.
В отчете подчеркивается, что Green-VLA рассматривается как часть технологического стека Physical AI, где такие модели выполняют роль связующего звена между восприятием, пониманием задач и их физическим исполнением. При этом решение позиционируется не как готовый универсальный контроллер, а как методология, которая может быть адаптирована под различные робототехнические платформы, что обеспечивает гибкость и потенциал для масштабирования.