Российские исследователи научили языковые модели понимать сложные трехмерные сцены

Команда Института AIRI и Центра когнитивного моделирования МФТИ представила 3DGraphLLM — метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством. Научная работа принята к публикации на одной из ведущих конференций в области компьютерного зрения — ICCV, а сама нейросетевая модель уже тестировалась на данных, собранных в Центре робототехники Сбера.

Большие языковые модели (LLM) изменили обработку текста, но их способность работать в трехмерном мире ограничена. Они либо используют двухмерные изображения, теряя глубину, либо необработанные облака точек, не улавливая связи между объектами. ИИ может распознать стол и стул, но не понимает, что стул предназначен для сидения у стола, что критично для взаимодействия с окружением.

В отличие от прежних решений, 3DGraphLLM позволяет учитывать пространственные и семантические связи между элементами сцены — от расположения до относительных размеров и контекста использования. Это особенно важно при анализе насыщенных бытовых пространств, таких как кухня, мастерская или офисное помещение, где десятки объектов тесно связаны друг с другом.

Модель обучалась на данных из наиболее известных и больших датасетов ScanNet, 3RScan, которые содержат точные реконструкции реальных помещений, и расширенных датасетов вроде ScanRefer и Multi3DRefer, содержащих текстовые запросы к реконструированным сценам. В качестве языковых моделей использовались Vicuna-v1.5 и LLAMA3 соответственно с 7 и 8 миллиардами параметров — относительно компактные, чтобы запускаться на энергоэффективных компьютерах с графическим процессорами (например, Nvidia Jetson AGX Orin), которые обычно встраиваются в робототехнические платформы.

Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM (точность выше более чем на 10%). Для сравнения выбраны 11 методов, среди которых 3D-VisTA, PQ3D, ViL3DRel.

«Сейчас мы работаем над интеграцией метода в реальные робототехнические платформы. Важно, чтобы робот не просто распознавал окружающие предметы, но и понимал, как объекты соотносятся друг с другом и с задачами пользователя. Такие навыки критичны для сервисных, образовательных и бытовых роботов следующего поколения».

Дмитрий Юдин, кандидат технических наук, ведущий научный сотрудник лаборатории когнитивных систем искусственного интеллекта AIRI, заведующий Лабораторией интеллектуального транспорта Центра когнитивного моделирования МФТИ

Среди 12 современных подходов на основе больших языковых моделей 3DGraphLLM занял лидирующую позицию. Предложенная идея использования графа 3D-сцены позволила более чем на 7% улучшить точность распознавания объектов по текстовому описанию по сравнению с базовым методом Chat-Scene на общепризнанных бенчмарках ScanRefer и Multi3DRefer.  Кроме того, 3DGraphLLM достигает такого же уровня качества, как SOTA-метод GPT4Scene, обрабатывая запрос пользователя в 2-4 раза быстрее и используя в 10 раз меньшее количество входных токенов за счет сжатия графа сцены.

Что будем искать? Например,ChatGPT

Мы в социальных сетях