Представлена новая модель встроенной памяти для роботов на основе ИИ

Российские ученые из Института AIRI представили новую архитектуру системы управления ELMUR, предназначенную для роботов и интеллектуальных агентов, работающих в условиях неполной информации.

Представлена новая модель встроенной памяти для роботов на основе ИИ

Основная проблема, которую решает разработка, — необходимость принимать решения, опираясь на события из далекого прошлого. В робототехнике ситуация, когда важный визуальный сигнал поступает задолго до момента его применения, встречается часто, и без надежного механизма хранения и извлечения данных эффективное действие в сложной среде становится затруднительным.

Существующие решения на базе трансформеров имеют ограничения: одни требуют слишком больших вычислительных ресурсов для удержания больших объемов данных, другие неконтролируемо сжимают информацию, третьи используют внешние блоки памяти фиксированного размера, что мешает учитывать давние события.

ELMUR предлагает иной подход. В каждом слое сети закреплено фиксированное количество слотов памяти, которые параллельно работают с основным потоком данных. Система может считывать информацию из этих ячеек при принятии решений и записывать туда новые данные. При заполнении хранилища обновляются ячейки, использовавшиеся реже всего (принцип LRU). Это позволяет удерживать важную информацию на протяжении 100 000 шагов за пределами обычного окна внимания.

В ходе тестирования ELMUR показал высокие результаты. В синтетическом тесте T-Maze модель достигла 100-процентной точности удержания информации на миллионе шагов. На специализированном бенчмарке MIKASA-Robo архитектура почти вдвое улучшила базовые показатели и заняла первое место в 21 из 23 задач. Модель также продемонстрировала способность эффективно работать с последовательностями, значительно превышающими по длине обучающие.

«ELMUR — это модель, у которой есть встроенная память. Ключевая ценность разработки для научного сообщества — интеграция явной памяти с политикой записи непосредственно в каждый слой сети. Это простой и масштабируемый фреймворк для управления памятью в агентах без квадратичного роста вычислений».

Егор Черепанов, научный сотрудник группы «Воплощенные агенты» лаборатории Когнитивных систем ИИ Института AIRI

В ближайших планах исследователей — расширение подхода на Visual Language Action (VLA) модели. Разработка будет полезна прежде всего в робототехнике и системах управления, где ИИ-агент получает лишь ограниченные визуальные сигналы.

Что будем искать? Например,ChatGPT

Мы в социальных сетях