Открытый набор данных AmbiK — самый большой в мире набор данных для проверки робототехнических систем на умение легко и точно понимать просьбы людей. Он содержит 2 тысячи примеров бытовых инструкций и позволяет тестировать способность роботов детектировать и устранять неточности, чтобы выполнить поставленную перед ними задачу.
Если попросить робота: «Принеси что-нибудь попить», он столкнется с неоднозначностью. Человек учтет контекст — время суток, предпочтения, содержимое холодильника, — но роботу это недоступно. Он может принести не то (например, масло вместо воды) или засыпать вопросами, разрушая удобство взаимодействия.
Для создания массовых ассистентов нужно научить ИИ отличать критическую неопределенность (требующую уточнения) от ситуаций, где можно действовать на основе здравого смысла. Для этого нужны инструменты сравнения алгоритмов и качественные наборы данных с неоднозначными запросами.
Ученые из Института AIRI и МФТИ при поддержке Центра робототехники Сбера представили набор данных AmbiK, созданный для оценки систем, взаимодействующих с человеком через естественный язык. Основная задача проекта – моделировать ситуации, в которых робот сталкивается с неполными или неточными, многозначными инструкциями и должен запросить уточнения только тогда, когда это действительно необходимо.
Авторы AmbiK предлагают классифицировать неопределенности на три типа: связанные с предпочтениями пользователя, общими знаниями и вопросами безопасности. Такой подход помогает создавать более адаптивные и удобные для человека системы.
В ходе исследования был собран текстовый набор данных, включающий две тысячи задач с разметкой по типу неоднозначности для действий на кухне. Результаты показали, что существующие алгоритмы пока недостаточно эффективно справляются с распознаванием ситуаций, требующих уточнения: даже лучшие модели демонстрируют успешный результат лишь в 20% случаев. Новый набор данных стал самым большим в мире в своей предметной области, ранее существовавшие аналоги насчитывали порядка 600 примеров.
«Сейчас в исследовании мы рассматриваем команды как единичные действия — робот должен сразу определить, однозначна инструкция или требует уточнения. Однако в реальной робототехнике часто требуется планирование: разбивка задачи на последовательность шагов. Хотя текущие методы, которые мы сравниваем, не используют эту возможность, в нашем датасете дополнительно подготовлены планы для инструкций. Это означает, что можно анализировать, на каком именно этапе возникает неоднозначность. Таким образом, датасет пригоден не только для оценки распознавания нечетких команд, но и для систем, занимающихся планированием поведения».
Алексей Ковалев, руководитель группы «Воплощенные агенты» лаборатории «Когнитивные системы ИИ» Института AIRI
Исследование, датасет и сопутствующие материалы находятся в открытом доступе. Это делает бенчмарк не только научно-значимым, но и практическим инструментом для создания более интуитивных и удобных интеллектуальных систем. Кроме того, текстовая природа AmbiK позволяет применять его для тестирования языковых моделей без привязки к визуальным данным.