Facebook заставит ИИ «поумнеть» с помощью игры NetHack

Исследователи из Facebook считают, что игра NetHack отлично подходит для обучения, тестирования и оценки моделей искусственного интеллекта. Сегодня разработчики выпустили учебную среду NetHack — исследовательский инструмент для оценки надежности компьютерных систем и агентов машинного обучения. Уровни в NetHack генерируются процедурно, и каждая игра отличается от другой. Как отмечают исследователи из Facebook, игра проверяет общие пределы умений современного ИИ.

Игра NetHack впервые была выпущена в 1987 году. Система представляет собой сложный механизм, который генерирует случайные уровни. Игроки должны спускаться более чем на 50 уровней подземелья, чтобы найти волшебный амулет. В процессе персонажи используют сотни предметов, сражаются с монстрами и взаимодействуют с окружением.

Несмотря на сложность игрового движка, который написан в основном на языке C, NetHack имеет простой внешний дизайн в стиле ASCII-графики. Стиль отказывается от всего, кроме самой простой физики. Вместо пикселей отображаются символы. Это важно, поскольку простота графики позволяет моделям быстро учиться, не тратя вычислительные ресурсы на моделирование динамики графики или визуализацию.

Фото: github.com

Обучение сложных моделей машинного обучения в облаке — это непомерно дорого. Согласно недавнему отчету, Университет Гровера в Вашингтоне, созданный специально для генерации и обнаружения поддельных новостей, обошелся в 25 000 долларов за двухнедельное обучение. Компания OpenAI тратила 256 долларов в час на обучение языковой модели GPT-2.

В этом еще одно преимущества обучения ИИ на инструменте NetHack. Достаточно одной высокопроизводительной видеокарты для обучения агентов NetHack, под управлением ИИ. Система совершает сотни миллионов шагов в день с использованием инфраструктуры TorchBeast, которая поддерживает дальнейшее расширение масштабов путем подключения большего количества видеокарт или компьютеров.

«NetHack представляет собой задачу, стоящую на уровне с другими современными методами, однако без тех же затрат на вычисления. Стандартные агенты глубокого обучения в NetHack исследуют лишь часть общей игры, — написали разработчики в текст об исследовании. — Прогресс в этой сложной новой среде потребует от агентов выйти за рамки простого изучения мира».

Фото: arxiv.org

Среда обучения NetHack включает в себя семь контрольных задач, предназначенных для измерения прогресса агентов, а именно:

  • Лестница: спуститесь на нижние уровни подземелья.
  • Комплект: береги своего питомца (он должен выжить и попасть с персонажем вглубь темницы).
  • Ешьте: найдите источники съедобной пищи и ешьте ее, чтобы избежать голода.
  • Золото: собирайте золото в подземелье.
  • Разведчик: осматривайте всю территорию подземелья.
  • Оценка: достигните высокого игрового счета (например, убийство монстров, спуск на нижние уровни, сбор золота).
  • Оракул: доберитесь до важного ориентира, Оракула (появляется с 4-9 уровень в подземелье).

Авторы отмечают, что NetHack содержит большое количество внешних ресурсов, которые будут использованы для повышения производительности агентов. Например, существует база данных с игровым опытом людей, из которой модель может извлечь непосредственную информацию. Также ИИ может обучаться по официальному руководству для NetHack, странице на Wiki, по роликам с игрой и обсуждениям на форуме.

Исследователи верят, что среда обучения NetHack поможет разработчикам в работе с ИИ. Инструмент позволяет тратить больше времени на тестирование новых идей, а не ожидание результатов. Кроме того, система будет доступна исследователям в условиях ограниченных ресурсов. Также разработчики в Facebook считают, что обучение ИИ приведет к разработке систем, которые могли бы однажды диагностировать болезни или предсказывать сложные структуры белка.

Исследование опубликовано на arxiv.org.

Источник

Что будем искать? Например,ChatGPT

Мы в социальных сетях