Как мир компьютерных игр помог роботу Dactyl освоить престидижитацию

Есть широко распространенное и многими авторитетами пропагандируемое мнение, что комьютерные игры в частности и все информационные технологии в целом заняты тем, что уводят людей из реальности в некий воображаемый мир. Дескать, десктопы девяностых и смартфоны нулевых – это уход с магистральной дороги прогресса, где были «Востоки» и Apollo шестидесятых… А Родни Брукс (Rodney Brooks), CEO фирмы, выпускающей одно из полезнейших в быту устройств, робот-пылесос Roomba, недавно написал, что прорывов в руках роботов нет 40 лет, и скорее всего, не будет до 2040 года.

Но прорыв – случился! И именно методы и модели компьютерных игр помогли некоммерческой организации OpenAI, занимающей исследованиями в области технологий искусственного интеллекта, быстро и эффективно обучить робот-манипулятор Dactyl. Использованные ими методы так интересны и поучительны, что на них стоит взглянуть подробно.

Ну, прежде всего, для того, чтобы обучать манипулятор, его надо иметь. Создавать заново специалисты OpenAI его не стали – они воспользовались  Shadow Dexterous Hand ™ от фирмы Shadow Robot Company. Выбор покупной «Ловкой руки» был вполне экономически оправдан – специализированная компания всегда делает «железо» дешевле и для экспериментальных изделий нет нужды тратить время и деньги на разработку конструкции, отработку технологии, и запуск в производство.

«Ловкая рука» от Shadow Robot Company.
«Ловкая рука» от Shadow Robot Company.

Дальше было проведено математическое моделирование манипулятора. То есть – создали цифровую модель самой, что ни на есть, реальной руки-манипулятора. Затем эту цифровую модель погрузили в модельный цифровой мир, во вселенную иллюзий, примерно такую же, которая моделирует физику в приличных компьютерных играх. В инженерном деле это называется имитационное моделирование, simulation modeling.  И дальше началось то, что называется рандомизацией, внесение случайности в процесс моделирования.

Историк и культуролог Й.Хёйзинга, о книге которого Homo Ludens мы говорили в колонке «КАК КИБЕРИГРА СТАЛА СПОРТОМ, И КАКИЕ ДЕНЬГИ В ЭТОМ ДЕЛЕ ВЕРТЯТСЯ», выделял кроме игр-забав и игр-состязаний и третий вид игры – игру азартную. Но не как желание выиграть у «однорукого бандита» мешок монет, а как стремление выявить волю богов. Сегодня речь идет о том, чтобы учесть неизбежные случайности, присутствующие в реальном мире. Скажем, любая деталь в массовом машиностроительном производстве имеет случайно выбранные размеры. И задачей аналитических групп является определить номиналы и допуска так, чтобы изделие с одной стороны собиралось и не болталось в работе, но и не было чрезмерно дорого из-за завышенных квалитетов точности.

Реклама на Компьютерре

Но это машиностроение – там оперируют отклонениями линейных величин, и для производства расчетов был применим древний арифмометр. Тут же была использована модель многомерного мира, в которой случайным образом варьировались базовые параметры. Такие, как например, тяготение. Сила тяжести… Зачем, что, манипулятор учили работать на Луне и Марсе, или на произвольном астероиде? Да нет, представьте себе, что наша рука, совершая движения в семи степенях свободы, может весьма существенно менять ускорения, приходящиеся на кисть. А масса инерционная она в классической механике эквивалентна массе гравитационной, нет разницы – тяготит нас земля или ускорение создает лифт.

В этом модельном мире в цифровую симуляцию руки робота вкладывали еще одну симуляцию – кубика, куба, одного из простейших Платоновых тел, составленного из шести равных квадратов. (Тетраэдр был бы еще проще, но даже тетраэдальные пакеты молока куда-то исчезли из реальности…) Только это была не модель платоновской идеи куба, а модель куба реального – с его массой, твердостью-упругостью, внешним видом. Да еще и меняющимися случайным же – рандомизированным – образом, параметрами.

Система управления для Dactyl тоже была взята из мира компьютерных игр. Это был алгоритм  OpenAI Five, разработанный той же OpenAI для коллектива из 5-ти нейронных сетей, способных командно играть в DOTA 2 (опять привет от киберспорта!). Ну и управляющие алгоритмы с несколькими моделями киберрук, оперирующими моделями кубиков в стохастической модельной вселенной, были погружены в мощную и быструю вычислительную среду. На 50 часов. На пару суток.

Обучение робота Dactyl в модельной среде сопровождалось такими картинками
Обучение робота Dactyl в модельной среде сопровождалось такими картинками

Одна из вечнозеленых тем компьютерной прессы есть обсуждение последствий насыщения семей электронными устройствами, и все больший отказ от классического письма ручкой. Обучение которому развивало мелкую моторику и способствовало развитию высших функций головного мозга. Робот же в имитационной среде учился же даже не чистописанию, а осваивал то, что система Монтессори рекомендовала детям с отклонениями в развитии – игру в цветные кубики. (Наблюдение даже за простейшими, учебными нейросетями позволяет наглядно представить суть задач, решаемых педагогами…)

Только сколько там занимает у человека выработка такой моторики, годы? Робот с обучением справился за 50 часов модельного времени, обретя навыки, которые применимы и в Slow Time, медленном времени реального мира. Так что алгоритмы, напрактиковавшиеся в игровом мире, взялись за управление реальной Dexterous Hand. Для этого им, правда, понадобилась система технического зрения – в модельном мире информацию о положении и ориентации кубика алгоритм управления получал непосредственно от модели кубика, оставаясь внутри той же вычислительной среды.

Игрушечный кубик в железной руке, обученный в среде игр, способен оказать на человечество большее влияние, чем мерцание альфа-частиц в игрушке-сцинтилляскопе начала ХХ века…
Игрушечный кубик в железной руке, обученный в среде игр, способен оказать на человечество большее влияние, чем мерцание альфа-частиц в игрушке-сцинтилляскопе начала ХХ века…

Итак, вот он робот Dactyl – управляющий алгоритм, манипулятор Dexterous Hand и три видеокамеры. Вот он берет кубик с разноцветными гранями – и крутит его до достижения заданной ориентации. (Видео – здесь.) Престидижитирует со вполне человеческой ловкостью. Манипулятор с 24 степенями свободы – у человеческой кисти их 20, и еще 7 степеней у руки… Да, пока мы видим то, что умиляет родителей у ребенка. Моторику, на овладение которой уходят годы – полученную за двое суток. Так что вопрос – сколько уйдет у Dactyl на овладение любой рабочей или сервисной профессией? – теперь чисто технический.

Совместив «ловкую ручку» от Shadow с играющим в теннис промманипулятором от KUKA, мы раз и навсегда снимаем демографические ограничения на развитие производств. Более легкая и дешевая версия на платформе того же робота-пылесоса возьмет на себя уборку. Нечто промежуточное – станет сантехником и маляром. Человечество подходит к переломному моменту в своем развитии… И – заметный вклад в этот перелом внесла «несерьезная» индустрия компьютерных игр, сосредотачивающая гигантские ресурсы благодаря массовости аудитории.