Более двух лет назад стало известно, что человек безнадежно уступил компьютеру в одном довольно интеллектуальном и довольно хорошо оплачиваемом занятии. Нет-нет, не в передвижении фигурок по черно-белым клеточкам, там все свершилось много раньше. А два с небольшим года назад компьютер от IBM научился диагностировать легочную онкологию лучше, чем люди – с точностью 90% против 50% у самых опытных врачей. Об этом, ну и о возможных последствиях, мы рассказали в колонке «Дети Ватсона: Как кремниевый онколог приступил к работе над исцелением человека и какие ещё профессии может освоить ИИ…».

И если сейчас не полениться, взять да почитать комментарии к той давнишней статье, то мы увидим, что у читателей срабатывала защитная реакция. Из серии того, что, мол, Watson никакой не доктор, а обычная – хоть и здоровенная и быстродействующая – база знаний. Вроде древней экспертной системы MYCIN, написанной еще в начале семидесятых на языке LISP – специалисты Стэнфордского университета создали ее для диагностики бактериальных инфекций. Позже на ее базе появилась пульмонологическая PUFF…

То есть – никакого интеллекта. Есть факты, есть правила вывода. Правда, ныне они почерпнуты из такого массива историй болезней, который не сможет обозреть ни один самый работоспособный и самый опытный белковый медик. Что создает интереснейшую коллизию – это во времена MYCIN можно было годами дискутировать относительно ее немногочисленных и обозримых правил вывода. Теперь такой фокус не пройдет – правила вывода Watson-а столь многочисленны, что могут быть признаны лишь страховой компанией с их гигантскими архивами. Которые и оценили столь высоко эффективность кремниевого онколога.

Но остаются все-таки такие вещи, как интуиция. Творчество, на которое надеялись комментаторы статьи двухлетней давности. Неформализованная, а возможно и неформализуемая в принципе интуиция, вырабатываемая на опыте и отображающая в ряде случаев закономерности реального мира лучше, чем чисто формальные правила. В конкретной области легочной онкологии доктор Watson бесподобен. Но когда он сможет сравниться с доктором Хаусом, вымышленным, но непревзойденным специалистом дифференциального диагноза.

Глубочайше знание которым человеческой натуры воплотилось в лаконичных словах «Все врут!»… Очень полезным для любого, кто по роду занятий имеет дело с людьми. И даже – для Искусственного Интеллекта. Давайте обратим внимание – ведь тест Тьюринга, тест на «разумность», по своей сути является тестом на умение лгать. Лгать так ловко, чтобы оказаться способным выдать себя «за своего» в стае узконосых обезьян. Критерием интеллекта оказалось выбрано не умение решать интегральные уравнения, а способность врать – интересная характеристика человеческой цивилизации…

Так что ИскИнам от IBM, тем самым Ватсонам, для их деятельности в самых различных областях потребовалось получше овладеть человеческим общением. И такую возможность ныне дает технология глубокого обучения, deep-learning, доступные разработчикам приложений на базе Watson через облако, поддерживающее интерфейс программирования приложений, application programming interface, API.

Ватсон, превзошедший в 2013 году белковых врачей, объединился с глубоким обучением, прорывной технологией 2013-го года. (Deep Learning) Обучается в данном случае не школьник или студент, а нейросеть. Ну а глубинность состоит в том, что «обучению», формированию весовых коэффициентов в устройстве, моделирующем нейрон – причем схемотехника и технология этого устройства не важна – подвергаются внутренние слои нейросети большой размерности.

Глубокое обучение – от МакКаллоха до наших дней…
Глубокое обучение – от МакКаллоха до наших дней…

Ну, «внутренние» –это достаточно условно, как и «большая» размерность. Более точно можно говорить, что это те параметры нейросети, на которых не работает метод обратного распространения ошибки. Когда-то Мартин Гарднер описывал самообучающуюся машину из спичечных коробков с фишками, которая играла в крестики-нолики. Самообучение ее обуславливалось тем, что после проигрыша фишки, ведущие к проигранной партии, изымались из корок и выкидывались. (Эдакий аналог клыков и когтей эволюции, выписывавших премию Дарвина носителю малополезного кода…)

Это-то и было прообразом метода обратного распространения ошибки. При котором осуществляется распространении сигналов ошибки от выходов сети к её входам, в направлении, обратном прямому распространению сигналов в обычном режиме работы, например, персептрона. В принципе это примененный к настройке нейросети один из методов оптимизации, а именно – градиентного спуска. С сохранением характерного недостатка – резким ростом времени работы на больших размерностях. Что и затрудняло обучение крупноразмерных нейросетей.

Но за последний десяток лет появились и интенсивно развивались алгоритмы, позволяющие обучать нейросети больших размеров на сложных наборах исходных данных за приемлемое время. Совокупность этих алгоритмов и методик обучения и получила название deep-learning. Интересующимся порекомендуем замечательную и постоянно дописываемую онлайновую бесплатную книгу Neural Networks and Deep Learning, являющуюся общедоступным введением в проблему.

Ну а остальным поясним, что технологии глубокого обучения в настоящее время позволяют заметно повысить сложность задач, решаемых нейросетями. Вроде пресловутого распознавания котиков… Доступность мощнейших параллельных вычислительных мощностей по приемлемым ценам – спасибо любителям видеоигр и разработчикам видеоускорителей, повлиявшим на отрасль в целом – подвигло такие гиганты ИТ-мира, как Google и Facebook прибегнуть к услугам ведущих специалистов по глубокому обучению.

Ну а теперь к ним присоединяется и IBM – IBM Pushes Deep Learning with a Watson Upgrade. Теперь технологии глубокого обучения интенсивно внедряются в Ватсона. Сначала – в его лингвистические приложения, представляющие услуги машинного перевода, распознавания речи и вокализации текстов. Потом они будут использованы и для работы с другими плохо структурированными массивами данных.

Действительно, нейросети глубокого обучения могут, ничего не зная об окружающем мире, научиться бихевиористически отражать его закономерности. Ну, примерно как попугай произносит ругательства, порой уместные… Объединение их с другими методами – ну, хотя бы с традиционными базами знаний, позволит радикально повысить эффективность ИскИнов. И вот тут вылезает интереснейшая проблема…

Нейросеть, в процессе своего глубокого обучения, обретает то, что с некоторой степенью аналогии можно будет назвать «интуицией». В ней нет фактов и правил, точно отображающих те или иные закономерности мира, но тем не менее, благодаря обучению на большом наборе данных, она ведет себя так, будто они у нее есть. (Конечно, если использованные при обучении данные были представительны…) И вот тут-то начнется самое смешное…

Поскольку отсутствуют формализованные правила и факты, то машины начнут обретать то, что можно назвать «характером». А он у Хауса был скверным – бездельничал, врал, “сидел” на викадине. Но альтернативы ему не было… И альтернативы доктору Ватсону не будет никогда – человеку столько данных не прочитать, и в голове не удержать. И это – формализованных данных. А к ним вот-вот добавятся коэффициенты, выработанные при глубоком обучении. И не получится ли так, что людям в ближайшее время придется мириться с плохим характером своих же созданий?