Это уже не столь элементарно, Ватсон!

Искусственный интеллект IBM Watson теперь ведёт дискуссии практически на любые темы. По уверениям разработчиков, эта система ИИ способна поддерживать обсуждение, как просвещённый собеседник. «Уотсон» вычленяет из предложенной темы отдельные тезисы, проверяет их аргументацию по своей обширной базе данных, после чего подбирает контраргументы и формулирует ответ на естественном языке.

Задача обработки естественного языка считается чрезвычайно сложной областью искусственного интеллекта. Главная трудность при анализе человеческой речи заключается в том, что в ней допускается слишком много вольностей. Один термин имеет множество значений, и наоборот — одному понятию соответствует масса описаний разными словами.

Схема языкового взаимодействия с IBM Watson (кадр из презентации IBM).

Например, фраза «Косой косил косу косой косой» легко расшифровывается даже детьми, но её не могут корректно обработать ни системы автоматизированного перевода, ни программы проверки правописания. Единственная определённость здесь возникает с глаголом, а дальнейший анализ предложения требует наличия «здравого смысла», отсутствующего у компьютеров любой мощности. Образ страдающего косоглазием косаря, скашивающего траву плохим инструментом вдоль песчаной косы, просто не формируется в электронных мозгах.

Однако IBM Watson постоянно развивается и обрастает новыми функциями. Три года назад он прославился, победив лучших игроков в викторине Jeopardy! (отечественный аналог — телепрограмма «Своя игра»). После этой демонстрации многие научные коллективы пожелали использовать его аналитические возможности в своих исследованиях, и к суперкомпьютеру выстроилась очередь. Постепенно результат его работы становится всё ближе к уровню экспертных заключений, выполняемых группой специалистов. Более того, по многим критериям он уже превосходит их.

Конечно, это не «Голем XIV» Станислава Лема. Способ «Уотсона» отвечать на вопросы ближе к манипуляции словами, чем к процессу мышления человека, но конечный результат всё равно впечатляет.

Серверы IBM в дата-центре Университета Райса (фото: ibm.com).

Аппаратно система ИИ IBM Watson базируется на серверах Power 750. Они широко распространены в сфере научных исследований. Например, из них сформирован дата-центр Университета Райса.

В IBM Watson девяносто таких машин объединены в кластер по технологии DeepQA. Каждый сервер содержит по четыре восьмиядерных процессора архитектуры POWER7 с частотой 3,5 ГГц, одновременно выполняющих по четыре потока на ядро. Суммарное число процессорных ядер составляет 2 880 штук, а оперативной памяти — 16 ТБ.

Обладая такой вычислительной мощью, система ИИ выполняет большинство задач за секунды. Получив вопрос, IBM Watson анализирует порядок слов в нём и группирует их.

Затем по разным алгоритмам происходит одновременный поиск статистически связанных фраз в базе большого объёма (около 15 ТБ во время игры Jeopardy!) справочной и научной литературы.

Чем больше алгоритмов приведёт к определённым записям, тем выше считается их ценность и шанс стать частью конечной формулировки ответа.

Главный редактор журнала Scientific American Джон Ренни (John Rennie) как-то спросил представителя IBM: «Какой объём информации способен обрабатывать IBM Watson за секунду?» «Около пятисот гигабайт, или примерно миллион книг, если речь о поиске в базе данных», — сообщил его источник.

Эту систему ИИ используют для генерации гипотез, сбора доказательств и опровержений, расширенного анализа данных, поиска совпадений и упоминаний каких-то фактов в научных публикациях.

IBM Watson: пять секций по восемнадцать серверов Power 750 (изображение: itpro.co.uk).

Например, можно загрузить в «Уотсон» генетическую карту злокачественных клеток и сравнить её с картой клеток здоровой ткани того же органа. В ходе анализа будут обнаружены участки, подвергшиеся мутации. Затем «Уотсон» выполнит поиск по медицинской литературе, чтобы найти всю информацию о них.

Сейчас IBM Watson способен принять участие в обсуждении любой темы. Он учится не просто автономно сканировать свою базу данных в поисках ключевых слов, но и «понимать» эти сведения.

На конференции в Институте Милкена «Почему завтра будет непохожим на сегодня» старший вице-президент и директор по исследованиям IBM Джон Келли III показал, что теперь «Уотсон» способен анализировать свою базу без помощи человека. Суперкомпьютер сам отбирает аргументы, которые считает наиболее вескими для каждого высказывания, и оформляет их надлежащим образом.

Например, во время демонстрации «Уотсона» попросили представить аргументы «за» и «против» продажи детям компьютерных игр, содержащих насилие.

IBM Watson: выбор темы для обсуждения (изображение: ibm.com).

После сканирования по данной теме примерно четырёх миллионов статей из Википедии (как наиболее известного всем источника) он отобрал десять наиболее релевантных из них, проанализировал около трёх тысяч приложений и ответил:

«Я хотел бы отметить следующие мнения по данной теме: воздействие жестоких игр приводит к увеличению физиологического возбуждения, появлению агрессивных мыслей и ухудшению социального поведения. Кроме того, жестокие игры или текст могут становиться причиной совершения подростками актов насилия в реальной жизни. Наконец, жестокие видеоигры способны усилить и детскую агрессию.

С другой стороны, я хотел бы обратить внимание на следующие контраргументы. Насилие в видеоиграх не имеет причинной связи с агрессивными тенденциями. Кроме того, большинство детей, которые играют в видеоигры, не имеют указанных проблем. Наконец, видеоигры являются частью нормальной социальной среды современных подростков».

Фактически «Уотсон» собрал наиболее типичную аргументацию и оформил её в связную подборку, но не сделал однозначного вывода. Если учесть, что «Уотсон» не понимает сути проблемы и не может иметь своего мнения, это отличный результат.

На мой взгляд, проблема есть и в том, что, наполняя предлагаемую базу данных материалами определённого вида, можно увеличить шанс позитивных или негативных формулировок «Уотсона» по обсуждаемой теме. Иными словами, его можно подтолкнуть к нужному ответу, а затем сослаться на него как на результат работы экспертной системы принятия решений.

Для обывательского уровня давно стали типичными фразы вроде «Это компьютер так сделал». Таким образом люди оправдывают собственную некомпетентность, пытаясь объяснить плохую работу недостатками своего компьютера. Даже такой гигант, как IBM Watson, — всего лишь инструмент. Исключительно мощный и развивающийся, но имеющий очевидные ограничения.