Общим местом в любом популярном тексте по кибернетике и ее многочисленному потомству было то, что подавляющую часть обрабатываемой мозгом информации человек получает через зрение. Это действительно так… Но вот какое дело – человеком разумным узконосых обезьян делает более узкий информационный канал, а именно – речевой. Именно он обеспечивает возможность экстракорпорального, внетелесного хранения информации.

Сначала та информация, которой не располагал конкретный индивидуум хранилась в организмах других членов стаи гоминид. Так осуществлялась передача самых первых основ культуры внутри стай, от поколения к поколению… Очень интересно смотреть на эволюцию письменности. Как она происходила на самом деле мы, скорее всего, не узнаем никогда, но, скорее всего, она шла от самобытных и своехарактерных картинок к более-менее общепонятным пиктограммам. К картинкам, которые превращались в знак, отмечающий важнейшие черты объекта.

Ну, там, крутой поворот или кидающихся под колеса детей. Нарисован – человек, значит человек. (Говорят, у людоедов некогда пользовалась спросом ветчина с полуодетой барышней на этикетке, а примитивные англосаксонские варвары отвергали прекрасные советские карамельки «Раковая шейка» с картинкой рака на обертке, что свидетельствует о примитивизме их мышления…) А вот потом стали появляться знаки более сложного значения, так называемые идеограммы.

Идеограмма – это рисунок, означающий определенную идею. Ну, например, ноги обозначают не только эту часть тела, но и понятие «ходить», а то и движение вообще. Объединяясь во все более и более сложные конструкции, иерограммы порождают иероглифические системы письменности. Но в них уже появляются знаки для обозначения звуков, слогов, слов… И в конце концов все приходит к алфавитной письменности – именно она употребляется единственной культурой – европейской, иудео-христианской – которая породила единственную известную нам технологическую цивилизацию.

Так что дело создания искусственных разумных существ состоит в том, чтобы обеспечить распознавание не столько визуальных образов (это потребуется искусственным животным – пусть даже мы будем возлагать на них человеческие ремесла водителя и грузчика), но человеческой речи, называемой еще речью на естественных языках. Освоит это дело машина – можно будет говорить о полноценном искусственном интеллекте…

И вот в эту отрасль сейчас интенсивно проникают технологии глубокого обучения, применяемые к обработке больших данных лингвистической информации. На каковых больших данных нейросети и осваивают общение на естественных языках. Вот очень интересная работа группы исследователей из известной коллаборации Google Brain, специализирующейся на глубоком обучении – Exploring the Limits of Language Modeling. «Расширение пределов языка моделирования» имело своей целью снижение вероятности такого явления, как perplexity. В данном случае – это растерянность компьютера, не знающего, какое значение слова выбрать из словаря.

Проблемы, которые это породит для машинного разума были известны очень давно. Их вводили даже в детские сказки. Вот, скажем, «Тайна заброшенного замка» Александра Волкова, где в Волшебную страну – страна Оз из сказок Ф.Баума в девичестве – попадали завоеватели из другой звездной системы (в СССР тоже писали фэнтези, но только не знали, что это фэнтези…). И вот там у генерала-завоевателя возникали проблемы с этой самой perplexity, когда он пытался поговорить с подлежащими завоеванию жителями Волшебной страны с помощью компьютерного лингвиста:

Только изумление помогло генералу снести эту неслыханную дерзость. Он так и сверкал глазами на ни в чем не повинного Жевуна:
– Заруби себе на носу, – резко заметил он, – что с генералом так не подобает говорить.
Крайнее недоумение отразилось на лице беллиорца.
– Я готов отрубить себе нос, но не могу понять, при чём тут генерал и какая вам от этого польза? – пролепетал он.
– Что ты мелешь, болтушка? – завопил, не выдержав, Баан-Ну.
Жевун совсем перепугался.
– Если бы я был мельницей, я молол бы муку. А если я болтушка, то яичницу-болтунью жарят на сковороде. Про что вы меня спрашиваете? Я вижу, вы сердитесь. Я ничем не хочу вас обидеть. Но отдавайте мне понятные приказания, а то я не знаю, что мне делать, – тихо молвил он и покорно и преданно взглянул на Баан-Ну.
– Мон-Со, – рявкнул генерал во всю глотку, – где вы взяли этот медный лоб?

Времени с первой половины семидесятых, когда Александр Волков – по профессии преподаватель высшей математики – писал свою сказку прошло очень и очень много. Но вот системы автоматического перевода все еще склонны к растерянности в куда большей степени, чем хотелось бы. И причина этого – в семантической неоднозначности естественных языков. Отмечено это было еще до эпохи машинного перевода, и также отображено в детских книжках. Вот «Экипаж «Меконга»» Евгения Войскунского и Исая Лукодьянова:

Валя подсела к инженерам:
— Что вы тут бормочете? Дайте-ка я вам переведу, дилетанты несчастные.
— Ладно, — с готовностью согласился Юра. — Только сперва немножко проверим тебя. — Он перелистал несколько страниц и ткнул пальцем в одну из фраз: — Переведи вот это, например.
— «Naked conductor runs under the carriage», — прочла Валя и тут же перевела: — «Голый кондуктор бежит под вагоном…» Неприлично и глупо!
Инженеры так и покатились со смеху.
— Послушай, как нужно правильно, — сказал Юра, отсмеявшись: — «Неизолированный провод проходит под тележкой крана». Американский технический язык — это тебе, Валечка, не английский литературный. Здесь навык нужен…

Тут на эту самую perplexity попадается белковый филолог Валечка… Правда, массе народа, которые колесят по миру без всякого знания иностранных языков, с одними лишь гаджетами, в которых есть тот или иной, обычно от Google переводчик, эта «растерянность» не мешает совсем, они могут объясниться с лондонским портье и парижским официантом, и даже перевести венецианскую вывеску. (Хотя, скажем честно, для общения на таком уровне хватило б и пиктограмм…) Но вот саму Google такой уровень ошибок не устраивает.

Convolutional Neural Networks она же Long-Short Term Memory представляет текст таким образом. Причем, как и в картинках, распознаются котики...
Convolutional Neural Networks она же Long-Short Term Memory представляет текст таким образом. Причем, как и в картинках, распознаются котики…

И новые, базирующиеся на глубоком обучении технологии коллаборации Google Brain позволяют этот самый уровень ошибок заметно снизить, практически двукратно. Причем объединение нескольких моделей позволяет значительно повысить достоверность распознавания текста на выходе. И проверен новый алгоритм на наборе данных в миллиард слов.

И вот тут – самое интересное. Да, пока система распознавания делает примерно такие же ошибки, как семиклассник, переводящий The Golden Rule как «золотую линейку». Ну, что поделать – знает он о существовании золота и линеек, и может представить линейку, сделанную из золота. А вот о добром рабби Гиллеле и Золотом правиле этики ему только предстоит узнать… Но дети-то они – учатся. А машины, благодаря глубокому обучению, учатся очень быстро.

Сегодняшняя нейросеть-переводчик уступает опытному переводчику белковому. Но только белковый переводчик поучился в школе-институте, постажировался в конкретной языковой среде – и все… А ИскИн-то будет учиться непрерывно. Сначала с помощью команды «учителей». Потом – самостоятельно. Например, сканируя социальные сети, и овладевая живым жаргоном трейдеров Уолл-стрита, бормотаньем ученых и речью жизнерадостных альтернативно-одаренных детей третьего мира. И все, что выучит один ИскИн, станет доступным всей экосистеме ИскИнов этой фирмы (даже не надо будет составлять словари – можно просто копировать участки нейросети…) И это – неизбежно!