Компьютер потихоньку перестает путать слова…

Big Data
автор : Михаил Ваннах  16 февраля  2016

Общим местом в любом популярном тексте по кибернетике и ее многочисленному потомству было то, что подавляющую часть обрабатываемой мозгом информации человек получает через зрение. Это действительно так… Но вот какое дело – человеком разумным узконосых обезьян делает более узкий информационный канал, а именно – речевой. Именно он обеспечивает возможность экстракорпорального, внетелесного хранения информации.

Сначала та информация, которой не располагал конкретный индивидуум хранилась в организмах других членов стаи гоминид. Так осуществлялась передача самых первых основ культуры внутри стай, от поколения к поколению… Очень интересно смотреть на эволюцию письменности. Как она происходила на самом деле мы, скорее всего, не узнаем никогда, но, скорее всего, она шла от самобытных и своехарактерных картинок к более-менее общепонятным пиктограммам. К картинкам, которые превращались в знак, отмечающий важнейшие черты объекта.

Ну, там, крутой поворот или кидающихся под колеса детей. Нарисован – человек, значит человек. (Говорят, у людоедов некогда пользовалась спросом ветчина с полуодетой барышней на этикетке, а примитивные англосаксонские варвары отвергали прекрасные советские карамельки «Раковая шейка» с картинкой рака на обертке, что свидетельствует о примитивизме их мышления…) А вот потом стали появляться знаки более сложного значения, так называемые идеограммы.

Идеограмма – это рисунок, означающий определенную идею. Ну, например, ноги обозначают не только эту часть тела, но и понятие «ходить», а то и движение вообще. Объединяясь во все более и более сложные конструкции, иерограммы порождают иероглифические системы письменности. Но в них уже появляются знаки для обозначения звуков, слогов, слов… И в конце концов все приходит к алфавитной письменности – именно она употребляется единственной культурой – европейской, иудео-христианской – которая породила единственную известную нам технологическую цивилизацию.

Так что дело создания искусственных разумных существ состоит в том, чтобы обеспечить распознавание не столько визуальных образов (это потребуется искусственным животным – пусть даже мы будем возлагать на них человеческие ремесла водителя и грузчика), но человеческой речи, называемой еще речью на естественных языках. Освоит это дело машина – можно будет говорить о полноценном искусственном интеллекте…

И вот в эту отрасль сейчас интенсивно проникают технологии глубокого обучения, применяемые к обработке больших данных лингвистической информации. На каковых больших данных нейросети и осваивают общение на естественных языках. Вот очень интересная работа группы исследователей из известной коллаборации Google Brain, специализирующейся на глубоком обучении – Exploring the Limits of Language Modeling. «Расширение пределов языка моделирования» имело своей целью снижение вероятности такого явления, как perplexity. В данном случае – это растерянность компьютера, не знающего, какое значение слова выбрать из словаря.

Проблемы, которые это породит для машинного разума были известны очень давно. Их вводили даже в детские сказки. Вот, скажем, «Тайна заброшенного замка» Александра Волкова, где в Волшебную страну – страна Оз из сказок Ф.Баума в девичестве – попадали завоеватели из другой звездной системы (в СССР тоже писали фэнтези, но только не знали, что это фэнтези…). И вот там у генерала-завоевателя возникали проблемы с этой самой perplexity, когда он пытался поговорить с подлежащими завоеванию жителями Волшебной страны с помощью компьютерного лингвиста:

Только изумление помогло генералу снести эту неслыханную дерзость. Он так и сверкал глазами на ни в чем не повинного Жевуна:
– Заруби себе на носу, – резко заметил он, – что с генералом так не подобает говорить.
Крайнее недоумение отразилось на лице беллиорца.
– Я готов отрубить себе нос, но не могу понять, при чём тут генерал и какая вам от этого польза? – пролепетал он.
– Что ты мелешь, болтушка? – завопил, не выдержав, Баан-Ну.
Жевун совсем перепугался.
– Если бы я был мельницей, я молол бы муку. А если я болтушка, то яичницу-болтунью жарят на сковороде. Про что вы меня спрашиваете? Я вижу, вы сердитесь. Я ничем не хочу вас обидеть. Но отдавайте мне понятные приказания, а то я не знаю, что мне делать, – тихо молвил он и покорно и преданно взглянул на Баан-Ну.
– Мон-Со, – рявкнул генерал во всю глотку, – где вы взяли этот медный лоб?

Времени с первой половины семидесятых, когда Александр Волков – по профессии преподаватель высшей математики – писал свою сказку прошло очень и очень много. Но вот системы автоматического перевода все еще склонны к растерянности в куда большей степени, чем хотелось бы. И причина этого – в семантической неоднозначности естественных языков. Отмечено это было еще до эпохи машинного перевода, и также отображено в детских книжках. Вот «Экипаж «Меконга»» Евгения Войскунского и Исая Лукодьянова:

Валя подсела к инженерам:
— Что вы тут бормочете? Дайте-ка я вам переведу, дилетанты несчастные.
— Ладно, — с готовностью согласился Юра. — Только сперва немножко проверим тебя. — Он перелистал несколько страниц и ткнул пальцем в одну из фраз: — Переведи вот это, например.
— «Naked conductor runs under the carriage», — прочла Валя и тут же перевела: — «Голый кондуктор бежит под вагоном…» Неприлично и глупо!
Инженеры так и покатились со смеху.
— Послушай, как нужно правильно, — сказал Юра, отсмеявшись: — «Неизолированный провод проходит под тележкой крана». Американский технический язык — это тебе, Валечка, не английский литературный. Здесь навык нужен…

Тут на эту самую perplexity попадается белковый филолог Валечка… Правда, массе народа, которые колесят по миру без всякого знания иностранных языков, с одними лишь гаджетами, в которых есть тот или иной, обычно от Google переводчик, эта «растерянность» не мешает совсем, они могут объясниться с лондонским портье и парижским официантом, и даже перевести венецианскую вывеску. (Хотя, скажем честно, для общения на таком уровне хватило б и пиктограмм…) Но вот саму Google такой уровень ошибок не устраивает.

Convolutional Neural Networks она же Long-Short Term Memory представляет текст таким образом. Причем, как и в картинках, распознаются котики...

Convolutional Neural Networks она же Long-Short Term Memory представляет текст таким образом. Причем, как и в картинках, распознаются котики…


И новые, базирующиеся на глубоком обучении технологии коллаборации Google Brain позволяют этот самый уровень ошибок заметно снизить, практически двукратно. Причем объединение нескольких моделей позволяет значительно повысить достоверность распознавания текста на выходе. И проверен новый алгоритм на наборе данных в миллиард слов.

И вот тут – самое интересное. Да, пока система распознавания делает примерно такие же ошибки, как семиклассник, переводящий The Golden Rule как «золотую линейку». Ну, что поделать – знает он о существовании золота и линеек, и может представить линейку, сделанную из золота. А вот о добром рабби Гиллеле и Золотом правиле этики ему только предстоит узнать… Но дети-то они – учатся. А машины, благодаря глубокому обучению, учатся очень быстро.

Сегодняшняя нейросеть-переводчик уступает опытному переводчику белковому. Но только белковый переводчик поучился в школе-институте, постажировался в конкретной языковой среде – и все… А ИскИн-то будет учиться непрерывно. Сначала с помощью команды «учителей». Потом – самостоятельно. Например, сканируя социальные сети, и овладевая живым жаргоном трейдеров Уолл-стрита, бормотаньем ученых и речью жизнерадостных альтернативно-одаренных детей третьего мира. И все, что выучит один ИскИн, станет доступным всей экосистеме ИскИнов этой фирмы (даже не надо будет составлять словари – можно просто копировать участки нейросети…) И это – неизбежно!

Поделиться
Поделиться
Tweet
Google
 
Читайте также
  • пМВ

    • Ктулху

      Как она происходила на сакмом деле мы, скорее всего, не узнаем никогда,

    • JProgramer

      Тут рядом статья о мозговом имплантанте, так что м.б. запрограммированными участками НС можно будет с мозгом обмениваться, если эти технологии разовьются.

      • пМВ

        Так будет там вокализация — или копирование нейросетей…

        • JProgramer

          Понятно, что копировать искусственные НС легче, у живых может быть проблема с тем, что отростки аксонов одних нейронов и дендриты других могут расти навстречу, но если удастся скопировать одну живую НС, то вероятно, залить в другую живую окажется возможным. А взаимодействие с живыми НС будет разрабатывать, т.к. субъектами экономических отношений пока что являются носители живых НС :)

          • пМВ

            У них же еще и топология у каждой своя будет…

          • JProgramer

            Да, верно, коннектом будет разный. Но всё же не принципиально разный, и зная оптимальный можно будет подкрутить имеющийся. Конечно, для этого надо будет хорошо знать принципы функционирования НС. Но если сейчас за них так бодро взялись, то почему бы и нет…

  • КОРОВА

    Боженьки мои, опять эти узконосые обезьяны.
    Разумными нас делает не возможность говорить, а способность к РА свой УМ направлять.
    То есть сознательно делать выбор.

    • rey

      как будто животины (что там — насекомые!) делать выбор не могут. Бугога.

      • kue

        У насекомых выбор на уровне орг.химии; у животных тоже орг.химия, но с учетом обстоятельств; у сознательного выбора для РА нет запаха

        • пМВ

          Так и у нас химия на самом нижнем уровне… (Электрохимия конечно, …)

          • kue

            Бернард Шоу на тему «Химия и Жизнь» написал свою интерпретацию — «Пигмалион» называется.

          • пМВ

            Про это у него, скорее, Farfetched Fables…

        • rey

          какой, блдж, химии? Вы это написали так, будто считаете, что сказав свое «при помощи зеркал и гипноза» вы что-то про Реальность поняли. Нет, не поняли, судя по всему. У насекомых — нейросетка. У вас, людишки, нейросетка. Давайте в терминах нейросетки говорить. Или вы про внешние стимулы, определяющие поведения? Про уровень вариативности? Так не путайте это с ВЫБОРОМ.

  • Саша Про

    Последний абзац перевёл Гуглом — похоже: «And all that one learns the AI​​, will be available throughout the ecosystem AIs this company (not even have to compile a dictionary — you can simply copy the neural network sites…) And it is — inevitably!»

  • Alexey Zharikov

    Вообще-то линейка — ruler, а не rule. Разница примерно такая же, как для иностранца между русскими словами карьер и карьера. То есть, отличить их можно по вполне формальным признаком, нужна только внимательность.

    • пМВ

      Указал же возраст ребенка…

  • IF

    гугл: «Голый проводник проходит под кареткой» — такой политкорректный перевод, оставляет детали читающему

    • Саша Про

      Golyy, хм. (Транскрипция, тоже посмотрел)

  • речью жизнерадостных альтернативно-одаренных детей третьего мира.
    Таки да ,доставило ).

  • temp96

    > Exploring the Limits of Language Modeling. «Расширение пределов языка моделирования»

    А разве не «Расширение пределов моделирования (в первую очередь — естественного) языка»? А «…Языка Моделирования» — это как раз если в оригинале было бы «…Modeling Language».
    Это опечатка или такая рекурсивая пасхалка? :-)
    Или я тут не прав?

    • пМВ

      А вот многообразно…
      Там несколько уровней смысла — статья серьезная, о долгой работе.

    • Eli Ben Salamin

      хм.. я бы сказал так: «исследование (изучение) пределов моделирования языка»

  • kue

    Тут же рядом на странице в заголовке видим следующее: «ТРАНСОФРМАЦИЯ БИЗНЕСА ВМЕСТЕ..». Голый кондуктор в задумчивости

    • пМВ

      Дык, Роден?

      • kue

        Не знаю как Роден, но даже Хиллари надысь залаяла..

        • пМВ

          От Сандерса залаешь…

          • IF

            из непонятого — как в англоязычной среде политик, «живущий под именем Сандерс», может хоть на что-то претендовать.

          • пМВ

            А за него разве англоязычные голосовать будут?

          • IF

            идиотизм не имеет языка. в 68 молодые долбоебы в сорбонах да беркли бузили, а в 21 веке — сандерса поддерживают…

          • Влад

            подросли

          • IF

            угу. и игрушки опасней стали

          • пМВ

            68 интересен — изрядно Запад перекорежил…

          • ich4.0

            Уж и не знаю, что там такого интересного. Т.н. «культурный марксизм» понесся во весь опор. Молодежь на излете «славного тридцатилетия» (1946-1975) слегка зажралась.
            А сейчас вот злонравия достойные плоды.

            Ежели кому интересно http://top.rln.fm/political-correctness-is-our-enemy/

          • пМВ

            Интересен, почему попустили…

          • ich4.0

            Долгая тема. Об уничтожении семьи еще Маркс в Манифесте писал… Леваки!
            Да и сам 1968 уже разобран и Боровиком в «Прологе» (а ведь недурна, что странно), и Патриком Рамбо, и Марком Курлански http://www.amazon.com/1968-Year-That-Rocked-World/dp/0345455827 (все есть в электронном виде). Тоже долгая тема…

            Елы-палы, ну ничего простого не осталось!

          • пМВ

            На Терсита находился Одиссей, на марианских популяров — Сулла Феликс, на коммунаров — митральезы генерала Галифе…
            А тут — все сгнило…

          • kue

            ..а ретранслятор вони, поэтому, аж во Франкфурте нужен, наверное чтобы воняло технологичнее?

          • пМВ

            Не поняли, о чем речь…

          • ich4.0

            Я бы не сказал, что «сгнило» — нечему гнить, скорее, ничего не нашлось и «не проросло». ИМХО, тут дело несколько в ином.
            Правые консерваторы par excellence погрязли в устаревших конструктах и догматах прошлой, индустиральной эпохи, добром подобное не заканчивается. Не первый год твержу в комментах: правый консерватизм зиждется на «скелете» христианства и античности, а вот «мясо» надо наращивать сообразно эпохе. Этого не произошло. Пожалуй, вот ответ на Ваш вопрос «почему попустили». Как будто кто-то спрашивал, попускать или нет… Приведенные Вами примеры относятся к одной эпохе,

            В давешнем RLN (не сочтите за навязывание) автор выдал буквально следующее (курсив и болд оригинальные)
            —цитата—
            И как бы нам не хотелось сказать: «Люди, очнитесь, это все левый бред» — мы так сделать не можем. Потому что под маской этого бреда, скрывается авангард европейской философской мысли. И как бы нам не нравился ход этой мысли, ничего другого пока предложено не было.
            К несчастью, теоретическая база, которой руководствуется бОльшая часть консерваторов на сегодняшний день безбожно устарела. Современные проблемы нельзя разрешить только лишь методами прошлого.

            Именно поэтому консерватизм должен быть современным. Когда консерватизм начнет предлагать не только опыт прошлого, но и живую альтернативу настоящему, тогда и только тогда можно будет рассчитывать на долгосрочное благоденствие. А то, какой будет эта альтернатива, зависит только от нас.
            —конец цитаты—
            Источник http://top.rln.fm/d-znachit-dekonstrukciya/

            Приведенные Вами примеры (Одиссей/Тересит и т.д.) — персонажи одной эпохи, потому и нашлись. Во времена совка Рейган и Баронесса были бесподобны, в 2016 числились бы фриками. Ведь 1991 изменил все, а альтернатив с новым «мясом» не нашлось. Эйфория, конец истории, гром победы раздавайся, а надо было генерировать новые правоконсервативные смыслы, прчем задолго до. Шоб я знал, какие именно… Современные европейские правые — печальное зрелище, общался давеча, эх. Вот йошки фишеры и процветают. Упс! Перспективы туманные.
            (задумчиво) Не пора ли евросовку того-с…

            P.S. С наступающим Вас, как и всех служивших и служилых.

          • пМВ

            И ЕвроСовку, и СССР 2.0 мистера президента Обамы… (Что ж на дуэль Трампа и Сандерса хочется посмотреть…)

            А с 1991 не конец истории, а отсутствие смыслов…

            С наступающим!

          • ich4.0

            (пожимая плечами) Очередное переформатирование мира. Эээ, что мы за последние 30-40 веков еще не видели? Новые Темные века, эка невидаль…

          • пМВ

            Вот у меня ощущение, что сильно смахивает на то, что века 33 назад было…

          • ich4.0

            ВотЪ! Микены и бронза. Не в первый раз замечаю, мысли носятся в воздухе.

            Вообще, неизучение Гомера играет с жителями Третьего Рима злую шутку. Хотя, и особенно большого толка в этом нет, о чем и написал давеча профессор ПСТГУ С.В.Волков http://salery.livejournal.com/116852.html «те, от кого что-то зависит, практически никогда ее не знают (и знать не могут: это другое занятие)».

            Смотрим дальше…

          • пМВ

            Именно Минойско-Микенский обвал…
            Героический век — впереди!

          • kue

            Не, это у нее старая псих.травма и мы даже помним из-за чего — тут..

  • Vladimir Medvedev

    > даже не надо будет составлять словари – можно просто копировать участки нейросети…

    хм… не уверен, что это будет так-то просто сделать
    нейросеть представляет из себя единую структуру, в обученном состоянии все коэффициенты жёстко завязаны друг на друга

    • пМВ

      Нелегко — задача декомпозиции нетривиальна. Возможно просто тотально копировать придется…

  • IF

    ну, ладно — путаться перестанет в словах, а свобода слова на него будет распространена? он же наговорит.,. статей на пачку

    • пМВ

      Дык, Антону Носику тут 282-ю шьют — http://www.rbc.ru/politics/16/02/2016/56c2e09e9a7947e058d540d0

      • IF

        а с ИИ же будет как в «о бедном гусаре» — «но этот не повторяет, он выводы делает!»

        • пМВ

          Ага!

      • kue

        «Где же мы его проморгали?» — Мучительно думали родители Мойши, слушая как он виртуозно играет на балалайке…

  • Злой

    А зачем городить что-то с ИИ, если можно в словаре просто пометить варианты перевода «предметной областью»? Предметная область определяется не по содержимому текста, а по назначению перевода. А его проще всего задать ключом в настройках. ИИ и не обязан знать, что текст руководства НАДО перевести именно так.

    • пМВ

      Похоже умеет…

      • Злой

        Да не может он уметь, потому что назначение перевода — внешний параметр. Он не содержится в тексте. По сочетанию фраз и частотности использования можно определить только назначение перевода технических текстов, и причём достаточно больших. Назначение коротких фраз типа «голого кондуктора» никакой ИИ определить не сможет.

        • пМВ

          Длина выборки…

  • Mikk

    >И все, что выучит один ИскИн, станет доступным всей экосистеме ИскИнов этой фирмы

    Угу, а потом один искин научится ругаться матом, почитав перевод Гоблина. И передаст это умение всем остальным.
    Отучай его потом…. :-)))

    • vag

      >Отучай его потом…

      «Ну что Вы, Лидочка, мы же филологи». (с) А.Ахматова ;)

  • Александр400

    Видимо, нужен не только перевод, а последующий анализ и не только лингвистический, а широкий с распознаванием тематики. При чем искать по возможности устойчивые выражения — фразеологизмы. При сомнении находить наиболее вероятные сочетания и распространенные. Только после этого выдавать перевод. Еще: разность языков — это еще разность жизненного уклада и привычек и выражений. Что тоже должно учитываться.

  • Vadim Ivanov

    Подпись к картинке неверна: CNN и LSTM это две разные вещи в NN. На данной картинке имелось ввиду, что используются несколько LSTM блоков и несколько многослойных CNN, а всё это работает на основе отдельных символов, поэтому называется Char CNN (раньше практически всегда использовались либо слова либо леммы либо «термы»)

    • пМВ

      Наверное, но как это в «одно слово» уложить… Мне свертка статьи по ссылке вообще маловероятной представилась.

  • ZarrrazA

    На ум приходит «Мошка в зенице Господней» Нивена и Пурнела. Ну и очередной камушек — об ИскИнам можно будет говорить, только после вразумительных переводов поэтических текстов. Иначе — это не ИскИн, а всего лишь очень сложный алгоритм.

  • vojtoff-alexandr2016

    ВЗЛОМ ПОЧТЫ И СОЦ. СЕТЕЙ БЕЗ ПРЕДОПЛАТЫ

    Контактный адрес-vojtoff.alexandr@yandex.ru

    mail.ru

    list.ru

    inbox.ru

    bk.ru

    rambler.ru

    yandex.ru

    gmail.com

    odnoklassniki.ru

    vkontakte.ru

    и т.д.

    Распечатка СМС и звонков:

    Билайн

    Мегафон

    МТС

    и т.д.

    — Instagram

    — Viber

    — Whatsapp

    — Удаленно взломаем любой компьютер и получим доступ к любым данным и информации на компьютере, взлом любого ПО;

    — удаление информации в сети — услуги по удалению видео, статей, любой информации;

    — Цена услуги зависит от затраченного времени и усилий.

    Работаем 24 часа в стуки.

    Контактный адрес-vojtoff.alexandr@yandex.ru

Хостинг "ИТ-ГРАД"
© ООО "Компьютерра-Онлайн", 1997-2018
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.
--> --> --> --> --> --> --> --> --> -->