Говорить как человек, говорить лучше человека!

Технологии
автор: Евгений Золотов  15 сентября 2016

Вы не задумывались, для чего Google искусственный интеллект? Для чего все эти победы в го, эксперименты с синтетической музыкой и прозой? Уж конечно не ради имиджа. История беспощадна к бескорыстным изобретателям, печальной памяти Xerox PARC — тому пример. И Google, то есть, простите Alphabet, на эти грабли наступать точно не собирается. У каждого её проекта обязательно есть приземлённая, прагматическая цель. Например, нынче летом она сообщила, что, натравив свою, тренированную на аркадах нейросеть, на управление дата-центрами, сэкономила миллионы долларов на электричестве — и в общем «отбила» покупку ИИ-стартапа DeepMind, за который пару лет назад отдала $600 млн. Такая вот она, высокая наука крупного бизнеса.

К счастью, даже прикрыв главный испытательный полигон, Google Labs, гугловцы не стали принуждать своих учёных выпускать, образно выражаясь, сковородки. И время от времени нам, заинтересованным наблюдателям, перепадают приятные находки, коммерческая ценность которых не очевидна. Весной это была победа над человеком в го (спасибо DeepMind). А на днях всё та же команда сообщила, что научила машину говорить человеческим голосом почти так же хорошо, как сам человек.

150916-1

Тут, впрочем, стоит сразу послушать. Потому что на мой личный вкус, новый синтезатор говорит не просто на голову лучше всех механических предыдущих, а так же хорошо, как человек: речь его не просто информативна — она приятна для уха! И это многое обещает в перспективе.

Как этого добились? Решив задачу нестандартно. До сих пор голос синтезировался двумя способами. Один: «наговорить на ленту» множество фраз, а потом заставить машину порезать их на слова и фонемы и научить плавно сливать. Так, в частности, «говорят» Siri и Android. Другой способ — параметрический: нужно написать программу (вокодер), синтезирующую фонемы, и заставить её «проговаривать» текст. Оба способа сравнительно легко программируются и требуют сравнительно небольших вычислительных ресурсов, почему и используются широко. К сожалению, качество такого синтеза оставляет желать лучшего: голос при всём желании не спутаешь с человеческим, ибо звучит он отрывисто, без выраженной интонации, всегда одинаково, ну и вообще неестественно.

А гугловцы, повторюсь, пошли другим путём. Они заставили нейросеть синтезировать голос буквально по «пикселям», звуковым квантам, с частотой 16 кГц. То есть никаких фонем, а тем более слов, тут нет: машина буквально рисует сырую звуковую волну, как могла бы рисовать синусоиду, например. А чтобы она знала, что нужно рисовать, её предварительно натренировали на фонотеке, содержавшей записи сотни человек, говоривших несколько суток.

В результате WaveNet — так назвали синтезатор или модель, «придуманную» мозгом DeepMind для синтеза голоса — способна не просто говорить, а копировать интонации и особенности речи любого из своих тренеров — такие, в частности, как причмокивание губами или перевод дыхания. Её можно заставить проговаривать текст с разным выражением, голосом мужским или женским, на разных языках, и даже изобрести собственный уникальный голос.

150916-2

Качество имитации настолько высоко, что средняя оценка, выставленная за натуральность группой слушателей, лишь немного, в десятых долях, уступает оценке голоса живого человека (по 5-балльной шкале, при том, что даже человек 5 баллов не набирает). И последствия рисуются весьма нетривиальные и далеко идущие.

Коммерциализация такой машины — дело, конечно, не одного дня. Пока ещё, чтобы зачитать текст с листа, WaveNet требует всей вычислительной мощи гугловского ИИ. Иначе говоря, на телефоне её не запустишь. Со временем, впрочем, модель наверняка упростят, подогнав под запросы широкого рынка. Но интересней не гадать, когда это случится, а попробовать очертить перспективу, отталкиваясь от самого того факта, что машина научилась говорить неотличимо от человека. Чем и кому это угрожает, чем и кому способно помочь? Кроме тех очевидных миллионов несчастных, которые, в результате травм или болезней, лишены собственного голоса и пока вынуждены говорить голосами синтетическими и одинаковыми — и пожилой дядька Стивен Хокинг, и маленькая девочка.

Так вот на прицеле прежде всего актёры. Спрос на «правильные» голоса в масс-медиа велик. Голос подчёркивает особенности персонажа или продукта. Но теперь, вместо того, чтобы искать наиболее приближенный к желанному идеалу вариант среди людей, режиссёры смогут просто запросить голосовую модель, точно удовлетворяющую нескольким критериям, у Google. И WaveNet прочитает текст с нужной интонацией, ритмом, громкостью, правильно с первого раза и максимально приятно для слушателя.

150916-4

Отсюда прямо следует вариант появления неестественных голосов, которые будут звучать приятнее натуральных. Красота — парадоксальная штука: мы часто считаем красивым то, чего природа создать не смогла. Так почему и голосу не быть таким же? А значит и реклама, и продающие телефонные звонки, и даже, вероятно, деловые переговоры (через Сеть или с переводчиком), будут озвучиваться не человеком, а машиной. Уверен, кто-нибудь из фантастов эту тему уже прорабатывал. Подскажете?

Далее, новую модель, конечно, возьмут на вооружение мошенники всех сортов — от чистых уголовников до заседающих в штабах политических кандидатов. Представьте себе, как резко способна поменять расстановку сил в предвыборной гонке «случайно утекшая запись» телефонного разговора двух политиков, обсуждающих что-нибудь противозаконное. Для обывателя синтезированные голоса сквозь наложенные помехи будут звучать неотличимо от оригиналов. Но даже и эксперты — смогут ли определить, что запись сфабрикована, что голоса ненастоящие? Найдутся ли в речи, синтезированной «попиксельно», хоть какие-нибудь зацепки, свидетельствующие о подделке? Если интересно, можете попробовать свои силы прямо сейчас — Google опубликовала достаточное количество синтетических фонограмм.

Наконец, что интересно и неожиданно, WaveNet можно заставить работать «задом наперёд» и не только для голоса. Она, например, способна учиться, а потом генерировать весьма интересные (по крайней мере на взгляд непрофессионала: было бы интересно услышать мнение людей с соответствующим образованием) музыкальные пассажи. А «развернув» её, как утверждают авторы, получим беспрецедентно качественную систему распознавания речи. То и другое пока лишь забавные «побочные эффекты». Но какова же мощь основной технологии, если даже её незапланированные свойства таят угрозу для людей творческих профессий!

P.S. В статье использованы графические работы DeepMind, Ashley Rose.

Поделиться
Поделиться
Tweet
Google
 
Читайте также
…и чушь прекрасную нести! Как ИИ кино снимал
…и чушь прекрасную нести! Как ИИ кино снимал
Религия сквозь призму суперинтеллекта
Религия сквозь призму суперинтеллекта
Распознать «синтетику»: тест, который мы провалили
Распознать «синтетику»: тест, который мы провалили
  • Илья Шпаньков

    На данный момент по музыке там полный абзац. Т.е. даже несмотря на имитацию рояля, собственно набор звуков выглядит просто бессмысленно. Ну, т.е. вот как в речи: мы произносим слова и фразы, доносим ими какую-то мысль. Можно, конечно, сгенерировать просто шум, похожий на речь, но если в нём не будет смысла, передачи информации, то речью это никто и не назовёт. То же самое и здесь: шум напоминает игру на рояле, но, т.к. нет ни музыкальной фразы, ни мелодии, ни авторского замысла и интонационной логики — это слушается, как просто шум.

    • Sentinel

      Ну вот, экспертная оценка :-)
      Хотя я так понял, они просто позволили нейросети «бредить» музыкой, то есть никак направление не задавали — отсюда и бессмысленность.

      • Илья Шпаньков

        Возможно и так. Я понял из их текста, что они просто скормили массу фортепианной музыки своей системе и запустили генерацию чего-то подобного по частотным и гармоническим характеристикам, тоновым модуляциям и ритму. Т.е. — именно имитация шума, а не создание музыки. Т.е. это может быть интересным, как «мозги» синтезатора, позволяющего создавать максимально приближенные к реальности тембры взамен сэмплов, или как гармоническое заполнение в композициях. В общем, всё, что придумывается — куда-нибудь да сгодится :-)

    • Slider

      Вполне вероятно можно научить играть по нотам, воспроизводя технику игры тех или иных великих исполнителей…

  • Драйден

    «… и чушь прекрасную нести!»

  • Doctor Y. Doodle
  • riy

    Вы только представьте себе: Вам звонит лично путЕн. Из кремля. И срывающимся голосом, чуть не плача, говорит: дружище, я стольким тебе обязан! Ты — моя последняя опора, я знаю что всегда могу рассчитывать на тебя! Я ща пацанов пришлю, черкани мне бланк предвыборный!
    Есть желающие продолжить сценарий?

    • IF

      … а у вас стоит умный автоответчик и голосом мерлин монро отвечает — «приезжай сам!»

      • Абдулла Израилевич фон Шталь

        Так приедет же! Непременно приедет! Дрон-андроид в нужном обличьи.

        • IF

          встретит его другой андроид в нужном обличии и будут они жить счастливо и проапгрейдятся в один день

          • Абдулла Израилевич фон Шталь

            Хорошо бы… Но это только если бабосов хватит на собственного контр-андроида (и/или -гиноида) в нужном обличии :) А там пусть себе апгрейдятся до заржавения.

    • Абдулла Израилевич фон Шталь

      Был уже сценарий! Советский ещё фильм «Имитатор». Там Игорь Скляр голосом Горбачёва вызвал в дурдом спецназ для своего освобождения. Ещё и полномочиями себя наделил от имени Президента:

      — А с этими что делать?
      — Расстрелять (под мою ответственность).

      :)

      • riy

        Н-да. Слова «дурдом» и «спецназ» ключевые для жизни в России. Без них ни один фильм не обходится ;-}

  • Denis Kri

    Хм, а ведь теперь можно будет заменить операторов call центра…

    • Sentinel

      Продажников точно можно заменить будет. Я какое-то время назад читал, что в Штатах уже большинство телепродавцов — роботы. Их задача раскрутить клиента, и если тот клюнул — передают уже живому человеку.

      • mrMidasAndDisqus

        Не только продажников. Конфликтогенные отделы по работе с клиентом тоже активно переводят на «роботов», т.к. те не имеют эмоциональной предрасположенности, чем пресекают возможные непонятки…

    • Cвета Бабенко

      Что-то как то мелко. Если объединить эту статью и статью Михаила Ваннаха «ИскИн в качестве репетитора или Долой «машину Коменского» можно заменить учителей и преподавателей. Сумма расходов на образование на 2016 год 578,6 млрд руб.

      • Mikk

        Гым, Светлана, вы слегка не правы. Заменить можно *лекторов*, которые с трибуны произносят текст.
        Заменить можно «планировщик занятий», который по результатам тестов предлагает прослушать те или иные лекции.
        Невозможно заменить человека, понимающего, почему у одного студента две пятерки а потом три тройки подряд, а у другого никогда не больше четверки, хотя явно мог бы и пятерки получать…

        • Cвета Бабенко

          Ваши слова да в уши поклонникам педагогических технологий. Которые встречаются и на просторах «Компьютеры» и преобладают в кабинетах управления образования. Понятно что сегодня я СИЛЬНО не права. Но основная мысль Михаила Ваннаха которую он проводит во многих статьях — нейронные самообучающиеся сети очень быстро совершенствуются и после достижения определенного порога начнут быстро дешеветь. И вот тогда …
          А вот тогда очередной переход. Да любое сравнение хромает, а сравнение исторических эпох хромает на все четыре ноги. Но пока все переходы ( от бронзы к железу или от рабства к крепостничеству )совершались крайне беспощадно к тому что в русской традиции называется народом.

          • Дмитрий

            А для чего в будущем вообще учить людей чему то, если роботы освоят практически все профессии. Люди будут делать что хотят, и явно не захотят учиться

  • mrMidasAndDisqus

    И WaveNet прочитает текст с нужной интонацией

    Осталось только решить откуда машина возьмет интонации. На сегодня это только разметка текста, а значит актер перестанет страховать голос, но не потеряет работы. По крайней мере до тех пор, пока машина не научится понимать не только прямой смысл текста, но и не очевидные коннотации…

  • TG387R

    Что касается политических провокаций то это чушь. Сейчас полно пародистов которые достаточно качественно могут записать любуб повакационную хрень. Мы не видим никакой войны компроматов просто потому что никто этим похоже не занимается.

Хостинг "ИТ-ГРАД"
© ООО "Компьютерра-Онлайн", 1997-2017
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.
«Партнер Рамблера» Почта защищена сервером "СПАМОРЕЗ" Хостинг "Fornex"