Слушают ли нас наши смартфоны и что можно узнать по звуку нашего голоса?

Жизнь без смартфона кажется сегодня чем-то если не из ряда вон выходящим, то не обычным. Большинство людей расстаются с телефоном только во время сна. О проблемах конфиденциальности, связанных со смартфонами, например, их способности отслеживать передвижения или тайно фотографировать, известно уже давно. Однако в последнее время люди начинают беспокоиться, что их смартфон слушает то, что они говорят.

Доказательств этому немного, однако вероятность, что это окажется правдой, существует. Над созданием мощных алгоритмов аудиоанализа на основе искусственного интеллекта, способных извлечь большое количество информации из звука, работают ученые многих стран. Несмотря на то, что эта технология только начинает развиваться, ее возможности в комбинации с круглосуточным присутствием могут серьезно повлиять на неприкосновенность нашей жизни.

Вместо того чтобы анализировать каждое услышанное слово, большая часть разрабатываемых алгоритмов прослушивания на основе ИИ получают ошеломительное количество персональной информации по одному звучанию нашей речи. Искусственный интеллект может определить практически все – от того, кто вы такой и откуда, до вашего настоящего местоположения, пола, возраста и языка, на котором вы говорите – и все это по тому, как звучит во время разговора ваш голос.

Дальше – больше: существуют ИИ-системы, способные понять, когда мы лжем, проанализировать состояние нашего здоровья и уровень физической подготовки, установить эмоциональное состояние и определить, находимся ли мы в состоянии опьянения. Есть системы, устанавливающие, что мы едим, когда говорим с набитым ртом, и даже те, что по звучанию голоса могут поставить медицинский диагноз.

ИИ-системы могут точно интерпретировать события по звуку или фоновому шуму, например, они способны установить столкновение автомобилей или выстрелы. Они определяют настроение человека во время беседы, его отношение к собеседнику и вероятность конфликта. И это только часть сценариев использования технологии искусственного интеллекта, разрабатываемой в научных лабораториях по всему миру.

Все эти технологии – не важно, что именно они пытаются о нас узнать – используют методы машинного обучения и подразумевают обучение алгоритма с большим количеством размеченных данных. Обрабатывая тысячи или миллионы записей, алгоритм постепенно начинает делать заключения, какие характеристики данных – это могут быть самые незначительные изменения голоса — связаны с теми или иными метками.

К примеру, система, используемая для определения пола, записывает нашу речь со смартфона и обрабатывает ее для извлечения «признаков» — небольшого набора определенных значений, представляющего собой компактную запись речи большого объема. Обычно признаки представляют собой информацию об амплитуде и частоте в каждом 20-миллисекундном периоде речи. То, как они изменяются со временем, слегка отличается для мужчин и для женщин.

Системы машинного обучения будут не только рассматривать найденные признаки, но также учитывать, как часто и каким образом эти признаки меняются с течением времени. Запись речи осуществляется в самом смартфоне, но затем она передается на интернет-сервер, который извлекает признаки и определяет их статистику.

Изначально искусственный интеллект создавался для выполнения заданий, требующих участия человеческого разума. Большинство существующих ИИ-систем анализируют и понимают задания, то есть действуют не автоматически, а предоставляют людям необходимую им информацию.

Например, аудиосистемы для мониторинга дорог могут предупредить дорожных контролеров, услышав звук столкновения машин. Система аудиомедицинского диагноза сообщит врачу о выявленных у пациента проблемах. Человек же, основываясь на информации, предоставленной ему ИИ, принимает окончательное решение.

Однако технологии искусственного интеллекта меняются. Многие системы начинают превосходить возможности человека, а отдельные устройства уже могут функционировать без вмешательства людей. Примерами искусственного интеллекта, обладающего человеческими способностями, являются продукты Amazon Echo и Google Home. Такие виды ИИ могут реагировать на команды и действовать в соответствии с ними — например, они могут по нашей просьба выключить свет или задернуть шторы.

Хотя большая часть существующих ИИ-устройств разработана, чтобы помогать людям, в руках злоумышленников эти технологии могут стать своего рода «Полицией мыслей», описанной Джорджем Оруэллом (George Orwell) в романе «1984». Аудио- (и видео-) контроль уже может определять наши действия, однако системы искусственного интеллекта, описанные выше, смогут определять, что стоит за этими действиями – то о чем мы думаем, даже если не говорим об этом вслух.

Большинство производителей утверждают, что их устройства не записывают нас без нашего распоряжения. Тем не менее, есть примеры, когда такие записи совершались по ошибке. Ученые доказали, что телефон можно запросто превратить в постоянно работающий микрофон. Когда именно рекламодатели и мошенники начнут использовать эту возможность, чтобы понимать наши мысли и воздействовать на наши слабые места — всего лишь вопрос времени.

Может быть, в следующий раз, устанавливая очередное приложение на свой смартфон и предоставляя доступ к аудио и видео, следует вспомнить, на что мы в перспективе даем согласие.

Сборщики информации могут научиться понимать нас не хуже (а может быть и лучше) самого близкого друга, ведь телефон находится с нами везде, предоставляя доступ ко всем издаваемым звукам. И если мы не всегда доверяем даже своим друзьям, то что говорить о неизвестных сборщиках информации?

Источник