Обработка естественного языка, трудности понимания и социальные сети

«Для улучшения сервиса этот разговор может быть записан». Слышали такую фразу, когда звонили в колл-центр? Иногда такие записи и правда используются в учебных целях. Но порой их использую совсем для другого.

Они могут применяться для улучшения алгоритмов автоматического распознавания естественного языка. Данные, полученные при обработке записей, помогают создать статистические модели того, как и что люди говорят. В результате можно будет повысить число автоматизированных услуг — а проще говоря, заменить оператора на том конце провода роботом без потери качества обслуживания. Подозреваю, что от такой замены могли бы выиграть не только сами компании, но и некоторые клиенты…

Обработка естественного языка, или NLP (Natural Language Processing), позволяет машинам читать, слушать и понимать. Сложность задачи состоит в том, что, как правило, компьютеры «заставляют» людей говорить с ними на специализированном языке. Он должен быть однозначен и хорошо структурирован, а все правила языка — неукоснительно выполняться. Лингвистическая структура естественного языка во много раз сложнее, и в ней постоянно присутствует целый комплекс меняющихся параметров. Контекст разговора определяет значение той или иной фразы, что означает невозможность однозначно трактовать часть словесной конструкции. Региональные диалекты, сленг и нестандартные обороты дополнительно затрудняют распознавание. Все, что может помочь в данном случае, — это «большие данные». Для решения задач NLP их нужно очень много, а потом машинам остаётся учиться, учиться и ещё раз учиться…

И тем не менее, несмотря на все препятствия, NLP легла в основу современного программного обеспечения, которое распознает и интерпретирует человеческий язык. Для этого используется огромное количество данных из интернета, и в частности социальных медиа. Одним из самых известных примеров, вероятно, является компьютер Watson, который так наловчился общаться с людьми, что даже выиграл телешоу Jeopardy, оставив позади двух представителей человеческой расы. А уж о том, как Watson отучали материться, с удовольствием читал весь мир… В настоящее время IBM позволяет использовать интеллект Watson для стимулирования инноваций и новых приложений.

Компьютеры уже отлично справляются с синтаксисом, что позволяет им уникально идентифицировать речь, а также с семантическим анализом, дабы извлечь смысл из прочитанного. Самой сложной частью остается понимание подтекста. Человеческий мозг запросто, на интуитивном уровне справляется с распознаванием неявного смысла. Компьютерный «мозг» только начинает приближаться к азам такого «восприятия». Несмотря на трудности в освоении, за последние десятилетия интерес к NLP возрос и спровоцировал немалое развитие. Сейчас мы запросто разговариваем с Siri на телефоне, с браузером, когда ищем материалы в Google, или с собственным автомобилем, чтобы сменить радиоволну или кому-нибудь позвонить. Кстати, совсем недавно Ford обновил «автословарь»: теперь машина понимает 10 тысяч слов вместо изначальных 100.

Но всё вышеперечисленное — это приятные мелочи, гаджеты, развлечение. Самую ощутимую пользу NLP начинает приносить совсем в других областях. Там, где данных не занимать, — в социальных сетях.

Совсем недавно Facebook объявила о запуске Trending — новой функции, позволяющей пользователям увидеть темы, не только находящиеся на пике популярности, но и интересные им лично. Специально стоит оговорить, что новинка не связана с хештегами: Facebook действительно проделала большую работу по обработке естественного языка и научилась «понимать» своих пользователей. Она парсит строки и делает заключение о том, что имелось в виду, — определяет людей, вещи, места и события. Всё это связывается в единую сеть, или, точнее говоря, граф, где отдельные объекты выступают узлами. Социальная сеть сама знает, что сейчас находится в тренде и как это соотносится с интересами данного конкретного пользователя. Любое «событие» в сети — запись отдельного человека или массовая тенденция — становится увлекательной головоломкой. Обработка всех доступных текстов позволяет понять, что в действительности привлекает пользователя уйти от простых алгоритмов — например, грубой персонализации ленты на основе «лайков» друзей или местоположения человека.

И, да, не надо думать, что все это милое развлечение для нас любимых. И даже не надо параноидально опасаться того, что «Большой Брат» знает о нас всё. Всё, что хочет «Фейсбук», как и многие другие компании, живущие за счёт рекламы, — это знать, кем мы хотим быть, кем хотим видеть сами себя. Не слишком важно, что происходит на самом деле. Почему? Потому что большинство покупок определяются именно этим. Просто представьте, как глупо было бы показывать моднице, мечтающей об истинно английском стиле, рекламу отечественных магазинов (но доступных в её регионе). Или даже рекламу дешёвых испанских брендов из соседнего большого города. Нет, её надо поманить если не плащиком Burberry, то хотя бы сумочкой Clarks, а уж она найдет, как их выписать из-за бугра. Даже если среди доступных средств доставки останется лишь «Почта России». Главное — правильно понять устремления человека и подсказать возможности…

Возможности он найдет сам. А понимание людской натуры у социальной сети уже есть. Не зря же она читает всё, что в неё пишут.

Что будем искать? Например,ChatGPT

Мы в социальных сетях