Зачем программа пишет новости, или Железный конь

Компьютер не умеет рассказывать истории сам. Но это пока. Подвижки в этом направлении имеются неплохие. Например, недавно мы писали про генератор историй — приложение, которое сочиняет сказки на основе формул Владимира Проппа. Он, правда, не умеет рассказывать сказки сам — лишь генерирует сценарии, на основе которых человек может рассказать историю. Вот бы скомбинировать формулы Проппа с разработками Narrative Science… Что это?

Narrative Science — это стартап, который занимается как раз тем, чего не хватает генератору историй. Их технология генерирует осмысленные тексты на основе информации, имеющейся в Сети. Конечно, можно сказать, что таких программ полно, но эта технология основывается не просто на вырывании разных абзацев из разных источников и тупом комбинировании их в один текст. Это ПО действительно само пишет тексты — пока только новостей, так как это проще всего. Грамотно написанная новость для сайта — это просто правильно подобранный и выстроенный в правильном порядке набор вспомогательных фактов к самой новости.

Итак, как же это всё работает? В статье New York Times говорится об этом достаточно туманно, но понять принцип возможно. ПО обладает богатым набором шаблонов на все случаи жизни (по крайней мере, в той сфере, в которой он пишет свои новостные заметки. В данном конкретном примере говорится о новостях футбольного чемпионата). Система выделяет определённые фразы и термины, которые могут характеризовать конкретный матч (не забываем, речь идёт о футболе), и, выделив основную мысль новости, строит вокруг неё нарратив. Она применяет стандартные приёмы: ищет, сколько матчей было, сколько команда проиграла или выиграла и т.д.

На основе этого применяются соответствующие шаблоны. Например, основной смысл статьи заключается в том, что команда выиграла матч. ПО ищет, сколько раз команда проиграла или выиграла в этом сезоне, и пишет соответственно: «Это уже их третья победа в сезоне». Или, если же команда проигрывает и это их первая победа, тогда следующее предложение будет выглядеть как «после череды поражений команда выиграла свой первый матч в сезоне». Думается, каким образом алгоритм обрабатывает другие факты, понятно.

Технологию уже используют для автоматического создания новостей примерно в 20 изданиях. Что касается футбола, то для репортажей по результатам матчей программу используют в Big Ten Network, дочерней компании Fox. Как следует из статьи NYT, редактору показывается список основных, по мнению приложения, тем новости, и человеку лишь нужно выбрать правильную. В Big Ten Network радуются: трафик в футбольном разделе возрос на 40 процентов.

Один из основателей компании, Крис Хаммонд, говорит, что через пять лет их разработка наверняка получит Пулицеровскую премию. Стоит ли обычным новостникам бояться? Вряд ли. Прежде всего, это инструмент SEO-оптимизатора, очередная победа в борьбе одних машин с другими — в поисковиках появляются новые алгоритмы, которые борются с продуктами оптимизаторов, оптимизаторы навёрстывают. Выглядит со стороны это всё забавно, но мир определённо лучше не делает.

Что создаёт программа Narrative Science? Стену текста. По поводу того, как пишутся новости, правильно говорит американский журналист и веб-разработчик Эдриан Головатый:

«Огромное количество местных журналистов ежедневно собирают структурированную информацию, информацию, которая может быть нарезана и разделена автоматически. Тем не менее они сливают её в огромный единый «пузырь» текста — газетную статью, в которой в общей мешанине погребены факты.

Например, газета написала историю про местный пожар. То, что её можно прочитать в смартфоне, конечно, круто. Ура технологии! Но мне лично хочется, прежде всего, видеть грубые факты, которые заключены в ней, по порядку, чтобы можно было просмотреть «детали» пожара: дату, время, место, жертв, номер пожарного участка, расстояние от него, имена пожарных, сколько у них времени ушло на то, чтобы доехать на место, и сколько было ещё пожаров в регионе. И чтобы там появлялась информация о последующих пожарах».

Головатого отлично можно понять. Он имеет в виду, что, несмотря на появление интернета, информацию продолжают подавать в стиле, выработанном в XVII веке: строить из фактов непробиваемую стену текста, хотя их давно можно подавать другим, намного более информативным способом.

Впрочем, его подход тоже рисует достаточно мрачную картину для нынешних новостников: обрабатывать информацию таким образом можно с ещё меньшим вмешательством человека, сочиняющего нарратив.

Наверно, то, что сейчас делают в Narrative Science, можно охарактеризовать с помощью такого примера: автомобиль изобретён, его производят в небольших количествах, но все всё равно упрямо ездят на лошадях. Внезапно появляется компания, которая предлагает огромную железную лошадь, и всех пользователей живых лошадей она немедленно начинает интересовать. При этом автомобили до сих пор никто так покупать и не хочет.

Может, Narrative Science всё-таки лучше попытаться скооперироваться с разработчиком генераторов сказок? Скажем, этот алгоритм наверняка сможет создать неплохую футбольную сказку по итогам матча, нужно только формулу задать. Надеюсь, в конце все умрут.