В поисках нужной информации в Сети мы иногда даже не задумываемся о том, что львиная доля контента на многих сайтах и в блогах генерируется автоматически. Алгоритм прост: чаще всего программа выдёргивает информацию на одну тему из разных источников, после чего пропускает её через синонимайзер, таким образом заменяя оригинальный текст на «свой». Конечно же, делается это в целях оптимизации посещаемости того или иного ресурса, а такие сайты называются «сплогами», или, если расшифровать это обозначение, «спам-блогами».
Пример работы синонимайзера. Каждый абзац — один и тот же текст, переписанный автоматическиСейчас речь пойдёт не о них, но начали мы с них потому, что, в сущности, именно сплоги являются простейшим примером искусственного нарратива — то есть автоматически генерируемого повествования. То, что получается в итоге, конечно, достаточно смешно, да и цели, которые преследуют оптимизаторы, не особо благие — «серое» продвижение сайта, так что не будем долго на этом задерживаться.
Однако более продвинутые разработки, родственные генераторам контента в сплогах, способны на много большее — например, эффективно заменять труд журналистов-новостников.
Narrative Science
Технология, разработанная стартапом Narrative Science, действительно позволяет осуществить мечту любого главного редактора: сделать так, чтобы новости были написаны вовремя, качественно и практически бесплатно. Она позволяет генерировать осмысленные тексты на основе информации, имеющейся в интернете. В отличие от автогенераторов, которыми пользуются владельцы сплогов, это ПО не просто выдирает по абзацу оттуда-отсюда и прогоняет их через синонимайзер, а проделывает работу, схожую с той, которую осуществляет реальный новостник. Оно правильно подбирает вспомогательные факты к новости и выстраивает повествование в правильном порядке.
Принцип работы программы достаточно несложен. Для неё есть множество шаблонов на все случаи жизни. В статье New York Times приводится пример, где она пытается сделать обзор футбольного матча. ПО выделяет определённые фразы и термины, которые могут характеризовать данный матч. После этого, определив для себя основную тему новости (скажем, «такая-то команда выиграла у другой»), программа начинает «обвешивать» её дополнительными фактами, ищет, сколько матчей было в чемпионате, сколько было выиграно или проиграно, и т.д.
Если алгоритм получает сведения о том, что команда уже побеждала в этом сезоне, то строчка, описывающая это событие, будет гласить: «Это уже третья их победа в этом сезоне». Если же до этого были одни проигрыши, то в тексте статьи могут появиться строки: «после череды поражений команда выиграла свой первый матч в сезоне». В общем, каким образом программа обрабатывает факты, должно быть понятно.
Не стоит думать, что всё это — лишь передовая разработка с сомнительным будущим. Уже в 2011 году её использовали в Fox News для создания автоматических отчётов о спортивных событиях.
Всё это замечательно, но не закрадывается ли мысль, что такой подход к подаче информации в XXI веке несколько неправилен? Структурировать информацию и подавая её в виде «стены текста», как живые новостники, так и программные, оказывают читателям медвежью услугу. Ведь в этой простыне текста приходится разбираться именно им. Не логичнее ли подавать новости как интерактивную инфографику, как уточнение к уже имеющимся фактам?
Впрочем, не всегда такое представление данных является оптимальным. Иногда легче прочитать пособие, написанное человеческим языком, чем, скажем, разбираться в развесистых таблицах с кучей цифр.
Автоматические книги Фила Паркера
Книги Фила Паркера отлично продаются в магазине Amazon. При этом он не написал практически ни одной из них. Эти книги не художественные — все они посвящены статистике. Паркер, опытный экономист, использует специальные алгоритмы, которые берут статистические данные и превращают их в простое и понятное человеку повествование.
Фил ПаркерПо его словам, ничего сложного в разработке таких алгоритмов нет. В 1990 году он работал над отчётами, в которых было нужно многое проанализировать. Тогда Паркер осознал, что работа экономиста вполне подчиняется определённым формулам.
Он считает, что ему и его специалистам удалось создать систему, которая имитирует работу человеческого разума. Впрочем, увы, этот алгоритм годится только для таких литературных жанров, как статистика. Как говорит сам Паркер, иногда издатели сами выдают писателям инструкцию, как писать такие книги. Так почему бы просто не научить программу исполнять эти инструкции?
Алгоритмы, разработанные за 2-3 года, позволяют генерировать неплохую книгу примерно за 30 минут. Дальше книга, разумеется, проходит редактуру — и готово. Подумайте над этой цифрой: Паркер издал 1 000 050 книг по статистике, используя лишь алгоритм.
Кстати, возвращаясь к предыдущей теме, посвящённой написанию новостей, Паркер замечает, что и блогеров можно спокойно заменить машинами. «Блогеры читают, скажем, три разных статьи, страничку в «Википедии»… Их спокойно можно заменить компьютерными алгоритмами, ведь они делают задачи, которые можно описать формулами», — говорит он. Однако тут же он обращается к интервьюеру и говорит, что вот его работу нельзя заменить алгоритмом, ведь работу настоящего журналиста нельзя заменить формулами.
Бесконечное приключение имени Владимира Проппа
В 2011 году в Microsoft Research начали разрабатывать приложение под названием Infinite Adventure Machine. Наверно, если бы создатели Narrative Science объединили силы с Microsoft Research, то у нас бы уже было именно то, о чём мечтает всё прогрессивное человечество: программа, которая сама может генерировать художественные тексты.
Infinite Adventure Machine работает по принципам, заложенным Владимиром Проппом. Он разработал метод, которым можно разбить повествование в сказках и фольклорных историях на функции и стандартных персонажей.
IAM не раскладывает готовые сказки на функции, она, наоборот, генерирует грубый набросок сказки, поделённый на несколько сцен. Случайным образом переставляя 31 функцию повествования, описанную Проппом, приложение составляет из них случайные комбинации (впрочем, руководствуясь определёнными правилами).
На экране показывается этап нарратива и иллюстрация сцены. При перезагрузке история приобретает совершенно иной вид. Понятно, что комбинаций у 31 элемента может быть очень и очень много.
Куда податься живому писателю
У прочитавшего об этих проектах может сложиться впечатление, что скоро живые писатели и журналисты вообще не будут нужны и всё закончится тем, что программы будут писать сценарии для фильмов (впрочем, в некоторых случаях это даже к лучшему). Но, несмотря на быстрое внедрение этих технологий, запас времени у людей есть.
Нетрудно представить ситуации, когда такие программы будут не конкурировать с живыми писателями, а помогать им в случае творческого застоя. Например, зная логику повествования и персонажей, предлагать человеку варианты развития сюжета, а может, даже и делать грубые наброски текста (который, конечно же, всё равно придётся дописывать и править). Так или иначе, любой механический труд, который может выполнять машина, должен быть поручен машине, человек же должен заниматься тем, что получается только у него одного: мыслить.