Rambler's Top100
 
 
  23 ноября 2008 года Компьюлента
CIO
Терралаб
Бизнес-журнал
в поле зрения | обзоры и тесты | своя игра | интерактив
Автора! Автора!
Автор: Григорий Рудницкий
Опубликовано 09 октября 2008 года

Каждый человек, даже если ему не приходится зарабатывать на жизнь писательским трудом, обладает неповторимым и уникальным литературным стилем (ладно, согласны, он далеко не всегда литературный — но это уже нюансы восприятия). Один автор использует больше глаголов, другой, подобно Льву Толстому, выражает свою мысль в исключительно длинных синтаксических конструкциях. Кто-то пишет лирично. Кого-то выдает рубленый стиль. У кого-то есть свои излюбленные обороты или другие литературные приемы и схемы, характеризующиеся конкретными структурными связями. Литературоведы, к примеру, способны благодаря знанию стиля того или иного писателя, идентифицировать его произведения с большой долей достоверности.

Но если человеческий мозг способен что-то проанализировать, то, теоретически, этому же можно научить и компьютерную программу. Зачем, спросите вы? Способов применения у такой разработки хоть отбавляй. Это может быть анализ школьных и студенческих работ на предмет плагиата, криминалистическая экспертиза, литературоведение...

И подобное ПО существует! Вчера такого рода программу представила компания Cognitive Technologies. Называется продукт простенько и со вкусом - Text Analyzer. Принцип работы "Анализатора" с общих чертах вполне доступен пониманию. Программе, ознакомленной с образцами творчество предполагаемого автора, скармливается исследуемый текст. Text Analyzer проводит синтаксический, семантический и структурный разбор и анализ текста и выявляет порядка сотни характеристик, ему присущих. Очевидно, что чем объёмнее текст и разнообразнее встречающиеся в нем конструкции, тем репрезентативнее будут результаты. При этом опасений, что программа захлебнется, если попытаться заставить ее обработать полное собрание сочинений средних размеров, возникнуть не должно - скорость разбора текста на современном офисном компьютере составляет 450-500 страниц в минуту.

По словам представителей компании, данная разработка выгодно отличается от некоторых уже присутствующих на российском рынке систем анализа текста. Если последние учитывают, в основном те признаки, которые можно легко рассчитать вручную (количество слов в предложении, среднее количество тех или иных частей речи, частотный словарь и т.д.), то Text Analyzer основное внимание уделяет структурным связям и подчиненности одних конструкций другим в рамках предложения. Выделенные связи не зависят от перестановки предложений внутри текста, а не нарушаются при контекстной замене слов. Как уверяют разработчики, эти характеристики демонстрируют высокую статистическую устойчивость в применении к произведениям конкретного автора. Иллюстрацией данному утверждению послужил эксперимент с опознанием авторства басни про ворону и лисицу, где "ворона" была заменена на "корову", "лисица" на "синицу", а "сыр" - на "сервелат". Надо сказать, что и в этом случае программа безошибочно приписала авторство великому русскому баснописцу. Другой, более интересный акт марлезонского балета имел несколько скандальный характер. С помощью Text Analyzer была исследована та глава из романа Дарьи Донцовой "Жаба в кошельке", которая стала причиной обвинения писательницы в плагиате. Известный журналист и блоггер Игорь Черский заявил, в данном романе использован текст одного из его рассказов. И в самом деле - анализ текста показал, что этот спорный фрагмент гораздо больше похож на произведения Игоря Черского, чем на остальные романы Донцовой. Кстати, и эти романы тоже существенно отличаются один от другого по стилю, что наводит на подозрения, что их писали разные люди.

В настоящий момент продукт Cognitive Text Analyzer доступен в виде модуля, который бесплатно можно скачать с сайта компании-разработчика. Данная технология уже сегодня привлекает большое внимание исследователей в сфере лингвистики, как из России, так и из стран СНГ и ряда зарубежных стран (США, Франция, Великобритания и др.). Можете попробовать себя в роли криминалиста и вы...

ПОСЛЕДНИЕ КОММЕНТАРИИ
 
ТАКЖЕ В РАЗДЕЛЕ
21 ноября 2008 года
Шьемся на дому 
21 ноября 2008 года
Усиление без революций 
21 ноября 2008 года
Записки материаловеда 
20 ноября 2008 года
Нетбуки против Windows 
20 ноября 2008 года
Новые впечатления 
 
/  бумажный номер

Тема номера: Кризис в ИТ Читайте на сайте тему номера "Кризис в ИТ" и другие статьи из журнала "Компьютерра" от 04 ноября 2008 года
  Архив номеров журнала

О проекте | Реклама на сайте | Рассылки сайта | КПК–версия | RSS-трансляция

© ООО «Компьютерра–Онлайн», 1997 — 2008.
При цитировании и использовании любых материалов ссылка на портал «Компьютерра–Онлайн» обязательна (для Интернет–изданий — www.computerra.ru)
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Редакция журнала: inform@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232–22–61, (495) 232–22–63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером «СПАМОРЕЗ»
Трилан — продвижение сайта,
поисковая оптимизация сайта

Сайт работает на сервере DEPO Computers
Rambler's Top100