Как анализ данных помогает пролить свет на тайную жизнь патентов

К патентам можно относиться по-разному, в том числе считать их абсолютным злом, тормозящим развитие индустрии. Однако реальность такова, что патентная система в ближайшее время никуда не денется. Это, однако, не значит, что её нельзя улучшить. Технологии анализа больших массивов данных помогают упорядочить огромное множество существующих патентов, что хотя бы упрощает работу с ними.

Подача патентной заявки означает, что компания готова раскрыть своё изобретение для всех, однако заявляет свои права на него и сможет требовать выплат от всех, кто в течение определённого времени будет использовать разработку. Патенты — это не просто способ сохранить лидерство перед конкурентами: компании воспринимают патенты как активы — такие же, как, например, офисные столы и стулья.

Патенты продаются, покупаются и нередко обмениваются на право пользования другими патентами. Содержать свои патенты в порядке чрезвычайно важно для корпораций, а отслеживание заявок других компаний может помочь лучше понять направления, в которых работают их исследовательские подразделения. Однако проделать это не так-то просто, и в ход идут изощрённые технические приёмы.

Информация о патентах зачастую неполна или даже содержит ошибки, в том числе — умышленные. Нередко можно встретить патенты, будто бы не принадлежащие ни одной фирме, тогда как на самом деле их принадлежность специально скрывается патентными троллями. Как только обнаружится фирма, случайно использующая запатентованное изобретение, всплывёт и обладатель патента, желающий отсудить часть полученной прибыли. Data Mining помогает избежать таких ситуаций: прослеживая связи между изобретениями и компаниями, зачастую можно установить настоящего владельца.

Но и без намеренных вредоносных попыток патентная система за время её существования успела стать достаточно запутанной, чтобы было сложно разобраться без автоматизации. К примеру, попадается примерно 800 разных способов написать название IBM, а японские патенты до недавних пор использовали даты традиционного календаря вместо григорианского.

Всего в мире существует около 100 миллионов патентов, но не каждый из них зарегистрирован во всех странах. К примеру, в Китае регистрируется много изобретений, авторы которых в большинстве случаев не утруждают себя покупкой международного патента: только 0,5% китайских патентов зарегистрировано за пределами страны (для США аналогичная цифра составляет 45%). Это нередко создаёт проблемы фирмам, желающим выйти на китайский рынок, к тому же эти патенты сами по себе могли бы дать полезную информацию, не будь они на китайском.

Нет ничего удивительного в том, что появляются компании, предоставляющие услуги по анализу патентных данных. Одна из таких компаний — Innography. В Innography применяют методы анализа «больших данных» и специализируются на интеллектуальной собственности. Клиентам фирмы предлагается около полусотни разнообразных отчётов, которые помогают сориентироваться на патентном рынке и, в случае если имеется собственное обширное портфолио патентов, разобраться в нём.

В распоряжении Innography — движок собственной разработки, предназначенный для Data Mining и снабжённый модулями для разных предметных областей и применений. Он разбирает метаданные патентов, группирует их и осуществляет полнотекстовый поиск. По ключевым словам не всегда можно найти искомое: более ранние (то есть наиболее ценные) патенты зачастую используют устаревшую терминологию, а патентные тролли специально стараются избежать общепринятых терминов, чтобы их заявки было сложнее обнаружить.

Innography пришлось разработать систему семантического поиска, чтобы появилась возможность искать концепции, а не слова. Так, запрос по слову «мотоцикл» будет выдавать в том числе те патенты, где это слово не употребляется, а вместо этого используется словосочетание «двухколёсное средство передвижения». Те же методы оказываются полезными, когда приходится работать с переводными документами.

Данные нужно поддерживать в актуальном состоянии, чтобы поспевать за накапливающейся базой патентов. Они нередко меняют категории, переходят из рук в руки и обновляются. В Innography стараются учитывать всё это и в числе прочего представляют отчёты об изменениях.

Вот пример расследования, произведённого в Innography. Предметом стала область CRM — системы управления взаимоотношения с клиентами. Пройдясь семантическим поиском по Википедии, в компании составили карту наиболее крупных участников рынка.

Специалист сразу определит необычного игрока, присутствующего на графике, — Bank of America. Что он делает среди фирм, ведущих разработки в области CRM? Поиск по патентным заявкам Bank of America даёт детальную картину интересов компании.

Из взаимосвязи ключевых слов сразу становится очевидным направление исследований. В Bank of America думают над тем, как использовать социальные медиа для оценки рисков при выдаче кредитов. Загадка решена.