Вычисляем неподдельных экспертов при помощи "больших данных".

Академические исследователи и корпоративные менеджеры часто ищут экспертов или соавторов в той или иной области. Польза от такого сотрудничества вполне очевидна — расширяется сфера знаний команды, повышается опыт сотрудников. Одна беда — провозгласить себя экспертом в наше время готов каждый второй. И, к сожалению, не всегда даже есть время и возможность досконально проверить уровень компетентности привлекаемых лиц. Да, в Интернете, как правило, можно найти список публикаций, принадлежащих тому или иному автору. Но, как известно, многие научные издания делают свои статьи доступными только по платной подписке либо заставляют покупать их «поштучно». Поэтому чтобы только составить впечатление о предполагаемом кандидате, придется раскошелиться. А уж если задачу «найти нового эксперта в команду» поставили не перед другим экспертом, способным оценить чужой уровень знаний, а перед обычным менеджером, ситуация становится совсем неприятной.

А еще хуже, если известно лишь, что необходим специалист, скажем, по численному моделированию электромагнитных процессов. А предполагаемых кандидатур нет. Вот и ищи их по всему бескрайнему Интернету…

Исследователи из университета штата Пенсильвания разработали рекомендательную систему, которая позволяет получить доступ к научным «большим данным». Возможно, с технологической точки их система не представляет из себя уникального открытия — «большие данные» используются уже почти повсеместно, и работа с текстами подразумевает использование давно известных алгоритмов. Однако в научных кругах не многие группы имеют доступ к такому объему цифровых публикаций, чтобы вообще имело смысл заводить речь о работе с «большими данными». Но в данном примере разработчики как раз могут похвастаться доступом к данным именно такого масштаба и этим их продукт по-своему уникален.

Итак, исследователи из Пенсильвании предлагают пользователям CSSeer — свободную и общедоступную систему рекомендаций. Базируется она на цифровой библиотеке CiteSeerX. Впрочем, в качестве вспомогательного ресурса использует еще и Википедию. CSSeer генерирует ключевые фразы на основе заголовков и аннотаций каждого документа в CiteSeerX. А затем эти ключевые фразы используются для того, чтобы определить весомость кандидатуры того или иного автора. Система автоматически выясняет, кто является экспертом в данной области. И еще одна приятнейшая возможность — пользователям CSSeer не обязательно знать пофамильно тех, кого они ищут. Можно ввести в поисковик только сферу квалификации, а авторов система предложит самостоятельно. И не просто предложит, а подскажет, в каких дополнительных сферах они имеют наибольший опыт.

Поле для исследований у исследователей было. Джайлс, руководитель Intelligent Systems Research Laboratory, начал работу не на пустом месте — ранее он принимал участие в создании и развитии цифровых библиотек и поисковых систем, работающих с научными данными — в частности, CiteSeer — автономного поискового движка и цифровой библиотеки. В последнее время на смену CiteSeer пришла CiteSeerX — аналогичная система, сосредоточенная на поиске литературы в основном в областях компьютерных и информационных наук. CiteSeerX стремится повысить доступность научной литературы и обеспечить к ней быстрый, эффективный доступ. В ней проиндексировано около 3 миллионов документов, к которым ежедневно выполняется от 2 до 4 миллионов запросов. CiteSeerX активно используют аспиранты, преподаватели и исследователи. В некотором смысле она является аналогом платформы Google Scholar, индексирующим полнотекстовые научные публикации. Доступ к данным из этого научного поисковика и позволил исследователям автоматически выявлять научные тенденции, определять вектор работы ведущих исследователей и даже видеть, какие методы работы пользуются особенной популярностью.

Но понимая, что в создании еще одной цифровой библиотеки, пусть и специализированной, смысла мало, разработчики CSSeer делают акцент на алгоритмах, метаданных и сервисах. В то время, как традиционная электронная библиотека фокусируется на поиске и обработке документов, они ищут людей, вовлеченных в научный процесс, способствуя поиску потенциальных коллабораторов среди других ученых. Для этого есть дополнительный специализированный инструментарий CollabSeer, учитывающий и исследовательские интересы пользователя, и уровень его профессиональных знаний. В некотором смысле, CollabSeer напоминает Facebook — так же использует ключевые фразы и социальные связи для подбора рекомендаций. Разница лишь в том, что из графа возможных социальных связей исключается то, что не имеет отношения к науке. А ключевые фразы рассматриваются на предмет корреляции с тенденциями научного мира.

Недавно CSSeer была опробована в американской многонациональной химической корпорации Dow Chemical, занимающейся производством пластмасс, химикатов и тому подобной продукции. Менеджеры Dow хотели определить уровень знаний некоторых отдельных лиц и целых подразделений в собственной организации.

«Большие данные», «пробравшиеся» в науку, действительно способны ненавязчиво предложить партнера по исследованиям, чья кандидатура даже не рассматривалась — а значит, создать новые взаимосвязи для плодотворного сотрудничества. Можно предположить, что тем же самым инструментом в недалеком будущем будут пользоваться для того, чтобы быть в курсе самых современных веяний науки и технологий, не тратя времени на обстоятельный мониторинг научных изданий. И еще, «большие данные» действительно способны рассказать даже непосвященному человеку, чего стоит соискатель. И наверное, это неплохо — ведь большинство из нас предпочли бы, чтоб нас выбирала умная машина, нежели глупый кадровик.

Вычисляем неподдельных экспертов при помощи «больших данных».