Как «большие данные» помогают исследовать живую природу

«Неопознанный биологический вид можно повстречать у себя во дворе с той же вероятностью, что и в джунглях Амазонии», — говорят учёные из консорциума International Barcode of Life (iBOL). Число таких видов на нашей планете может составлять от десяти до ста миллионов, причём треть, по подсчётам исследователей, может вымереть до конца века.

В iBOL входят университеты, музеи естественных наук и исследовательские институты. Цель консорциума — посредством новейших технологий идентифицировать и классифицировать все земные организмы. И не только классифицировать, но и собрать в единую базу всю доступную информацию о них. Применяй учёные традиционные подходы, задача была бы невыполнимой, однако краудсорсинг и технологии «больших данных» могут изменить всё.

В iBOL попросили людей по всему миру поучаствовать в сборе образцов. Затем учёные идентифицируют эти образцы в лабораториях методом секвенирования отрезков ДНК (процедуры, известной как генетический баркодинг). В результате получилась база данных, содержащая сотни миллионов записей, и предполагается, что в следующем году она станет ещё больше.

В ближайшем будущем в iBOL планируют перенести всю информацию в HANA — аналитическую платформу компании SAP, построенную на основе реляционной базы данных, которая целиком загружается в память. Решения, основанные на HANA, нередки в корпоративной среде, но с не меньшим успехом платформа подойдёт и для научного применения.

Платформа SAP HANA (расшифровывается как High Performance Analytic Appliance) — это не просто база данных. Кроме СУБД, в неё входят разнообразные приложения и алгоритмы для обработки данных в оперативной памяти. В HANA входят библиотеки для предиктивного анализа, планирования, работы с текстом, пространственной информацией и бизнес-аналитики, а кроме того — средства для визуализации, веб-сервер и набор для разработки интерфейсов. Сильная сторона HANA — в возможности быстрой обработки больших массивов данных и анализа «на лету».

Записи iBOL сводятся с другими наборами данных. К примеру, добавив в базу информацию о погоде, исследователи могут реализовать предиктивный алгоритм, прогнозирующий изменение ареала того или иного вида и даже вычислять взаимосвязи в миграции разных видов. Результаты анализа позволяют понять, как внешние условия — от экспансии видов до смены климата — влияют на окружающую среду и как управлять дикой природой и сельскохозяйственными землями более экологически устойчиво, не нанося ущерба окружающей среде.

В SAP считают, что в ближайшие пять–десять лет у людей появится возможность на месте идентифицировать вид животного или растения с помощью мобильного приложения для баркодинга ДНК, над которым в SAP работают совместно с iBOL. А в ближайшей перспективе компания готовится запустить приложение, которое позволит любому не только загружать фотографии растений, но и отправлять образцы для анализа.

Похожими исследованиями занимаются и в IBM. Там тоже применяют краудсорсинг для сбора научной информации и даже разработали собственную платформу, служащую этой цели. В исследовательской лаборатории IBM в бразильском городе Сан-Паулу были созданы сайт и мобильное приложение под общим названием Missions. «Миссии» дают возможность пользователям любого возраста и уровня образования помочь IBM собирать информацию о разнообразии биологических видов в амазонских тропических лесах.

Серхио Боргер — руководитель команды исследователей IBM, работающей в Сан-Паулу, — предложил использовать краудсорсинг после того, как в 2010 году к компании обратилось бразильское Министерство окружающей среды и инноваций, которое нуждалось в централизованном хранилище данных о тропических лесах. Так была создана платформа Missions. С её помощью пользователи загружают фотографии разных видов растений, вводят такие характеристики, как цвет и размер, сравнивают снимки с фотографиями в каталоге и классифицируют растения. В оценке успешности классификации тоже помогает пользовательский рейтинг.

В Missions предусмотрены разные метрики для разных биологических видов. Так, для деревьев предусмотрена графа, в которую положено вписывать диаметр ствола. Записываются и данные о внешних условиях; кроме того, есть возможность отследить изменение разнообразных параметров с течением времени. Сейчас команда Боргера занята исследованием способов отслеживать более подвижные организмы, то есть наблюдать за животными (например, лягушками) и насекомыми.

До Missions Боргер уже реализовывал краудсорсинговые проекты в IBM. Например, в компании устраивали коллективный сбор данных совместно с государственной водной службой Калифорнии. Приложение Creekwatch давало гражданам возможность помочь правительству отслеживать высыхание местных водосборов. Люди загружали фотографии и оценивали уровень воды, скорость потока и количество мусора. В IBM также разработали приложение Accessible Way, позволяющее отправлять отчёты о недоступных для инвалидов местах в городе.

Подобные инициативы организуются не только крупными компаниями: например, в Области залива Сан-Франциско действует группа добровольцев Nerds for Nature («Нерды за природу»). «Нерды» уже организовали несколько мероприятий под названием «биоблиц», на которых они занимаются документированием биологического разнообразия, используя мобильное приложение iNaturalist. Они даже сотрудничают с небольшой биотехнической компанией и хакерспейсами, проводя независимый баркодинг ДНК.

Примечательно, что и корпорации не спешат брать деньги с учёных. Так, SAP бесплатно предоставляет для iBOL программное обеспечение HANA. Для желающих анализировать базу данных биологического разнообразия будет открыт бесплатный доступ к iBOL. «В данном случае мы не продаём продукты компании, — говорит Дэвид Джонкер, глава департамента маркетинга больших данных SAP. — Мы воодушевлены возможностью использования нашей технологии для общей пользы и применения её для общественно полезных исследований».

Впрочем, доброта SAP и IBM имеют под собой вполне прагматичную основу — по крайней мере если верить аналитику Forrester Research Майку Галтьери. По его словам, крупные ИТ-компании заинтересованы в том, чтобы бесплатно распространять свои продукты среди некоммерческой аудитории из-за появления конкуренции со стороны свободного ПО. Всему виной популярность распределённой базы данных Hadoop, реализующей алгоритм Map/Reduce и часто применяемой для анализа «больших данных» как в бизнесе, так и в науке. Hadoop напрямую угрожает спросу на продукты гигантов индустрии.

Хотя нет уверенности, что Hadoop заменит собой технологии более крупных игроков, Галтьери считает, что им придётся сотрудничать с Hadoop: «Они увидели здесь угрозу, поэтому сочли за лучшее выпустить продукт в массы, позволить людям использовать свои технологии; делая свои разработки доступными, компании повышают уровень осведомлённости среднего пользователя». В результате, по прогнозу Галтьери, нас ждёт растущее число краудсорсинговых проектов по сбору и анализу научно-исследовательских данных с участием крупных ИТ-компаний и разработанных ими платформ.

У вложений SAP и IBM есть шанс окупиться, когда они дадут начало новым коммерческим разработкам. Одним из применений могут стать краудсорсинговые потребительские исследования. Недавние скандалы с ошибочно маркированными продуктами могут служить показателем: конина, маскирующаяся под говядину, лисье мясо под видом ослиного, неверно маркированная рыба и прочие сомнительные случаи. Благодаря новым разработкам у владельцев магазинов может появиться шанс проверять продукты, идентифицируя их прямо на месте с помощью баркодинга ДНК. В SAP уже ведут переговоры с несколькими партнёрами о коммерциализации этой разработки.

Что будем искать? Например,ChatGPT

Мы в социальных сетях