Открытия в области генетики с некоторых пор стали систематическими. Однако сил и времени на них уходит все ещё немало. Раскрытие закономерностей, скрытых в медицинской документации и базе данных ДНК, — непростая задача. Проверка медицинской гипотезы может занять столько ценного времени, что учёные невольно стараются быть сдержаннее в своих экспериментах и теориях. Отойдя от использования традиционных ИТ-систем, исследователи получили большую свободу эксперимента и возможность сократить сроки исследования от года до нескольких недель.

Школа медицины при университете Вандербильта обратилась к решениям на платформе IBM. Анализ огромных массивов информации, накопленной университетом за годы его работы, теперь выполняется с помощью IBM PureData. «Большие данные» стали не просто оптимизацией процесса исследований, а безусловно новым этапом развития трансляционной медицины — междисциплинарной науки, сочетающей в себе клинический подход с новыми технологическими методами. Принцип трансляционной медицины заключается в переносе фундаментальных научных исследований из исследовательских центров и лабораторий в медицинскую практику.

Новая платформа даёт клиницистам и исследователям возможность анализировать клинические данные и данные ДНК 2,2 миллиона пациентов, накопленные за двадцать лет работы университета. Она также помогает исследователям и медикам объединять фено- и генетические маркеры с информацией о здоровье населения. В результате, понимая генетические предрасполагающие факторы заболевания, врачи могут адаптировать уход и улучшить результаты лечения.

Суть новаторской работы в университете Вандербильта — в идентификации генетической природы заболевания и определении реакции на лекарства. Какие пациенты рискуют оказаться в группе заболевших и почему некоторые из них не реагируют на определённые типы лекарств — вот вопросы, которыми задаются учёные. Необходимо и понять причины, и выработать новые методы терапии и профилактики заболеваний. Для этого была создана большая база данных под названием Synthetic Derivative. Кроме того, в распоряжении учёных BioVU — база данных ДНК Вандебильта. Однако самих данных недостаточно: объединение специфических черт гено- и фенотипических маркеров с конкретными заболеваниями и последствиями для здоровья — это задача, требующая умения наблюдать параллельно за миллиардами медицинских записей в различных логических срезах.

Система PureData позволила эффективно управлять масштабными данными. Учёным удалось выделить около 100 миллиардов генотипов, и сравнивающие их запросы, которые раньше занимали часы, теперь требуют нескольких минут. Это ускоряет темпы исследования. Алгоритмы можно разрабатывать в режиме реального времени — банально сесть вместе с коллегой и в течение нескольких часов получать результаты и дорабатывать методы. А значит, можно проверить больше теорий, найти пути, которые нельзя было предсказать изначально. Можно больше не исключать идеи, которые имеют более низкую вероятность оказаться успешными. Раньше такие просто отметались ради того, чтобы сэкономить время, но зачастую и в них заложены неожиданные плюсы. Таким образом, ускорение темпа исследований подвигает учёных не откладывать эксперименты и заметно разнообразить их.

Работа с «большими данными» уже дала первые результаты. Например, было установлено, что у пациентов с определённой генетической дисперсией при назначении конкретного (и притом довольно популярного) антитромбоцитарного препарата, вероятнее всего, произойдёт новый сердечный приступ. Такой пациент по сравнению с остальными, для которых лечение вполне эффективно, имеет высокий риск умереть от этого приступа или инсульта. Вариант, найденный PureData, был проверен на 13 тысячах человек. В результате терапия для ряда больных изменена. В другом исследовании учёные смогли определить, что люди с определёнными вариациями фенотипа более других склонны к развитию аритмии. Это знание позволяет врачам заблаговременно учесть этот риск и предотвратить неблагоприятный исход. Это лишь два примера, в то время как в ближайших планах организации — исследования сорока различных заболеваний и двадцати препаратов.

Итак, технологии Big Data не просто сокращают время исследования с целого года до нескольких недель. Они помогают врачам определить повышенные риски развития новых синдромов и повторных приступов у пациентов и вовремя назначить соответствующие лекарства.