Чтобы развивать биологию и медицину, нужно научиться обрабатывать колоссальные объёмы экспериментальных данных

Благодаря информационным технологиям биология и генетика получили огромный толчок в развитии. За последние годы они стали совершенно другими науками, но сейчас их дальнейший прогресс ещё сильнее зависит от математиков и программистов. Требуется разработка методов анализа больших объёмов данных и создание соответствующей ИТ-инфраструктуры.

Одним из самых глобальных научных проектов в биологии и медицине за последнюю четверть века стал «Геном человека». Эухроматическая часть генома оказалась представлена 2,85 млрд пар нуклеотидов. На первое определение их последовательности потребовалось около тринадцати лет работы тысяч специалистов.

К настоящему времени процесс полностью автоматизирован, и в отдельных случаях расшифровка части генома конкретного человека занимает всего полчаса. Параллельно для микробиологов были разработаны новые специализированные методики анализа геномов бактерий и вирусов.

При этом для исследователей осталась нерешённой главная проблема — как хранить и обрабатывать петабайты первичных данных. К примеру, их объём, получаемый при изучении микробных сообществ в одном грамме почвы, на три порядка превышает таковой у всего проекта «геном человека».

Помимо регистрации отдельных изменений в ДНК микроорганизмов, для статистического анализа в базу данных требуется внести целый ряд второстепенных переменных. Включая сведения о методике, времени и условиях отбора пробы. Если это выполняется для клинических исследований, то к этим данным добавляются ещё и сведения о пациенте. Врач и микробиолог из Стэнфордского университета Дэвид Релман (David Relman) так описывает проблему:

«Даже в простых клинических исследованиях в каждый протокол вносится масса данных. Например, парадонтологи описывают десневые карманы пациентов, указывая результаты измерения состава жидкости, её плотности и pH, параллельно приводятся иммунологическая оценка и общие сведения. Взаимосвязи между этим данными очень быстро усложняются».

Решения этой задачи главным образом лежат в сфере интеллектуальной обработки больших массивов информации. Например, созданный исследователями из Университета штата Мичиган алгоритм фильтрации на раннем этапе сокращает потребность в ёмкости сетевых хранилищ в 30–40 раз. Это большой шаг вперёд, но его всё же недостаточно.

На протяжении многих лет независимо от применяемых методик большую сложность представлял процесс проверки установленной последовательности нуклеотидов в отдельных фрагментах ДНК. Приходилось мириться либо с большой избыточностью данных, либо с их низкой достоверностью на первых этапах.

Для решения этой проблемы в Национальном центре анализа и противодействия биологическим угрозам и Мэрилендском университете был разработан программный пакет с открытым исходным кодом Celera Assembler. Он использует метод математического анализа под названием «гибридная коррекция ошибок», снижая их число на два порядка и повышая скорость обработки данных.

Сегодня биология, генетика и медицина перестали быть описательными науками. Исследователи стараются использовать максимальное количество объективных данных и развивают направление доказательной медицины, в рамках которого любой вывод должен быть основан на проверяемых результатах и статистическом анализе больших объёмов данных.