Умный алгоритм решит проблему анализа больших объёмов данных в биоинформатике

Андрей Васильков 06 августа 2012

На чтение: 2 минуты

Нравится:

На чтение: 2 минуты

Нравится:

Исследователями из университета штата Мичиган предложена методика обработки данных микробиологических и генетических исследований, позволяющая в ряде случаев отказаться от использования ёмких хранилищ данных и суперкомпьютеров. Современные исследования в области медицины, биологии и генетики базируются на обработке многих терабайт данных, собираемых после каждого эксперимента.

ДНК-секвенсор производства Biosciences (фото: University of Delaware)

Наиболее остро такая проблема чувствуется при ДНК-секвенировании для анализа генетических последовательностей.

Например, объём первичных данных, получаемых при изучении микробных сообществ в 1 грамме почвы, превышает таковой у проекта «геном человека» в тысячу раз.

Существующие методики требуют для обработки таких массивов мощной вычислительной техники и длительного ожидания. Даже передача копии данных в другую лабораторию становится проблемой. Исследователи либо ждут своей очереди к суперкомпьютеру, либо пытаются распараллелить и потихоньку обсчитать на десятках обычных ПК – по времени результат получается сопоставимым.

ДНК-секвенсоры 454 Life Sciences (фото: Roy Kaltschmidt, Lawrence Berkeley National Lab)

Новый алгоритм обработки исходных данных использует умную фильтрацию на раннем этапе. Это позволяет сократить требования к объёму оперативной памяти в 30 – 40 раз, то есть избавляет от необходимости оперировать терабайтами в каждый момент времени.

Авторы заинтересованы в распространении своего алгоритма в научной среде. Они сделали исходный код открытым и написали вспомогательное программное обеспечение. Также они пригласили всех желающих модифицировать его и адаптировать для различных применений. Инициатива пришлась по вкусу: другая научная группа уже разрабатывает на основе этого алгоритма более быструю программу сборки генома.