|
Автор: Михаил Ройтберг
Опубликовано в журнале "Компьютерра" №36 от 24 сентября 2001 года
Алгоритмы анализа символьных последовательностей и связанные с ними алгоритмы сортировки и алгоритмы на графах активно изучались и разрабатывались, начиная со второй половины 50-х годов. Алгоритмический бум 60-х - 70-х годов был связан как с разработкой теоретических моделей вычислений (конечные автоматы и их варианты с различными видами памяти), так и с появлением компьютеров и, следовательно, реальной потребностью в обработке значительных (по тем временам) объемов данных. Своеобразными итогами этого периода стали многотомное «Искусство программирования» Д. Кнута (1968-1973) и «Построение и анализ вычислительных алгоритмов» А. Ахо, Дж. Хопкрофта и Дж. Ульмана (1976). Анализ достижений этого замечательного этапа в развитии теории алгоритмов есть также в книге: В. А. Успенский, А. Л. Семенов. Теория алгоритмов: основные открытия и приложения. - М.: Наука, 1987. Таким образом, к моменту создания первых баз данных последовательностей ДНК и белков - началу 80-х годов - алгоритмический аппарат был, в значительной степени, готов. При этом специалисты в области алгоритмов рассматривали биологические приложения в одном ряду с техническими, одни и те же алгоритмы применялись, например, для сравнения («выравнивания») биологических последовательностей и для поиска сбоев при хранении файлов. Характерно название первого сборника работ по биоалгоритмике - «Time Warps, String Edits, and Macromolecules: The Theory and Practice of Sequence Comparison» (Sankoff, D and Kruskal, JB, eds, 1983). Впрочем, довольно скоро выяснилось, что анализ биологических последовательностей имеет свою специфику - прежде всего с точки зрения постановок задач. Вот, например, задача о распознавании «вторичной» структуры РНК. Она очень важна для молекулярной биологии и впервые была рассмотрена еще в конце 70-х годов. Молекула рибонуклеиновой кислоты (РНК) - однонитевой полимер, состоящий из четырех видов мономеров-нуклеотидов (аденин, гуанин, урацил, цитозин). А-У и, соответственно, Г-Ц могут образовывать водородные связи, стабилизирующие молекулу. Однако образование одних связей из-за стереохимических соображений делает невозможным образование других, то есть не все комбинации межнуклеотидных связей в молекуле РНК допустимы (правила конфликтов между связями известны). Требуется для данной нуклеотидной последовательности найти наиболее стабильную вторичную структуру, т. е. допустимый набор межнуклеотидных связей, содержащий наибольшее возможное количество элементов (рис. 1). Эта задача может быть переформулирована как задача построения графа (точнее - гиперграфа, см. ниже) специального вида с максимально возможной суммой весов ребер (вершины соответствуют нуклеотидам, ребра - установленным связям) и решена с помощью метода динамического программирования (Ruth Nussinov и соавт., 1978; также см. гл. 7 в книге М. Уотермена). Однако появляющиеся ограничения на вид графа весьма экзотичны с точки зрения небиологических приложений. Другой пример задачи, не имеющей смысла вне биологического контекста, -распознавание кодирующих фрагментов ДНК, рассмотренное в статье Михаила Гельфанда.
Возвращаясь к задаче распознавания наиболее стабильной «вторичной» структуры РНК, отметим следующие обстоятельства, характерные для многих важных задач биоалгоритмики:
Специфика биоалгоритмики, однако, проявляется не только в задачах, которые «по определению» не могли встретиться вне анализа биологических последовательностей. Показательна самая старая и, наверное, самая популярная задача анализа биологических последовательностей - их выравнивание. Выравнять две последовательности - это изобразить их друг над другом, вставляя в обе пробелы так, чтобы сделать их длины равными. Вот, например, как можно выровнять слова ПОДБЕРЕЗОВИК и ПОДОСИНОВИК (cм. врезку). Такой способ изображения последовательностей широко распространен в молекулярной биологии. Предполагается, что выравнивание отражает эволюционную историю, то есть стоящие друг под другом символы соответствуют одному и тому же символу последовательности-предка. К сожалению, мы не знаем, как именно шла эволюция последовательностей. Поэтому в качестве «правильного» обычно выбирается выравнивание, оптимальное относительно некоторой функции качества. Но как мы можем контролировать правильность выбора этой функции? Есть ли у нас (пусть приблизительные) «эталоны»? К счастью, да. В качестве эталонных можно взять выравнивания, соответствующие наилучшему возможному совмещению их пространственных структур (такие структуры известны для нескольких сотен белков). Это связано с тем, что функционирование белка в клетке определяется прежде всего его пространственной структурой и можно ожидать, что аминокислоты, лежащие в сходных местах трехмерной структуры, соответствуют одним и тем же аминокислотам предкового белка. В «добиологическом» анализе последовательностей (например, при сравнении файлов) использовалось понятие редактирующего расстояния. При этом фиксируется набор редактирующих операций (например, замена символа, вставка символа и удаление символа) и для каждой операции фиксируется цена. Тогда каждое выравнивание получает свою цену, определяемую как сумма цен отдельных операций. Лучшим считается то, которое имеет наименьшую цену. Например, при цене замены 1 и цене вставки/удаления 3, лучшими в примере во врезке 2 будут третье и четвертое выравнивания, а при цене замены 10 и той же цене вставки/удаления, лучшим будет пятое. Довольно скоро выяснилось, что для выравнивания биологических последовательностей в эту естественную схему необходимо внести ряд важных изменений. Дело в том, что разные аминокислоты различны по-разному. Например, аланин и валин очень похожи по своим свойствам (и цена замены аланина на валин должна быть небольшой), и они оба совершенно не похожи на триптофан. Более того, даже одинаковые аминокислоты «одинаковы по-разному». Так, триптофан - редок, и сопоставление двух триптофанов более ценно, чем сопоставление весьма распространенных аланинов. Поэтому вместо «цены замены символа» в схеме редактирующего расстояния при сравнении белков используется весовая матрица замен, где каждой паре символов соответствует вес (положительный - для похожих, отрицательный для непохожих), а выравниванию в целом - вес W=R-G, где R - суммарный вес сопоставлений символов (в соответствии с выбранной весовой матрицей замен), G - суммарный штраф за удаления и вставки символов. Таким образом, оптимальное выравнивание - это выравнивание, имеющее наибольший вес (в то время как цена требовалась наименьшая). Например, пусть вес совпадения для гласных букв +2, вес совпадения для согласных букв +1, вес сопоставления двух различных гласных или двух различных согласных -1, вес сопоставления гласной и согласной -2. Далее, пусть штраф за удаление или вставку символа -5. Тогда, например, третье выравнивание имеет вес -3, а четвертое - +1. Таким образом, оптимальное выравнивание слов ПОДБЕРЕЗОВИК и ПОДОСИНОВИК (при выбранных матрице замен и штрафе за удаление/вставку) - четвертое. Переход от минимизации цены к максимизации качества, - это не только технический трюк. На языке максимизации качества естественно ставится задача о поиске оптимального локального сходства. Эта задача соответствует сравнению двух белков, которые в ходе эволюции стали совсем непохожи - везде, кроме относительно короткого участка. Алгоритм построения оптимального выравнивания основан на методе динамического программирования, введенном в широкую практику Ричардом Беллманом в 1957. Идея метода состоит в следующем: чтобы решить основную задачу, нужно придумать множество промежуточных и последовательно их решить (в каком порядке - отдельный вопрос). При этом очередная промежуточная задача должна «легко» решаться, исходя из уже известных решений ранее рассмотренных задач. Множество промежуточных задач удобно представлять в виде ориентированного ациклического графа. Его вершины соответствуют промежуточным задачам, а ребра указывают на то, результаты решений каких промежуточных задач используются для основной. Таким образом, исходная задача сводится к поиску оптимального пути в графе 2 (подробнее о методе динамического программирования см. книгу Ахо, Хопкрофта и Ульмана, а также статью Finkelstein A.V., Roytberg M.A. Computation of biopolymers: a general approach to different problems. Biosystems.1993; 30 (1-3): 1-19.). Аналогично можно переформулировать различные варианты задач выравнивания, предсказания вторичной структуры РНК и белков, поиска белок-кодирующих областей ДНК и других важных проблем биоинформатики. При построении оптимального выравнивания (мы рассматриваем простейший случай, когда удаление и вставка отдельных символов штрафуются независимо) промежуточные задачи - это построение оптимальных выравниваний начальных фрагментов исходных последовательностей. При этом задачи нужно решать в порядке возрастания длин фрагментов. Граф зависимости между промежуточными решениями для сравнения слов «ПАПКА» и «ПАПАХА», а также последовательность промежуточных шагов, приводящих к оптимальному выравниванию, показаны на рис. 2. Рис. 2.
На двух примерах - распознавания вторичной структуры РНК (бегло) и выравнивания белковых последовательностей (более подробно) мы проследили за эволюцией постановок задач в биоалгоритмике. Упомянем кратко еще несколько аспектов. Пожалуй, с практической точки зрения самым важным является поиск в базах данных последовательностей, сходных с изучаемой. Определяющую роль начинают играть проблемы вычислительной эффективности, решаемые, в частности, с применением алгоритмов хеширования. Для предсказания пространственной структуры белков важны алгоритмы выравнивания последовательности со структурой (при этом используется тот факт, что из-за разницы физико-химических свойств аминокислоты встречаются с разной частотой на поверхности белка и в структурном ядре). Наконец, мы полностью оставили в стороне задачи построения эволюционных деревьев по белковым последовательностям. Подчеркнем, что во всех случаях происходит интенсивная «притирка» постановок задач - как с биологической (большая адекватность), так и с алгоритмической (возможность построения более эффективных алгоритмов) точки зрения. Врезка 1 [i41326] 1 (обратно к тексту) - Последняя монография - Pavel A. Pevzner. Computational Molecular Biology. An Algorithmic Approach. The MIT Press. Cambridge, MA, 2000, из книг на русском языке укажем М. С. Уотермен (ред). Математические методы для анализа последовательностей ДНК.-М.: Мир, 1999. 2 (обратно к тексту) - Иногда (например, в упоминавшейся задаче о построении оптимальной вторичной структуры РНК) приходится рассматривать не графы, а гиперграфы. Гиперграф отличается от графа тем, что вместо ребер на множестве вершин задаются гиперребра. Ребро в (ориентированном) графе сопоставляет начальной вершине одну конечную вершину. Гиперребро сопоставляет начальной вершине множество вершин (не обязательно одноэлементное). Аналогом пути в гиперграфе является гиперпуть - объект, похожий на дерево.
|
Аэроплан на солнечных батареях начал первый круглосуточный полёт
«Яндекс» вытесняет конкурентов с поискового рынка
Сети LTE в России могут быть запущены хоть сейчас
Мантии Земли и Луны, скорее всего, имеют одно строение
Влюблённость сродни наркотической зависимости
|
|||||||||||||