Rambler's Top100
 
 
  04 декабря 2008 года Компьюлента
CIO
Терралаб
Бизнес-журнал
в поле зрения | обзоры и тесты | своя игра | интерактив
Биология in silico
Автор: Михаил Гельфанд
Опубликовано в журнале "Компьютерра" №36 от 21 сентября 2001 года

Вычислительная биология, она же биоинформатика, она же компьютерная генетика - молодая наука, возникшая в начале 80-х годов на стыке молекулярной биологии и генетики, математики (статистики и теории вероятности) и информатики, испытавшая влияние лингвистики и физики полимеров. Толчком к этому послужило появление в конце 70-х годов быстрых методов секвенирования* последовательностей ДНК*. Нарастание объема данных происходило лавинообразно (рис. 2) и довольно скоро стало ясно, что каждая полученная последовательность не только представляет интерес сама по себе (например, для целей генной инженерии и биотехнологии), но и приобретает дополнительный смысл при сравнении с другими. В 1982 году были организованы банки данных нуклеотидных последовательностей - GenBank в США и EMBL в Европе. Первоначально данные переносились в банки из статей вручную, однако, когда этот процесс начал захлебываться, все ведущие журналы стали требовать, чтобы последовательности, упоминаемые в статье, были помещены в банк самими авторами. Более того, поскольку секвенирование уже давно стало рутинным процессом, который выполняют роботы или студенты младших курсов на лабораторных работах, многие последовательности сейчас попадают в банки без публикации. Банки постоянно обмениваются данными и, в этом смысле, практически равноценны, однако средства работы с ними, разрабатываемые в Центре биотехнологической информации США и Европейском институте биоинформатики, различны. Пожалуй, первым биологически важным результатом, полученным при помощи анализа последовательностей, было обнаружение сходства вирусного онкогена v-sis и нормального гена фактора роста тромбоцитов, что привело к значительному прогрессу в понимании механизма рака. С тех пор работа с последовательностями стала необходимым элементом лабораторной практики.

Рис. 2.  Рис. 2.

Количество статей по молекулярной биологии в библиографической базе данных PubMed (красные ромбы) и количество фрагментов нуклеотидных последовательностей в базе данных GenBank (синие квадраты) по состоянию на 1982-2000 годы.

Шкала - логарифмическая, так что рост количества последовательностей - экспоненциальный.

Объем базы в нуклеотидах тоже растет экспоненциально.

В 1995 году был секвенирован первый бактериальный геном*, в 1997 - геном дрожжей. В 1998 было объявлено о завершении секвенирования генома первого многоклеточного организма - нематоды 1. По состоянию на 1 сентября 2001 года доступны 55 геномов бактерий, геном дрожжей, практически полные геномы Arabidopsis thaliana (растения, родственного горчице), нематоды, мухи дрозофилы - все это стандартные объекты лабораторных исследований. Уже два раза (весной 2000 и зимой 2001 года) было объявлено о практическом завершении секвенирования генома человека - имеющиеся фрагменты действительно покрывают его более чем на 90%. Количество геномов, находящихся в распоряжении фармацевтических и биотехнологических компаний, оценить трудно, хотя, по-видимому, оно составляет многие десятки и даже сотни. Ясно, что подавляющее большинство генов в этих геномах никогда не будет исследовано экспериментально. Поэтому компьютерный анализ и становится основным средством изучения.

Все это привело к тому, что биоинформатика стала чрезвычайно модной областью науки, спрос на специалистов в которой очень велик. Следует отметить, что одним из неприятных последствий возникшего шума стало то, что биоинформатикой называют всё, где есть биология и компьютеры 2. В то же время многие области уже пережили такие моменты (например, теория информации 3), и хочется надеяться, что за пеной ажиотажа не пропадет то действительно интересное, что делается в настоящей биоинформатике.

Традиционно к биоинформатике относится:

  • статистический анализ последовательностей ДНК;

  • предсказание функции по последовательности (распознавание генов в последовательности ДНК, поиск регуляторных сигналов, предсказание функций белков - некоторые из этих задач рассмотрены в следующей статье);

  • анализ пространственной структуры белков и нуклеиновых кислот, в том числе предсказание структуры белка по последовательности, - здесь биоинформатика граничит с биофизикой и физикой полимеров;

  • теория молекулярной эволюции и систематика.

Следует отметить, что многие задачи из разных областей решаются сходными алгоритмами, один из примеров этого приводится в статье М. А. Ройтберга.

В последние годы возник ряд новых задач, связанных с прогрессом в области автоматизации не только секвенирования, но и других экспериментальных методов: масс-спектрометрии, анализа белок-белковых взаимодействий, исследования работы генов в различных тканях и условиях (см. статью И. А. Григорян и В. Ю. Макеева в этом номере). При этом не только возникает необходимость создавать и заимствовать из других областей новые алгоритмы (например, для обработки результатов экспериментов в области протеомики* широко применяются методы анализа изображений), но и происходит распространение биоинформатических подходов на смежные области, например популяционную и медицинскую генетику. Существенно при этом, что роль биоинформатики не сводится к обслуживанию экспериментаторов, как это было еще несколько лет назад: у нее появились собственные задачи. Более подробно об этом можно прочитать в обзоре (М. С. Гельфанд, А. А. Миронов. Вычислительная биология на рубеже десятилетий. Молекулярная биология. 1999, т. 33, № 6, с. 969-984); можно упомянуть также сборник статей (Математические методы для анализа последовательностей ДНК. М. С. Уотермен, ред. - М.: Мир, 1999). Проект курса по биоинформатике, перечисляющий основные направления. Основные журналы по биоинформатике - «Bioinformatics», «Journal of Computational Biology» и «Briefings in Bioinformatics», конференции - ISMB (Intellectual Systems for Molecular Biology) и RECOMB (International Conference on Computational Biology).

Словарь

[i41320]


1 (обратно к тексту) - Вопрос о том, что такое полностью секвенированный геном многоклеточного организма, нетривиален. В частности, значительную его часть (несколько процентов) составляют повторы, которые и вообще крайне сложны для секвенирования. В таких областях находится мало генов, и поэтому их обычно оставляют «на потом». Текущее же состояние генома человека напоминает рассыпанную мозаику, часть элементов которой отсутствует, а кроме того, подмешаны фрагменты других мозаик (посторонние последовательности).
2 (обратно к тексту) - В плане одного академического института на 2001 год в разделе «биоинформатика» можно было встретить, например, компьютерное моделирование сокращений сердечной мышцы - это очень интересная и уважаемая, но совершенно отдельная тема. А в университетском курсе биоинформатики предлагается изучать «Возможный механизм пунктурной терапии».
3 (обратно к тексту) - См. очень поучительную заметку Клода Шеннона «The Bandwagon» (Trans. IRE, 1956, ИТ-2 (1), 3, русский перевод в: К. Шеннон. Работы по теории информации и кибернетике. - М.: Изд-во иностранной литературы, 1963). Вот цитата: «Сейчас теория информации, как модный опьяняющий напиток, кружит голову всем вокруг. Для всех, кто работает в области теории информации, такая популярность несомненно приятна и стимулирует их работу, но в то же время и настораживает… Здание нашего несколько искусственно созданного благополучия слишком легко может рухнуть, как только в один прекрасный день окажется, что при помощи нескольких магических слов, таких как информация, энтропия, избыточность… нельзя решить всех нерешенных проблем… На понятия теории информации очень большой, даже, может быть, слишком большой спрос. Поэтому мы сейчас должны обратить особое внимание на то, чтобы исследовательская работа в нашей области велась на самом высоком научном уровне, который только возможно обеспечить».

Словарь>>

ТАКЖЕ В РАЗДЕЛЕ
04 ноября 2008 года
Все будет х….о! 
04 ноября 2008 года
Продолжение следует 
28 октября 2008 года
Танцы на игле 
28 октября 2008 года
Чудесный порошок 
 
САМОЕ ПОПУЛЯРНОЕ
О Смысле Всего Сущего
Евгений Козловский так обстоятельно подошел к вопросам читателей "КТ-Онлайн", что интервью пришлось разделить на две части. Но историю происхождения "Огородов" можно узнать уже сегодня!
Неделя после Fallout
Продажи новой игры из серии Fallout, разработанной студией Bethesda, идут очень неплохо - и это при том, что первый патч принёс игрокам кучу проблем, а японцы, оказалось, лишились части одного из квестов.
Тонкости анонимного серфинга в Сети
Сегодня мы будем учиться заметать следы. Правда, не настоящие, а виртуальные, всякий раз оставляемые пользователем при работе в Интернете и с большим удовольствием потребляемые всевозможными онлайновыми сервисами.
Нетбуки против Windows
Нетбукам нужна лёгкая операционная система. Windows Vista, определённо, такой не является. Windows XP давно морально устарела. Linux? Или всё-таки подождать выхода легковесной версии Windows 7?
/  бумажный номер

Тема номера: Кризис в ИТ Читайте на сайте тему номера "Кризис в ИТ" и другие статьи из журнала "Компьютерра" от 04 ноября 2008 года
  Архив номеров журнала

О проекте | Реклама на сайте | Рассылки сайта | КПК–версия | RSS-трансляция

© ООО «Компьютерра–Онлайн», 1997 — 2008.
При цитировании и использовании любых материалов ссылка на портал «Компьютерра–Онлайн» обязательна (для Интернет–изданий — www.computerra.ru)
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Редакция журнала: inform@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232–22–61, (495) 232–22–63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером «СПАМОРЕЗ»
Трилан — продвижение сайта,
поисковая оптимизация сайта

Сайт работает на сервере DEPO Computers
Rambler's Top100