Rambler's Top100
 
 
  04 декабря 2008 года Компьюлента
CIO
Терралаб
Бизнес-журнал
в поле зрения | обзоры и тесты | своя игра | интерактив
Аннотация геномов: от последовательности к функции
Автор: Михаил Гельфанд
Опубликовано в журнале "Компьютерра" №36 от 24 сентября 2001 года

Определение последовательности полного генома представляет интерес постольку, поскольку оно дает возможность что-то сказать о биологии организма - его метаболизме, развитии, ответе на внешние стимулы, коммуникации между клетками многоклеточных организмов или отдельными особями одноклеточных. Большинство этих функций выполняются белками, поэтому основной задачей анализа генома является предсказание закодированных в нем белков и их функций, а также описание регуляторных участков в последовательностях, определяющих, какие белки будут присутствовать в клетке в тех или иных условиях 1.

Поиск генов

Итак, нам дана последовательность ДНК, а нужно узнать последовательность закодированного в ней белка. Если бы были известны стартовые позиции всех генов, то узнать последовательности белков было бы просто - еще в середине 60-х годов было установлено соответствие между тройками нуклеотидов (кодонами) и аминокислотами (см. рис.1). В процессе трансляции (см. рисунок на стр. 21) ген считывается по одному кодону (без перекрывания) и соответствующие аминокислоты присоединяются к синтезируемому белку.

Рис. 1. Таблица генетического кода: соответствие между тройками нуклеотидов - кодонами (левый столбцы) - и аминокислотами (правые столбцы). U в кодонах - то же самое, что Т.


UUU

F

UCU

S

UAU

Y

UGU

C

UUC

F

UCC

S

UAC

Y

UGC

C

UUA

L

UCA

S

UAA

stop

UGA

stop

UUG

L

UCG

S

UAG

stop

UGG

W

CUU

L

CCU

P

CAU

H

CGU

R

CUC

L

CCC

P

CAC

H

CGC

R

CUA

L

CCA

P

CAA

Q

CGA

R

CUG

L

CCG

P

CAG

Q

CGG

R

AUU

I

ACU

T

AAU

N

AGU

S

AUC

I

ACC

T

AAC

N

AGC

S

AUA

I

ACA

T

AAA

K

AGA

R

AUG

M/start

ACG

T

AAG

K

AGG

R

GUU

V

GCU

A

GCU

D

GGU

G

GUC

V

GCC

A

GCC

D

GGC

G

GUA

V

GCA

A

GCA

E

GGA

G

GUG

V

GCG

A

GCG

E

GGG

G


Три кодона (TAG, TGA, TAA) не кодируют аминокислот, а являются сигналами окончания трансляции, поэтому определить конец гена было бы несложно. Однако тройка ATG не только указывает на начало гена, но и встречается в середине, где кодирует аминокислоту метионин; вдобавок, она может встретиться и в случайном месте вне гена. Поэтому даже задача распознавания генов не тривиальна.

Самым простым способом распознавания генов является поиск протяженных открытых рамок считывания. От каждого потенциального стоп-кодона последовательность просматривается по три нуклеотида справа налево до тех пор, пока не встретится предыдущий стоп-кодон. Ясно, что гены могут лежать только внутри таких открытых рамок, поскольку стоп-кодон не может встретиться внутри гена. Тем самым проблема сводится к тому, чтобы отличить стартовые ATG от внутренних и располагающихся в межгенных промежутках. Оказывается, что имеется сигнал, который участвует в процессе узнавание стартовых кодонов. На рис. 2 приведено окружение стартовых кодонов нескольких генов, и желающие могут поупражняться в выделении этого сигналая.

Рис. 2. Приведены последовательности перед некоторыми генами сенной палочки Bacillus subtilis, выравненные по стартовому кодону ATG (три нуклеотида в конце каждого фрагмента, таким образом, последовательности самих генов не даны). Упражнение: обнаружить сигнал старта трансляции (в данном случае - короткое слово, появляющееся с небольшими изменениями на приблизительно одном и том же расстоянии перед ATG). Ответ см. в конце статьи.


dnaN

ACATTATCCGTTAGGAGGATAAAAATG

gyrA

GTGATACTTCAGGGAGGTTTTTTAATG

serS

TCAATAAAAAAAGGAGTGTTTCGCATG

bofA

CAAGCGAAGGAGATGAGAAGATTCATG

csfB

GCTAACTGTACGGAGGTGGAGAAGATG

xpaC

ATAGACACAGGAGTCGATTATCTCATG

metS

ACATTCTGATTAGGAGGTTTCAAGATG

gcaD

AAAAGGGATATTGGAGGCCAATAAATG

spoVC

TATGTGACTAAGGGAGGATTCGCCATG

ftsH

GCTTACTGTGGGAGGAGGTAAGGAATG

pabB

AAAGAAAATAGAGGAATGATACAAATG

rplJ

CAAGAATCTACAGGAGGTGTAACCATG

tufA

AAAGCTCTTAAGGAGGATTTTAGAATG

rpsJ

TGTAGGCGAAAAGGAGGGAAAATAATG

rpoA

CGTTTTGAAGGAGGGTTTTAAGTAATG

rplM

AGATCATTTAGGAGGGGAAATTCAATG

feuA

TCAATTGAACAGGAGGCTCTATAGATG

adaA

GCATTGTAAGGAGAGGTGAGATAAATG

purT

TTGGAACAGATAGGAGGGGCAAAGATG

mpr

ACACTAAAGGAGGGAGATGACAAAATG

lipA

TTGTTACAAAAAAAGGAGGATATTATG

opuAA

GATTGCTTAATATGGAGGGAAAATATG


На рис. 2 были подобраны хорошие примеры. На самом деле обычно сигнал выражен слабее и абсолютно надежного правила для определения стартовых кодонов сформулировать не удается. Однако оказывается, что есть и другие соображения, которые можно использовать при распознавании. В частности, статистические свойства белок-кодирующих областей отличают их от некодирующих. Для этого есть две основные причины. Во-первых, аминокислоты встречаются в белках с различной частотой, что отражается на частотах кодонов. Более того, частоты синонимичных кодонов тоже различаются, причем эти различия являются свойством всего генома, а не отдельных генов.

Однако эти соображения, хорошо работающие при анализе бактериальных геномов, не срабатывают в случае с геномами многоклеточных организмов. Дело в том, что гены этих организмов содержат незначащие вставки (интроны), а белок-кодирующие участки (экзоны) относительно коротки (в геноме человека в среднем 120 нуклеотидов, т. е. 40 кодонов; интроны раз в десять длиннее, а их среднее количество - 8-10 на ген) - см. врезку.

Тем не менее, оказывается, что, используя всю доступную статистическую информацию, можно пытаться строить распознающее правило. Каждая потенциальная цепочка экзонов оценивается функционалом, зависящим от статистики употребления кодонов, длин экзонов и интронов и т. п. Количество цепочек экспоненциально велико, однако существуют эффективные (квадратичные по длине последовательности) алгоритмы построения оптимальной цепочки, т. е. экзон-интронной структуры, некоторый целевой функционал 2. Хотя аннотация генов при помощи статистических распознающих правил является весьма приблизительной, она полезна для дальнейшей работы.

Более сильным подходом является сравнение последовательностей родственных генов из разных геномов. Дело в том, что осмысленные участки генома, в частности экзоны эволюционируют медленнее, чем бессмысленные 3, к которым относятся и интроны. Тем самым, сравнивая геномные последовательности и выделяя в них похожие участки можно наметить экзоны (это иллюстрирует врезка), а затем уточнить их границы статистическими методами.

Врезки

[i41323]


1 (обратно к тексту) - Более специальный обзор см. Гельфанд М. С. Компьютерный анализ последовательностей ДНК. Молекулярная биология. 1998, т. 32, № 1, с. 103-120. Там же приведены адреса серверов, осуществляющих геномный анализ (см. также www.eimb.relarn.ru/databases/append.htm).
2 (обратно к тексту) - В частности, алгоритм динамического программирования, описанный в статье Михаила Ройтберга в этом номере.
3 (обратно к тексту) - Вопрос о том, откуда берутся «бессмысленные» участки ДНК, и так ли уж они бессмысленны, на самом деле далеко не очевиден. До сих пор дискуссии по этому поводу носили в значительной степени схоластический характер. Можно надеяться, что сравнение полных геномов организмов, находящихся на разных эволюционных расстояниях друг от друга, позволит делать какие-то более содержательные выводы.

Страница 2>>

ТАКЖЕ В РАЗДЕЛЕ
04 ноября 2008 года
Все будет х….о! 
04 ноября 2008 года
Продолжение следует 
28 октября 2008 года
Танцы на игле 
28 октября 2008 года
Чудесный порошок 
 
САМОЕ ПОПУЛЯРНОЕ
Неделя после Fallout
Продажи новой игры из серии Fallout, разработанной студией Bethesda, идут очень неплохо - и это при том, что первый патч принёс игрокам кучу проблем, а японцы, оказалось, лишились части одного из квестов.
Тонкости анонимного серфинга в Сети
Сегодня мы будем учиться заметать следы. Правда, не настоящие, а виртуальные, всякий раз оставляемые пользователем при работе в Интернете и с большим удовольствием потребляемые всевозможными онлайновыми сервисами.
Диалоги с программистами. Часть 3: iPhone и бар на пляже
Сегодня в нашем распоряжении программист, который создает код для совершенно непрограммистского устройства - iPhone. Да, здесь есть свои особенности...
Нетбуки против Windows
Нетбукам нужна лёгкая операционная система. Windows Vista, определённо, такой не является. Windows XP давно морально устарела. Linux? Или всё-таки подождать выхода легковесной версии Windows 7?
/  бумажный номер

Тема номера: Кризис в ИТ Читайте на сайте тему номера "Кризис в ИТ" и другие статьи из журнала "Компьютерра" от 04 ноября 2008 года
  Архив номеров журнала

О проекте | Реклама на сайте | Рассылки сайта | КПК–версия | RSS-трансляция

© ООО «Компьютерра–Онлайн», 1997 — 2008.
При цитировании и использовании любых материалов ссылка на портал «Компьютерра–Онлайн» обязательна (для Интернет–изданий — www.computerra.ru)
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Редакция журнала: inform@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232–22–61, (495) 232–22–63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером «СПАМОРЕЗ»
Трилан — продвижение сайта,
поисковая оптимизация сайта

Сайт работает на сервере DEPO Computers
Rambler's Top100