Rambler's Top100
 
 
  18 марта 2010 года Я здесь впервые! Компьюлента
CIO
Терралаб
Бизнес-журнал
iBusiness
большие новости | terralab | своя игра | интерактив | блоги | readitorial | голубятня | наука и жизнь
Аннотация геномов: от последовательности к функции
Автор: Михаил Гельфанд
Опубликовано в журнале "Компьютерра" №36 от 24 сентября 2001 года

Определение последовательности полного генома представляет интерес постольку, поскольку оно дает возможность что-то сказать о биологии организма - его метаболизме, развитии, ответе на внешние стимулы, коммуникации между клетками многоклеточных организмов или отдельными особями одноклеточных. Большинство этих функций выполняются белками, поэтому основной задачей анализа генома является предсказание закодированных в нем белков и их функций, а также описание регуляторных участков в последовательностях, определяющих, какие белки будут присутствовать в клетке в тех или иных условиях 1.

Поиск генов

Итак, нам дана последовательность ДНК, а нужно узнать последовательность закодированного в ней белка. Если бы были известны стартовые позиции всех генов, то узнать последовательности белков было бы просто - еще в середине 60-х годов было установлено соответствие между тройками нуклеотидов (кодонами) и аминокислотами (см. рис.1). В процессе трансляции (см. рисунок на стр. 21) ген считывается по одному кодону (без перекрывания) и соответствующие аминокислоты присоединяются к синтезируемому белку.

Рис. 1. Таблица генетического кода: соответствие между тройками нуклеотидов - кодонами (левый столбцы) - и аминокислотами (правые столбцы). U в кодонах - то же самое, что Т.


UUU

F

UCU

S

UAU

Y

UGU

C

UUC

F

UCC

S

UAC

Y

UGC

C

UUA

L

UCA

S

UAA

stop

UGA

stop

UUG

L

UCG

S

UAG

stop

UGG

W

CUU

L

CCU

P

CAU

H

CGU

R

CUC

L

CCC

P

CAC

H

CGC

R

CUA

L

CCA

P

CAA

Q

CGA

R

CUG

L

CCG

P

CAG

Q

CGG

R

AUU

I

ACU

T

AAU

N

AGU

S

AUC

I

ACC

T

AAC

N

AGC

S

AUA

I

ACA

T

AAA

K

AGA

R

AUG

M/start

ACG

T

AAG

K

AGG

R

GUU

V

GCU

A

GCU

D

GGU

G

GUC

V

GCC

A

GCC

D

GGC

G

GUA

V

GCA

A

GCA

E

GGA

G

GUG

V

GCG

A

GCG

E

GGG

G


Три кодона (TAG, TGA, TAA) не кодируют аминокислот, а являются сигналами окончания трансляции, поэтому определить конец гена было бы несложно. Однако тройка ATG не только указывает на начало гена, но и встречается в середине, где кодирует аминокислоту метионин; вдобавок, она может встретиться и в случайном месте вне гена. Поэтому даже задача распознавания генов не тривиальна.

Самым простым способом распознавания генов является поиск протяженных открытых рамок считывания. От каждого потенциального стоп-кодона последовательность просматривается по три нуклеотида справа налево до тех пор, пока не встретится предыдущий стоп-кодон. Ясно, что гены могут лежать только внутри таких открытых рамок, поскольку стоп-кодон не может встретиться внутри гена. Тем самым проблема сводится к тому, чтобы отличить стартовые ATG от внутренних и располагающихся в межгенных промежутках. Оказывается, что имеется сигнал, который участвует в процессе узнавание стартовых кодонов. На рис. 2 приведено окружение стартовых кодонов нескольких генов, и желающие могут поупражняться в выделении этого сигналая.

Рис. 2. Приведены последовательности перед некоторыми генами сенной палочки Bacillus subtilis, выравненные по стартовому кодону ATG (три нуклеотида в конце каждого фрагмента, таким образом, последовательности самих генов не даны). Упражнение: обнаружить сигнал старта трансляции (в данном случае - короткое слово, появляющееся с небольшими изменениями на приблизительно одном и том же расстоянии перед ATG). Ответ см. в конце статьи.


dnaN

ACATTATCCGTTAGGAGGATAAAAATG

gyrA

GTGATACTTCAGGGAGGTTTTTTAATG

serS

TCAATAAAAAAAGGAGTGTTTCGCATG

bofA

CAAGCGAAGGAGATGAGAAGATTCATG

csfB

GCTAACTGTACGGAGGTGGAGAAGATG

xpaC

ATAGACACAGGAGTCGATTATCTCATG

metS

ACATTCTGATTAGGAGGTTTCAAGATG

gcaD

AAAAGGGATATTGGAGGCCAATAAATG

spoVC

TATGTGACTAAGGGAGGATTCGCCATG

ftsH

GCTTACTGTGGGAGGAGGTAAGGAATG

pabB

AAAGAAAATAGAGGAATGATACAAATG

rplJ

CAAGAATCTACAGGAGGTGTAACCATG

tufA

AAAGCTCTTAAGGAGGATTTTAGAATG

rpsJ

TGTAGGCGAAAAGGAGGGAAAATAATG

rpoA

CGTTTTGAAGGAGGGTTTTAAGTAATG

rplM

AGATCATTTAGGAGGGGAAATTCAATG

feuA

TCAATTGAACAGGAGGCTCTATAGATG

adaA

GCATTGTAAGGAGAGGTGAGATAAATG

purT

TTGGAACAGATAGGAGGGGCAAAGATG

mpr

ACACTAAAGGAGGGAGATGACAAAATG

lipA

TTGTTACAAAAAAAGGAGGATATTATG

opuAA

GATTGCTTAATATGGAGGGAAAATATG


На рис. 2 были подобраны хорошие примеры. На самом деле обычно сигнал выражен слабее и абсолютно надежного правила для определения стартовых кодонов сформулировать не удается. Однако оказывается, что есть и другие соображения, которые можно использовать при распознавании. В частности, статистические свойства белок-кодирующих областей отличают их от некодирующих. Для этого есть две основные причины. Во-первых, аминокислоты встречаются в белках с различной частотой, что отражается на частотах кодонов. Более того, частоты синонимичных кодонов тоже различаются, причем эти различия являются свойством всего генома, а не отдельных генов.

Однако эти соображения, хорошо работающие при анализе бактериальных геномов, не срабатывают в случае с геномами многоклеточных организмов. Дело в том, что гены этих организмов содержат незначащие вставки (интроны), а белок-кодирующие участки (экзоны) относительно коротки (в геноме человека в среднем 120 нуклеотидов, т. е. 40 кодонов; интроны раз в десять длиннее, а их среднее количество - 8-10 на ген) - см. врезку.

Тем не менее, оказывается, что, используя всю доступную статистическую информацию, можно пытаться строить распознающее правило. Каждая потенциальная цепочка экзонов оценивается функционалом, зависящим от статистики употребления кодонов, длин экзонов и интронов и т. п. Количество цепочек экспоненциально велико, однако существуют эффективные (квадратичные по длине последовательности) алгоритмы построения оптимальной цепочки, т. е. экзон-интронной структуры, некоторый целевой функционал 2. Хотя аннотация генов при помощи статистических распознающих правил является весьма приблизительной, она полезна для дальнейшей работы.

Более сильным подходом является сравнение последовательностей родственных генов из разных геномов. Дело в том, что осмысленные участки генома, в частности экзоны эволюционируют медленнее, чем бессмысленные 3, к которым относятся и интроны. Тем самым, сравнивая геномные последовательности и выделяя в них похожие участки можно наметить экзоны (это иллюстрирует врезка), а затем уточнить их границы статистическими методами.

Врезки

[i41323]


1 (обратно к тексту) - Более специальный обзор см. Гельфанд М. С. Компьютерный анализ последовательностей ДНК. Молекулярная биология. 1998, т. 32, № 1, с. 103-120. Там же приведены адреса серверов, осуществляющих геномный анализ (см. также www.eimb.relarn.ru/databases/append.htm).
2 (обратно к тексту) - В частности, алгоритм динамического программирования, описанный в статье Михаила Ройтберга в этом номере.
3 (обратно к тексту) - Вопрос о том, откуда берутся «бессмысленные» участки ДНК, и так ли уж они бессмысленны, на самом деле далеко не очевиден. До сих пор дискуссии по этому поводу носили в значительной степени схоластический характер. Можно надеяться, что сравнение полных геномов организмов, находящихся на разных эволюционных расстояниях друг от друга, позволит делать какие-то более содержательные выводы.

Страница 2>>

ТАКЖЕ В РАЗДЕЛЕ
24 февраля 2009 года
Не отрываясь 
24 февраля 2009 года
Жилец вершин 
10 февраля 2009 года
Гаджеты, которых нет 
10 февраля 2009 года
Схватка 
10 февраля 2009 года
Список задач 
 
MARKETGID
Оптимизация ИТ-инфраструктуры для снижения затрат на ИТ. Семейство решений IBM Tivoli - оптимизация систем хранения данных при существенном росте их объема. Управление хранением и защита данных. Мониторинг системных ресурсов. Управление запросами, сделанными по телефону и через каталог.

Бизнес-образование в сфере информационных технологий
Школа IT-менеджмента АНХ представляет уникальные программы подготовки для IT-директоров и специалистов – МВА CIO и “IT-менеджер”. Открыт набор в весенние группы!

Новости партнеров
Загружается, подождите...
Результаты опросов

О проекте | Реклама на сайте | Рассылки сайта | КПК–версия

© ООО «Компьютерра–Онлайн», 1997 — 2010.
При цитировании и использовании любых материалов ссылка на портал «Компьютерра–Онлайн» обязательна (для Интернет–изданий — www.computerra.ru)
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232–22–61, (495) 232–22–63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером «СПАМОРЕЗ»
комплексный интернет маркетинг - ТриЛан
Сайт работает на сервере DEPO Computers
Rambler's Top100