Определение последовательности полного генома представляет интерес постольку, поскольку оно дает возможность что-то сказать о биологии организма - его метаболизме, развитии, ответе на внешние стимулы, коммуникации между клетками многоклеточных организмов или отдельными особями одноклеточных. Большинство этих функций выполняются белками, поэтому основной задачей анализа генома является предсказание закодированных в нем белков и их функций, а также описание регуляторных участков в последовательностях, определяющих, какие белки будут присутствовать в клетке в тех или иных условиях 1.
Поиск генов
Итак, нам дана последовательность ДНК, а нужно узнать последовательность закодированного в ней белка. Если бы были известны стартовые позиции всех генов, то узнать последовательности белков было бы просто - еще в середине 60-х годов было установлено соответствие между тройками нуклеотидов (кодонами) и аминокислотами (см. рис.1). В процессе трансляции (см. рисунок на стр. 21) ген считывается по одному кодону (без перекрывания) и соответствующие аминокислоты присоединяются к синтезируемому белку.
Рис. 1. Таблица генетического кода: соответствие между тройками нуклеотидов - кодонами (левый столбцы) - и аминокислотами (правые столбцы). U в кодонах - то же самое, что Т.
|
|
|
|
|
UUU |
F |
UCU |
S |
UAU |
Y |
UGU |
C |
|
UUC |
F |
UCC |
S |
UAC |
Y |
UGC |
C |
|
UUA |
L |
UCA |
S |
UAA |
stop |
UGA |
stop |
|
UUG |
L |
UCG |
S |
UAG |
stop |
UGG |
W |
|
CUU |
L |
CCU |
P |
CAU |
H |
CGU |
R |
|
CUC |
L |
CCC |
P |
CAC |
H |
CGC |
R |
|
CUA |
L |
CCA |
P |
CAA |
Q |
CGA |
R |
|
CUG |
L |
CCG |
P |
CAG |
Q |
CGG |
R |
|
AUU |
I |
ACU |
T |
AAU |
N |
AGU |
S |
|
AUC |
I |
ACC |
T |
AAC |
N |
AGC |
S |
|
AUA |
I |
ACA |
T |
AAA |
K |
AGA |
R |
|
AUG |
M/start |
ACG |
T |
AAG |
K |
AGG |
R |
|
GUU |
V |
GCU |
A |
GCU |
D |
GGU |
G |
|
GUC |
V |
GCC |
A |
GCC |
D |
GGC |
G |
|
GUA |
V |
GCA |
A |
GCA |
E |
GGA |
G |
|
GUG |
V |
GCG |
A |
GCG |
E |
GGG |
G |
Три кодона (TAG, TGA, TAA) не кодируют аминокислот, а являются сигналами окончания трансляции, поэтому определить конец гена было бы несложно. Однако тройка ATG не только указывает на начало гена, но и встречается в середине, где кодирует аминокислоту метионин; вдобавок, она может встретиться и в случайном месте вне гена. Поэтому даже задача распознавания генов не тривиальна.
Самым простым способом распознавания генов является поиск протяженных открытых рамок считывания. От каждого потенциального стоп-кодона последовательность просматривается по три нуклеотида справа налево до тех пор, пока не встретится предыдущий стоп-кодон. Ясно, что гены могут лежать только внутри таких открытых рамок, поскольку стоп-кодон не может встретиться внутри гена. Тем самым проблема сводится к тому, чтобы отличить стартовые ATG от внутренних и располагающихся в межгенных промежутках. Оказывается, что имеется сигнал, который участвует в процессе узнавание стартовых кодонов. На рис. 2 приведено окружение стартовых кодонов нескольких генов, и желающие могут поупражняться в выделении этого сигналая.
Рис. 2. Приведены последовательности перед некоторыми генами сенной палочки Bacillus subtilis, выравненные по стартовому кодону ATG (три нуклеотида в конце каждого фрагмента, таким образом, последовательности самих генов не даны). Упражнение: обнаружить сигнал старта трансляции (в данном случае - короткое слово, появляющееся с небольшими изменениями на приблизительно одном и том же расстоянии перед ATG). Ответ см. в конце статьи.
|
dnaN |
ACATTATCCGTTAGGAGGATAAAAATG |
|
gyrA |
GTGATACTTCAGGGAGGTTTTTTAATG |
|
serS |
TCAATAAAAAAAGGAGTGTTTCGCATG |
|
bofA |
CAAGCGAAGGAGATGAGAAGATTCATG |
|
csfB |
GCTAACTGTACGGAGGTGGAGAAGATG |
|
xpaC |
ATAGACACAGGAGTCGATTATCTCATG |
|
metS |
ACATTCTGATTAGGAGGTTTCAAGATG |
|
gcaD |
AAAAGGGATATTGGAGGCCAATAAATG |
|
spoVC |
TATGTGACTAAGGGAGGATTCGCCATG |
|
ftsH |
GCTTACTGTGGGAGGAGGTAAGGAATG |
|
pabB |
AAAGAAAATAGAGGAATGATACAAATG |
|
rplJ |
CAAGAATCTACAGGAGGTGTAACCATG |
|
tufA |
AAAGCTCTTAAGGAGGATTTTAGAATG |
|
rpsJ |
TGTAGGCGAAAAGGAGGGAAAATAATG |
|
rpoA |
CGTTTTGAAGGAGGGTTTTAAGTAATG |
|
rplM |
AGATCATTTAGGAGGGGAAATTCAATG |
|
feuA |
TCAATTGAACAGGAGGCTCTATAGATG |
|
adaA |
GCATTGTAAGGAGAGGTGAGATAAATG |
|
purT |
TTGGAACAGATAGGAGGGGCAAAGATG |
|
mpr |
ACACTAAAGGAGGGAGATGACAAAATG |
|
lipA |
TTGTTACAAAAAAAGGAGGATATTATG |
|
opuAA |
GATTGCTTAATATGGAGGGAAAATATG |
На рис. 2 были подобраны хорошие примеры. На самом деле обычно сигнал выражен слабее и абсолютно надежного правила для определения стартовых кодонов сформулировать не удается. Однако оказывается, что есть и другие соображения, которые можно использовать при распознавании. В частности, статистические свойства белок-кодирующих областей отличают их от некодирующих. Для этого есть две основные причины. Во-первых, аминокислоты встречаются в белках с различной частотой, что отражается на частотах кодонов. Более того, частоты синонимичных кодонов тоже различаются, причем эти различия являются свойством всего генома, а не отдельных генов.
Однако эти соображения, хорошо работающие при анализе бактериальных геномов, не срабатывают в случае с геномами многоклеточных организмов. Дело в том, что гены этих организмов содержат незначащие вставки (интроны), а белок-кодирующие участки (экзоны) относительно коротки (в геноме человека в среднем 120 нуклеотидов, т. е. 40 кодонов; интроны раз в десять длиннее, а их среднее количество - 8-10 на ген) - см. врезку.
Тем не менее, оказывается, что, используя всю доступную статистическую информацию, можно пытаться строить распознающее правило. Каждая потенциальная цепочка экзонов оценивается функционалом, зависящим от статистики употребления кодонов, длин экзонов и интронов и т. п. Количество цепочек экспоненциально велико, однако существуют эффективные (квадратичные по длине последовательности) алгоритмы построения оптимальной цепочки, т. е. экзон-интронной структуры, некоторый целевой функционал 2. Хотя аннотация генов при помощи статистических распознающих правил является весьма приблизительной, она полезна для дальнейшей работы.
Более сильным подходом является сравнение последовательностей родственных генов из разных геномов. Дело в том, что осмысленные участки генома, в частности экзоны эволюционируют медленнее, чем бессмысленные 3, к которым относятся и интроны. Тем самым, сравнивая геномные последовательности и выделяя в них похожие участки можно наметить экзоны (это иллюстрирует врезка), а затем уточнить их границы статистическими методами.
Врезки
[i41323]
1 (обратно к тексту) - Более специальный обзор см. Гельфанд М. С. Компьютерный анализ последовательностей ДНК. Молекулярная биология. 1998, т. 32, № 1, с. 103-120. Там же приведены адреса серверов, осуществляющих геномный анализ (см. также www.eimb.relarn.ru/databases/append.htm).
2 (обратно к тексту) - В частности, алгоритм динамического программирования, описанный в статье Михаила Ройтберга в этом номере.
3 (обратно к тексту) - Вопрос о том, откуда берутся «бессмысленные» участки ДНК, и так ли уж они бессмысленны, на самом деле далеко не очевиден. До сих пор дискуссии по этому поводу носили в значительной степени схоластический характер. Можно надеяться, что сравнение полных геномов организмов, находящихся на разных эволюционных расстояниях друг от друга, позволит делать какие-то более содержательные выводы.Страница 2>>