В России разработана нейросетевая модель для аннотации генов в последовательностях ДНК

В России представлена новая нейросетевая система для аннотации геномов. Разработка, выполненная специалистами Института AIRI, предназначена для автоматического определения структуры генов в последовательностях ДНК.

В России разработана нейросетевая модель для аннотации генов в последовательностях ДНК
Источник

Суть метода заключается в том, что модель получает на вход неразмеченную цепочку ДНК и выделяет в ней функциональные участки: границы генов, их внутренние компоненты (экзоны и интроны) и типы транскриптов. Это позволяет систематизировать генетическую информацию, особенно для тех организмов, чьи геномы пока не имеют подробных биологических аннотаций.

Сначала алгоритмы определяют потенциальные стартовые и конечные точки генов на обеих цепях ДНК. Затем проверяется, действительно ли эти области соответствуют генам, уточняется их тип, после чего моделируется внутренняя структура. Завершающим шагом идет биоинформатическая фильтрация для отсеивания малодостоверных предсказаний.

Отличие нового подхода от традиционных методов — опора на машинное обучение и выявление закономерностей в самих последовательностях, а не только на жестко заданные правила, такие как поиск старт- и стоп-кодонов. Это делает систему более гибкой: она может работать не только с белок-кодирующими генами, но и с длинными некодирующими РНК, которые классическими инструментами обрабатываются хуже.

Особую значимость разработка имеет для немодельных организмов. На момент анализа, из более чем 4,5 тыс. геномных сборок млекопитающих в открытой базе NCBI лишь малая часть имела аннотации. Новая модель позволяет быстрее получать первичную карту генов для таких видов, что ускоряет подготовку данных для дальнейших исследований.

Обучение проводилось на геномах человека и еще 38 видов млекопитающих, однако система показала применимость и к организмам, не входившим в выборку — дрозофиле, резуховидке и дрожжам. Это свидетельствует о способности модели переносить выученные признаки на эволюционно отдаленные группы.

Также отмечается, что модель смогла выявить редкие регуляторные элементы — так называемые «ядовитые» экзоны, которые крайне редко присутствуют даже в качественных аннотациях. Это говорит о чувствительности системы к тонким биологическим сигналам.

Особое внимание в разработке уделено точности определения границ генов. В белок-кодирующих участках считывание идет триплетами, и смещение на один нуклеотид может полностью исказить смысл последовательности, поэтому корректное позиционирование является критически важным.

Как поясняют авторы проекта, современные темпы сборки новых геномов опережают возможности их ручной разметки, которая может занимать годы. Внедрение подобных моделей в качестве первичного аналитического инструмента позволит исследователям получать набор генов-кандидатов практически сразу после получения геномной сборки.

Что будем искать? Например,ChatGPT

Мы в социальных сетях