Новый бенчмарк выявил слабые места современных ИИ-моделей для дизайна белковых молекул

Ученые из Института AIRI, НИУ ВШЭ и Constructor University представили новый бенчмарк GeomMotif, предназначенный для оценки способности ИИ-моделей достраивать белковую структуру вокруг заданного фрагмента, сохраняя его точную трехмерную форму. Главное отличие GeomMotif от существующих аналогов заключается в том, что он оценивает модели не по биологической функции фрагментов, а на основе их геометрических и физико-химических свойств.

Новый бенчмарк выявил слабые места современных ИИ-моделей для дизайна белковых молекул

Такой подход важен, поскольку именно геометрия является связующим звеном между аминокислотной последовательностью и функцией белка: отклонение всего в один ангстрем может свести к нулю вероятность успешного синтеза. Для создания бенчмарка использовались экспериментальные структуры высокого качества из базы Protein Data Bank, прошедшие проверку на воспроизводимость вычислительными методами, что гарантирует реалистичность и решаемость всех задач.

Всего в GeomMotif представлена 51 задача, выстроенная по нарастающей сложности: от одного непрерывного фрагмента до двух пространственно разделенных мотивов, требующих учета дальних взаимосвязей внутри будущего белка. Исследователи протестировали десять генеративных моделей, разделив их на два типа: структурные модели, работающие непосредственно с трехмерной конфигурацией белка (RFdiffusion, Genie2, La-Proteina и другие), и модели, генерирующие аминокислотную последовательность с последующим предсказанием формы (ESM3, DPLM). Лидерами оказались структурные модели Genie2, La-Proteina и RFdiffusion, в то время как модели последовательностей уступили им более чем на порядок, что указывает на принципиальные ограничения такого подхода при необходимости сохранять дальние геометрические связи.

Тестирование показало, что существующие бенчмарки с функциональными участками лидирующие модели проходят почти полностью, тогда как на GeomMotif лучшая из них набирает лишь 40 баллов из 100. Самыми сложными для всех систем оказались задачи с двумя участками и большим числом фрагментов, причем результаты сильно зависели от биофизических свойств мотива и его окружения, что позволило выявить различные сильные и слабые стороны у каждой модели. В дальнейшем авторы планируют ускорить систему проверки результатов и расширить бенчмарк на полноатомные модели, учитывающие все атомы белка, а не только его остов.

Данные для бенчмаркинга, скрипты для построения задач и код для оценки доступны на GitHub и HuggingFace.

Что будем искать? Например,ChatGPT

Мы в социальных сетях