В России создали эталон оценки качества работы химических языковых моделей

Ученые из Института AIRI представили новый инструмент для оценки эффективности нейросетевых языковых моделей в решении практических задач, с которыми сталкиваются химики.

В России создали эталон оценки качества работы химических языковых моделей

В основе исследования лежит специализированный бенчмарк, составленный из комбинаций базовых химических задач. Он включает такие этапы, как определение продуктов химических реакций, предсказание их свойств и генерация описаний молекул на основе формул. Каждая такая цепочка моделирует типичную последовательность действий химика: например, сначала требуется определить продукт реакции, а затем оценить, обладает ли он целевым свойством, таким как биоактивность.

Такой подход позволяет оценить, насколько модели способны справляться со сложными, многоступенчатыми задачами, характерными для процессов разработки новых лекарств или катализаторов.

Бенчмарк был создан на основе пересечения существующих наборов данных о реакциях и свойствах молекул, что обеспечило его информативность. В ходе оценки тестировались различные современные языковые модели — как универсальные, так и специализированные, адаптированные для химии.

Результаты показали, что универсальные модели часто демонстрируют содержательные и логичные ответы, однако по формальным автоматическим метрикам могут уступать более узкоспециализированным аналогам.

В то же время профильные модели, хотя и выдают точные ответы в рамках своей области, по объективным метрикам пока не достигают необходимого уровня качества. Разработка таких инструментов оценки важна для создания более эффективных моделей, которые в перспективе смогут ускорить, например, процесс разработки новых лекарственных препаратов.

«Наш бенчмарк призван помочь разработчикам языковых моделей лучше понимать архитектурные ограничения нейросетей. Он может стать основой для дальнейших исследований в области автоматизации химических рассуждений».

Кузьма Храбров, научный сотрудник Группы органической химии центра ИИ-разработки лекарственных препаратов AIDD Института AIRI

Работа будет представлена на конференции EMNLP 2025 (A*).

Что будем искать? Например,ChatGPT

Мы в социальных сетях