Сотрудники Университета Иннополис представили мультимодальную модель искусственного интеллекта «ЛогитГейз-Мед» (LogitGaze-Med). Ее задача — предсказывать, на какие именно области рентгеновского снимка будет смотреть врач-рентгенолог при поиске конкретных патологий, таких как пневмония или признаки сердечной недостаточности.

В отличие от существующих аналогов, которые часто ориентируются только на наиболее заметные участки изображения, новая модель учитывает клинический контекст. Она связывает пиксели не с яркостью областей, а с их медицинским смыслом — анатомическими структурами, затемнениями, контурами органов. Для этого исследователи впервые применили в медицинской визуализации метод «логит-линзы» к модели, обученной на биомедицинских данных, что позволило извлекать из фрагментов снимка понятные семантические описания («кость», «сердце», «затемнение»).
Модель генерирует так называемые синтетические траектории взгляда — последовательность фиксаций с указанием координат и длительности внимания. При слепой экспертной оценке практикующий рентгенолог поставил этим траекториям 4,3 балла из 5 за визуальный реализм и 4,2 балла за клиническую значимость. При этом специалист смог отличить сгенерированные траектории от реальных только в 58% случаев.
В экспериментальном тестировании использование «ЛогитГейз-Мед» позволило улучшить качество предсказания движений глаз врача на 20–30% по сравнению с аналогами. Кроме того, применение синтетических траекторий взгляда в качестве дополнительной информации для обучающегося классификатора повысило точность автоматического распознавания сердечной недостаточности и пневмонии более чем на 5% при работе с общедоступной базой медицинских снимков грудной клетки.

По словам руководителя лаборатории Ильи Першина, разработка решает проблему нехватки реальных данных о движении глаз врачей. Генерация реалистичных траекторий может быть использована для обучения молодых специалистов (симуляторы, повторяющие логику эксперта), а также для создания ИИ-систем поддержки принятия решений, которые в реальном времени направляют внимание врача на потенциально проблемные зоны. Кроме того, предсказание взгляда делает работу медицинского ИИ более интерпретируемой для человека, что укрепляет доверие к технологиям. Авторы отмечают, что для масштабирования и внедрения модели потребуется дополнительная валидация в разных клинических учреждениях.