В России создали модели перевода устных формул в письменную математическую запись

Компьютерра 27 апреля 2026 10:00

На чтение: 2 минуты

Нравится:

Российские ученые из Института AIRI, Университета Иннополис, МТУСИ, НИУ ВШЭ и МГУ представили на конференции ICLR 2026 в Бразилии решение для задачи Speech-to-LaTeX — преобразования устно произнесенных математических выражений в структурированную текстовую запись.

Разработанный подход позволяет пользователю надиктовать формулу или предложение с математическими конструкциями и получить на выходе текст в формате LaTeX, который является стандартом для научных статей, учебных материалов и редакторов вроде Overleaf.

Задача распознавания математической речи считается более сложной, чем транскрипция обычной речи, из-за вложенных конструкций, неоднозначности формулировок и сильной зависимости от контекста.

Одной из главных проблем в этой области было отсутствие качественных открытых данных для обучения ИИ. Ученые сформировали собственный публичный датасет, включивший более 66 тысяч аудиозаписей, сделанных людьми, и 571 тысячу синтетических записей. В набор также вошло около 12 тысяч уникальных математических предложений и 10,7 тысяч отдельных уравнений на русском и английском языках.

Для сбора живых записей использовалась платформа краудсорсинговой разметки, а синтетические данные позволили расширить выборку и повысить устойчивость моделей к разным голосам, акцентам и особенностям произношения.

В ходе работы ученые сравнили два метода решения задачи. ASR post-correction: сначала аудио переводится в обычный текст стандартной системой распознавания речи, затем большая языковая модель исправляет этот результат, превращая его в корректный LaTeX. End-to-end Audio-LLM: единая модель обучена работать напрямую с аудиосигналом и сразу выдавать готовую формулу без промежуточного текста.

Второй подход показал лучшую точность, но требует значительно больше вычислительных ресурсов и крупных моделей. Поэтому практическим компромиссом исследователи считают первый подход с языковыми моделями объемом около 0,5–1,5 миллиарда параметров.

«Наш датасет может быть полезен исследовательскому и профессиональному сообществу далеко не только для задачи Speech-to-LaTeX. Благодаря своему составу и качеству разметки он может использоваться в самых разных задачах, включая автоматическое распознавание речи, определение языка, голосовую биометрию, защиту от подделки голоса и другие направления, где важно анализировать аудиосигнал и речевые особенности».

Дмитрий Корж, научный сотрудник группы «Доверенные и безопасные интеллектуальные системы» Института AIRI

Код решения доступен на GitHub, а сам датасет — по ссылке.

Подписывайтесь на наш Telegram Читать