Ученые ННГУ создали алгоритм машинного обучения, способный с высокой точностью выявлять состояние тревоги по акустическим характеристикам речи. Пилотное исследование, поддержанное РНФ, показало, что модель на основе мел-частотных кепстральных коэффициентов (MFCC) различает стрессовые и нейтральные состояния в 91,9% случаев.

В основе исследования лежит предположение, что стресс, активируя вегетативную нервную систему, влияет на мышечный тонус и частоту дыхания, что проявляется в изменениях высоты тона, громкости, тембра и ритма речи. Для анализа этих изменений ученые применили конвейер машинного обучения на базе мел-частотных кепстральных коэффициентов (MFCC), которые компактно описывают спектральные характеристики речи, устойчивы к шуму и эффективны на небольших выборках.
В пилотном эксперименте приняли участие десять студентов кафедры. Каждый из них готовил фрагмент научной презентации и записывал его в двух условиях: публично — выступая перед комиссией и коллегами, и приватно — в тихом кабинете без слушателей. Все аудиозаписи были стандартизированы и разбиты на пятисекундные сегменты, что позволило получить 565 фрагментов речи в спокойном состоянии и 569 — в стрессовом.
На основе извлеченных MFCC-признаков был обучен классификатор Gradient Boosting. Модель продемонстрировала способность различать речь в состоянии стресса и без него с точностью 91,9%. Из 110 фрагментов спокойной речи классификатор верно определил 102, а из 111 фрагментов речи в стрессе — 101.
В планах исследовательской группы — расширение выборки, валидация моделей, добавление новых акустических признаков и внедрение более сложных архитектур для адаптации технологии к реальным условиям. Результаты исследования опубликованы на платформе Springer Nature Link.
Читайте также: «В России разработана универсальная ИИ-система для анализа медицинских снимков».