Создана ИИ-модель для выявления стресса по голосу

Ученые ННГУ создали алгоритм машинного обучения, способный с высокой точностью выявлять состояние тревоги по акустическим характеристикам речи. Пилотное исследование, поддержанное РНФ, показало, что модель на основе мел-частотных кепстральных коэффициентов (MFCC) различает стрессовые и нейтральные состояния в 91,9% случаев.

Российские ученые создали ИИ-модель для выявления стресса по голосу

В основе исследования лежит предположение, что стресс, активируя вегетативную нервную систему, влияет на мышечный тонус и частоту дыхания, что проявляется в изменениях высоты тона, громкости, тембра и ритма речи. Для анализа этих изменений ученые применили конвейер машинного обучения на базе мел-частотных кепстральных коэффициентов (MFCC), которые компактно описывают спектральные характеристики речи, устойчивы к шуму и эффективны на небольших выборках.

В пилотном эксперименте приняли участие десять студентов кафедры. Каждый из них готовил фрагмент научной презентации и записывал его в двух условиях: публично — выступая перед комиссией и коллегами, и приватно — в тихом кабинете без слушателей. Все аудиозаписи были стандартизированы и разбиты на пятисекундные сегменты, что позволило получить 565 фрагментов речи в спокойном состоянии и 569 — в стрессовом.

На основе извлеченных MFCC-признаков был обучен классификатор Gradient Boosting. Модель продемонстрировала способность различать речь в состоянии стресса и без него с точностью 91,9%. Из 110 фрагментов спокойной речи классификатор верно определил 102, а из 111 фрагментов речи в стрессе — 101.

В планах исследовательской группы — расширение выборки, валидация моделей, добавление новых акустических признаков и внедрение более сложных архитектур для адаптации технологии к реальным условиям. Результаты исследования опубликованы на платформе Springer Nature Link.

Читайте также: «В России разработана универсальная ИИ-система для анализа медицинских снимков».

Что будем искать? Например,ChatGPT

Мы в социальных сетях