Ученые Сбера и ВШЭ разработали систему, которая анализирует речь, интонацию и выражение лица одновременно. Новая технология на 10% точнее существующих аналогов и работает даже в сложных условиях — при шуме или плохом освещении.
Ученые Центра практического Искусственного Интеллекта Сбербанка и Высшей школы экономики создали уникальную систему распознавания эмоций, которая анализирует мимику, голос и речь одновременно. Технология объединяет временные сверточные сети (TCN) и трансформерные мультимодальные архитектуры, что позволяет точнее отслеживать изменения эмоций во времени. Система показывает рост точности более чем на 10% по сравнению с моделями, работающими только с изображением лиц. Разработка применима в бизнесе, безопасности и социальной сфере.
Научный директор Центра Андрей Савченко подчеркивает, что система делает взаимодействие человека и ИИ более естественным. Технология распознает не только базовые эмоции, но и их динамику в реальных условиях — при плохом освещении, шуме и других помехах.
«Мы научились не просто распознавать базовые эмоции, но и учитывать их динамику в реальных условиях — при разном освещении, фоновом шуме и других помехах. Это особенно важно для тех отраслей бизнеса, где понимание эмоций клиентов помогает повышать качество сервиса. Наша технология уже показывает отличные результаты в тестах, а в перспективе ее можно адаптировать для виртуальных ассистентов, систем безопасности и даже телемедицины. Главное преимущество — гибкость. Аудиовизуальная модель работает даже при недостаточных данных, например, когда не видно лицо или плохо слышно голос».
Андрей Савченко, научный директор Центра Практического Искусственного Интеллекта Сбербанка
Технология полезна для кол-центров, маркетинговых исследований, систем безопасности, образования и медицины. Ученые продолжают улучшать модель, чтобы сделать распознавание эмоций еще точнее и адаптивнее.