Ученые НовГУ разработали методику создания датасетов для нейросетей

В Новгородском государственном университете создали методическое пособие, которое поможет разработчикам правильно формировать датасеты для обучения нейросетей распознаванию эмоций по голосу. Авторы уверены, что их инструкции позволят избежать ошибок на этапе сбора и обработки данных.

В Новгородском государственном университете имени Ярослава Мудрого разработали методику создания датасетов для нейросетей. Это набор практических инструкций и рекомендаций, помогающих обучать нейросети распознавать эмоции по голосу. Как пояснил один из авторов методики Владислав Билев, для корректного обучения нейросетей необходима четко структурированная база данных.

«Сейчас, в «бум» нейросетей, многие энтузиасты делают хорошие продукты в сфере ИИ и распознавания. Однако допускают ошибки на стадии формирования датасета для таких программ. Ведь в этом деле много нюансов: технических, как соблюсти разные требования к исходным файлам, чтобы сеть верно по ним обучилась, финансовых — можно ли сэкономить при сборе данных из разных источников, юридических — как соблюсти авторские права, обеспечить конфиденциальность данных и так далее. Разработанные нами инструкции помогут избежать этих проблем и повысить качество разработок в сфере распознавания эмоций по голосу».

Владислав Билев, один из авторов разработки

Инструкции уже используются в университете в качестве обучающих пособий и будут полезны разработчикам русскоязычных программ. Основное преимущество методики — ее универсальность. С ее помощью можно создавать датасеты под разные задачи: от узкоспециализированных программ для людей с дефектами речи до масштабных баз данных для улучшения голосовых помощников.

Билев отметил, что большинство доступных на рынке датасетов либо представлены на иностранных языках, либо имеют недоработки. Разработка методики стала возможной благодаря грантовой поддержке Минобрнауки.

Что будем искать? Например,ChatGPT

Мы в социальных сетях