В Новосибирском государственном университете запустили пилотный проект по автоматическому созданию аудиоверсий книг. Сервиспереводит в звуковой формат издания из оцифрованной части фонда Научной библиотеки. В случае успешной апробации технологию планируют предлагать другим библиотекам.

На текущем этапе в аудиоформат переводятся книги университетского издательства и материалы из электронной библиотеки, на что получено разрешение правообладателей. Всего речь идет примерно о семи тысячах наименований.
Процесс озвучивания полностью автоматизирован: нейросеть извлекает текст из PDF-файлов, обрабатывает его и генерирует звуковую дорожку. Как пояснил ведущий научный сотрудник Центра искусственного интеллекта НГУ Евгений Павловский, в перспективе планируется перевести в аудиоформат все издания из электронной библиотеки университета. При этом создание «говорящих» книг не рассматривается как замена традиционному чтению, а позиционируется как альтернативный способ доступа к информации. Разработчики не ставят целью создание художественной озвучки с интонациями, а делают акцент на массовости и доступности технологии. По словам Павловского, решение не требует больших вычислительных мощностей: обработка одной книги занимает около получаса на 16-ядерном процессоре без использования видеокарты.
Инструментом для реализации проекта стал фреймворк «Каппа», разработанный в Центре ИИ НГУ. Эта платформа позволяет управлять наборами данных и моделями искусственного интеллекта, а также тестировать их для минимизации ошибок, включая так называемые «галлюцинации» нейросетей. В данном случае «Каппа» используется для подготовки обучающих данных и сбора обратной связи о качестве готовых аудиозаписей.
В пилотном режиме уже озвучено около ста книг. Сейчас разработчики ожидают отзывов от библиотеки и первых слушателей. В университете подчеркивают, что проект носит технологический характер. После отработки всех процессов и механизмов взаимодействия с библиотекой сервис может быть предложен другим университетам и публичным библиотекам, например, через партнерскую платформу.
По оценке специалистов, чисто технически озвучить весь существующий фонд можно в течение месяца, однако с учетом организационных вопросов и необходимости верификации результатов этот процесс может занять до года.