Яндекс опубликовал в открытый доступ Yambda (YAndex Music Billion-interactions DAtaset) — масштабный датасет для разработки и улучшения рекомендательных алгоритмов. Теперь ученые, исследователи и университеты со всего мира смогут тестировать и совершенствовать свои модели.
Датасет Yambda для обучения ИИ-рекомендаций создан на основе анонимных данных Яндекс Музыки и содержит миллиарды прослушиваний, лайков, дизлайков и метаданных треков. Вся пользовательская информация обезличена — набор данных содержит исключительно числовые идентификаторы, что гарантирует конфиденциальность.
Датасет доступен в трех вариантах: полная версия (5 миллиардов взаимодействий), а также уменьшенные версии на 500 и 50 миллионов записей. Это позволяет разработчикам выбирать подходящий объем данных в зависимости от вычислительных ресурсов. Все материалы, включая код для анализа, размещены на платформе HuggingFace.
Александр Плошкин, руководитель направления по развитию персонализации в Яндексе, отмечает, что рекомендательные алгоритмы критически важны для сервисов — от интернет-магазинов до стриминговых платформ. Однако исследования в этой области часто ограничены из-за нехватки качественных и актуальных данных. Коммерческие компании редко делятся большими датасетами, что создает разрыв между наукой и практикой. Публикация Yambda призвана решить эту проблему, аналогично тому, как ImageNet когда-то ускорил развитие компьютерного зрения.
«Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых ученых, заинтересованных в применении машинного обучения для решения актуальных задач.
Александр Плошкин, руководитель направления по развитию качества персонализации в Яндексе
Яндекс Музыка — лидер российского рынка с 28 миллионами подписчиков в месяц. Ее рекомендательная система «Моя волна», по данным РОМИР, считается самой точной среди пользователей.