Российский датасет Yambda позволил ученым добиться ускорения в обучении рекомендательных алгоритмов в 60 раз

Исследователи из Амстердамского университета разработали метод, который позволяет ускорить обучение рекомендательных систем в десятки раз без потери качества. Ключевую роль в исследовании сыграл российский датасет Yambda — один из крупнейших в мире публичных наборов данных, включающий почти 5 миллиардов обезличенных событий из «Яндекс Музыки». Этот массив был открыт «Яндексом» в 2025 году и стал важным инструментом для тестирования ИИ-алгоритмов на реальных промышленных масштабах.

Работа посвящена улучшению модели SEATER, которая используется для подбора товаров, музыки и другого контента. В отличие от традиционных алгоритмов, SEATER организует все объекты в иерархический каталог, где похожие позиции группируются вместе. Это повышает скорость и точность рекомендаций, однако подготовка такого «дерева-каталога» раньше занимала до 20% времени обучения, что мешало быстро обновлять рекомендации в реальных продуктах.

Ученые предложили два более быстрых способа подготовки данных. Первый делает ставку на максимальную скорость и распределяет объекты по группам без тщательной подгонки. Второй сочетает быстрый начальный этап с точной доработкой внутри небольших кластеров. Новые методы проверили на нескольких наборах данных, включая отзывы Yelp и рекомендации Amazon, но наиболее впечатляющие результаты показало тестирование именно на российском датасете Yambda.

Благодаря огромному масштабу Yambda, потенциал новых алгоритмов раскрылся в полной мере. Быстрый метод сократил время подготовки данных с 82 минут до 83 секунд — ускорение почти в 60 раз — при практически неизменном качестве рекомендаций. Комбинированный подход ускорил процесс примерно в 15 раз и даже немного улучшил точность по сравнению с исходной версией модели. Кроме того, эксперимент подтвердил, что оба улучшенных метода превосходят популярные системы SASRec, BERT4Rec и GRU4Rec на 13–17% по точности.

Авторы отмечают, что работа с Yambda доказала практическую применимость генеративных рекомендательных систем на очень больших каталогах. Это особенно актуально для музыкальных сервисов, интернет-магазинов и новостных платформ, где важно быстро обновлять рекомендации для миллионов пользователей. Исследование также демонстрирует ценность открытых данных: Яндекс, открыв Yambda, предоставил сообществу уникальный инструмент для глобального прорыва в этой области. Весь код улучшенной модели SEATER выложен в открытый доступ и готов к использованию в реальных продуктах.

Подписывайтесь на наш Telegram Подписаться