Центр искусственного интеллекта «Т-Технологии» выложил в открытый доступ один из крупнейших в мире для сферы электронной коммерции датасет T-ECD. Набор данных содержит анонимизированную информацию о 135 миллиардах взаимодействий 44 млн пользователей и 30 млн товаров.

Датасет T-ECD создан на основе анонимизированных данных о действиях 44 миллионов уникальных пользователей сервисов «Город: Шопинг» и «Супермаркеты», а также рекламной платформы Т-Банка. Он содержит информацию о 30 миллионах товаров и включает более 135 миллиардов взаимодействий.
Особенностью T-ECD является его кросс-доменная структура, объединяющая пять типов данных: историю покупок, чеки, отзывы, взаимодействия с рекомендациями товаров различного назначения, а также данные об активации специальных предложений. Все источники информации полностью анонимизированы и могут использоваться как независимо, так и комплексно.
Период сбора данных составляет от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные поведенческие паттерны. Датасет включает признаки пользователей и товаров, явную и неявную обратную связь, что делает его универсальным инструментом для исследований — от методов коллаборативной фильтрации до сложных контекстных и графовых подходов. В отличие от многих академических наборов данных, T-ECD содержит не только данные о действиях пользователей, но и сведения о показах товаров, включая источник показа — поиск, каталог или рекомендательная система. Это позволяет точнее оценивать влияние рекомендаций и моделировать пользовательское поведение.
« Датасет T-ECD может стать одним из новых бенчмарков и принести ценность ML-сообществу для улучшения качества персонализации и клиентского опыта реальных пользователей. Похожий набор данных используется для развития наших внутренних продуктов и сервисов, создания сложных рекомендательных систем с обновлением в режиме реального времени и адаптацией под клиентов для персонализации кэшбэков, товарных рекомендаций и повышения эффективности рекламной платформы и других сервисов экосистемы Т-Технологий».
Марина Ананьева, руководитель направления рекомендательных систем в Т-Банке
Публикация T-ECD направлена на решение проблемы актуальности данных для исследований в области рекомендательных систем. Использование реальных данных современного формата позволяет повысить достоверность результатов тестирования алгоритмов машинного обучения.
