tgoop.com/data_secrets/7907
Last Update:
Новый датасет T-ECD для екома
Т выкатили не просто датасет, а крупнейший кросс-доменный набор для развития рексистем
– Основной T-ECD: более 135 млрд взаимодействий, на основе синтезированных данных 44 млн пользователей, 30 млн товаров и 1,2 млн брендов. Сборка данных глубиной от 1 до 3,5 лет — доступны краткосрочные и долгосрочные пользовательские истории
– Домены: Marketplace, Retail, Payments, Offers и Reviews.
– Рекомендательные задачи: подходит для next-item, next-basket, session-based, топ-N и других
– Версии: полный датасет и T-ECD Small на 5 млрд событий, а также облегчённый набор на 1 млрд взаимодействий для быстрых экспериментов.
Почти все доступные датасеты для исследований моно-доменные и маленькие, а Т-ECD первый по-настоящему кросс-доменный датасет такого масштаба. Он универсален — можно использовать как целиком, так и по доменам, а еще подходит для разных подходов: от базовой коллаборативной фильтрации до графовых рекомендаций.
Всё это уже доступно на Hugging Face.
UPD: Марина Ананьева руководитель направления рекомендательных систем в Т-Банке рассказала, как готовятся такие датасеты:
Для каждого синтетического идентификатора пользователя и синтетических ID атеймов генерируется цепочка взаимодействий (покупка, просмотр, клик и тд), похожая на паттерны поведения групп пользователей. В базовом варианте это делается через сэмплирование, подмешивающее шум разных типов - несуществующие взаимодействия, прореживание существующих подпоследовательностей, перестановка местами и др.
При этом задаются несуществующие временные метки, которые могут нарушать и последовательность действий. Названия и категории реальных каталогов товаров и сервисов тоже не используем. Условно, генерим цепочку - что пользователь купил шоколадку, потапал по печенькам, и на какую-то из них активировал кэшбэк в какие-то моменты времени. Т.е. это синтетические цепочки событий, но ценность в сохранении паттернов поведения групп пользователей и их предпочтений
BY Data Secrets

Share with your friend now:
tgoop.com/data_secrets/7907