DATA_SECRETS Telegram 7907
Новый датасет T-ECD для екома

Т выкатили не просто датасет, а крупнейший кросс-доменный набор для развития рексистем

– Основной T-ECD: более 135 млрд взаимодействий, на основе синтезированных данных 44 млн пользователей, 30 млн товаров и 1,2 млн брендов. Сборка данных глубиной от 1 до 3,5 лет — доступны краткосрочные и долгосрочные пользовательские истории

– Домены: Marketplace, Retail, Payments, Offers и Reviews.

– Рекомендательные задачи: подходит для next-item, next-basket, session-based, топ-N и других

– Версии: полный датасет и T-ECD Small на 5 млрд событий, а также облегчённый набор на 1 млрд взаимодействий для быстрых экспериментов.

Почти все доступные датасеты для исследований моно-доменные и маленькие, а Т-ECD первый по-настоящему кросс-доменный датасет такого масштаба. Он универсален — можно использовать как целиком, так и по доменам, а еще подходит для разных подходов: от базовой коллаборативной фильтрации до графовых рекомендаций.

Всё это уже доступно на Hugging Face.

UPD: Марина Ананьева руководитель направления рекомендательных систем в Т-Банке рассказала, как готовятся такие датасеты:

Для каждого синтетического идентификатора пользователя и синтетических ID атеймов генерируется цепочка взаимодействий (покупка, просмотр, клик и тд), похожая на паттерны поведения групп пользователей. В базовом варианте это делается через сэмплирование, подмешивающее шум разных типов - несуществующие взаимодействия, прореживание существующих подпоследовательностей, перестановка местами и др.
При этом задаются несуществующие временные метки, которые могут нарушать и последовательность действий. Названия и категории реальных каталогов товаров и сервисов тоже не используем. Условно, генерим цепочку - что пользователь купил шоколадку, потапал по печенькам, и на какую-то из них активировал кэшбэк в какие-то моменты времени. Т.е. это синтетические цепочки событий, но ценность в сохранении паттернов поведения групп пользователей и их предпочтений
17925🔥23👍98🤯3😁2🤔1



tgoop.com/data_secrets/7907
Create:
Last Update:

Новый датасет T-ECD для екома

Т выкатили не просто датасет, а крупнейший кросс-доменный набор для развития рексистем

– Основной T-ECD: более 135 млрд взаимодействий, на основе синтезированных данных 44 млн пользователей, 30 млн товаров и 1,2 млн брендов. Сборка данных глубиной от 1 до 3,5 лет — доступны краткосрочные и долгосрочные пользовательские истории

– Домены: Marketplace, Retail, Payments, Offers и Reviews.

– Рекомендательные задачи: подходит для next-item, next-basket, session-based, топ-N и других

– Версии: полный датасет и T-ECD Small на 5 млрд событий, а также облегчённый набор на 1 млрд взаимодействий для быстрых экспериментов.

Почти все доступные датасеты для исследований моно-доменные и маленькие, а Т-ECD первый по-настоящему кросс-доменный датасет такого масштаба. Он универсален — можно использовать как целиком, так и по доменам, а еще подходит для разных подходов: от базовой коллаборативной фильтрации до графовых рекомендаций.

Всё это уже доступно на Hugging Face.

UPD: Марина Ананьева руководитель направления рекомендательных систем в Т-Банке рассказала, как готовятся такие датасеты:

Для каждого синтетического идентификатора пользователя и синтетических ID атеймов генерируется цепочка взаимодействий (покупка, просмотр, клик и тд), похожая на паттерны поведения групп пользователей. В базовом варианте это делается через сэмплирование, подмешивающее шум разных типов - несуществующие взаимодействия, прореживание существующих подпоследовательностей, перестановка местами и др.
При этом задаются несуществующие временные метки, которые могут нарушать и последовательность действий. Названия и категории реальных каталогов товаров и сервисов тоже не используем. Условно, генерим цепочку - что пользователь купил шоколадку, потапал по печенькам, и на какую-то из них активировал кэшбэк в какие-то моменты времени. Т.е. это синтетические цепочки событий, но ценность в сохранении паттернов поведения групп пользователей и их предпочтений

BY Data Secrets




Share with your friend now:
tgoop.com/data_secrets/7907

View MORE
Open in Telegram


Telegram News

Date: |

It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. Channel login must contain 5-32 characters As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram.
from us


Telegram Data Secrets
FROM American