Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/eboutdatascience/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Ebout Data Science | Дима Савелко@eboutdatascience P.33
EBOUTDATASCIENCE Telegram 33
Как мы просрали хакатон

Был хакатон TenderHack, и задача была предсказать два таргета: спад цены и количество участников в определённой торговой сессии 🧮
Кратко о решении:
1️⃣ Предобработали данные и сделали фичи
2️⃣ Сделал TF-IDF эмбеддинги на описании торговой сессии, затем уменьшил их размерность с UMAP и кластеризовал с помощью HDBSCAN (это проблема решения)
3️⃣ Добавил эти кластеры к фичам и классифицировал сессии на их статус (очень важная сессия)
4️⃣ Сделал две модели регрессии и предсказал таргеты

Проблема:
Если при условном миллионе моя модель работает, то при двух-трёх миллионах модель посылает меня нахуй🖕
Проблема в масштабируемости: TF-IDF имеет очень большую матрицу и обрабатывается большое количество времени
Мне понравилось, как ребята с первого места обработали текст. Они обработали его SBERT + LaBSE, что дало фиксированное количество признаков, учитывая английское описание слов. Но при этом их проблема была в том, что они не учитывали редкие слова, которые не были обучены ни SBERTом, ни LaBSE. Эту проблему можно победить правильным использованием или TF-IDF, или BM25. Ну это зависит от задачи 🫣

Итог:
Хак был крутой, самое главное, что я поел узнал много нового и познакомился с новыми и классными людьми. Главное старайтесь из любого события находить что-то полезное и позитивное для себя 😇
Гитхаб на решение

#DataScience
😁42😭1



tgoop.com/eboutdatascience/33
Create:
Last Update:

Как мы просрали хакатон

Был хакатон TenderHack, и задача была предсказать два таргета: спад цены и количество участников в определённой торговой сессии 🧮
Кратко о решении:
1️⃣ Предобработали данные и сделали фичи
2️⃣ Сделал TF-IDF эмбеддинги на описании торговой сессии, затем уменьшил их размерность с UMAP и кластеризовал с помощью HDBSCAN (это проблема решения)
3️⃣ Добавил эти кластеры к фичам и классифицировал сессии на их статус (очень важная сессия)
4️⃣ Сделал две модели регрессии и предсказал таргеты

Проблема:
Если при условном миллионе моя модель работает, то при двух-трёх миллионах модель посылает меня нахуй🖕
Проблема в масштабируемости: TF-IDF имеет очень большую матрицу и обрабатывается большое количество времени
Мне понравилось, как ребята с первого места обработали текст. Они обработали его SBERT + LaBSE, что дало фиксированное количество признаков, учитывая английское описание слов. Но при этом их проблема была в том, что они не учитывали редкие слова, которые не были обучены ни SBERTом, ни LaBSE. Эту проблему можно победить правильным использованием или TF-IDF, или BM25. Ну это зависит от задачи 🫣

Итог:
Хак был крутой, самое главное, что я поел узнал много нового и познакомился с новыми и классными людьми. Главное старайтесь из любого события находить что-то полезное и позитивное для себя 😇
Гитхаб на решение

#DataScience

BY Ebout Data Science | Дима Савелко




Share with your friend now:
tgoop.com/eboutdatascience/33

View MORE
Open in Telegram


Telegram News

Date: |

As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. How to create a business channel on Telegram? (Tutorial) Healing through screaming therapy For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS):
from us


Telegram Ebout Data Science | Дима Савелко
FROM American