tgoop.com/eboutdatascience/12
Last Update:
+1 Выигранный Хакатон
😎
Наша команда заняла второе место на хакатоне ZakupkiHack. Я выступал в качестве капитана-MLщика, и это была далеко не самая лёгкая задача. Два с половиной дня написания кода и одна бессоная ночь дали свои плоды, и у нас получилось сделать достойное решение.
Задача 🤔
Сделать анализ рынка для поставщика, который вводит описание интересующего его товара. Например, мне интересны "игрушки для детей от трёх лет", и алгоритм делает аналитику на основе похожих товаров.
Что было дано 🗂
Датасет из позиций закупок, грубо говоря, были даны покупки определённого товара. В эту закупку входила цена, страна, описание и категория товара.
Решение 📊
1. Почистили мега вонючий датасет от мусора💩
2. Распарсили текст и провели лемматизацию (это штука переводит слово в изначальное состояние: слово красивейший в красивый )
сделали из них эмбеддинги (вектора (для самых маленьких - это циферки) , которые передают определённую информацию о словах). 🧮
3. С помощью расчёта угла косинуса между описанием, который нам дал поставщик, желающий получить аналитику, и всеми описаниями, которые у нас были в тексте. Подсчитанный угол косинуса показывает насколько близки вектора друг другу, другими словами, насколько сильно описания сходятся, тем самым отобрали топ похожих описаний из изначального датасета
4. По итогу построили графики, которые показывают место нашего поставщика среди конкурентов, конкуренцию на рынке, а также анализ по странам 📈
Проблемы 🫠
1. Там было много редких слов, которые было очень сложно обработать. Из-за их редкости алгоритму было очень сложно понять, что мы вообще от него хотим, да даже человеку порой сложно догадаться до этого.
Вот представьте, что у вас просят шиберную задвижку DN 500, я бы ударил этого человека, который меня это попросил 🤡
2. Мы выдаём определённое количество подходящих товаров, то есть мы можем выдать товары, которые не подходят его запросу, или выдать не все запросы
Итог:
Много вкусной еды на фуршете.... 🥴
Ну и конечно же второе место с проектом, который не стыдно показать работодателем. Также познакомился со многими интересными людьми и возможно нашёл работу🤫
GitHub с проектом
#События
BY Ebout Data Science | Дима Савелко

Share with your friend now:
tgoop.com/eboutdatascience/12