EBOUTDATASCIENCE Telegram 12
+1 Выигранный Хакатон 😎

Наша команда заняла второе место на хакатоне ZakupkiHack. Я выступал в качестве капитана-MLщика, и это была далеко не самая лёгкая задача. Два с половиной дня написания кода и одна бессоная ночь дали свои плоды, и у нас получилось сделать достойное решение.

Задача
🤔
Сделать анализ рынка для поставщика, который вводит описание интересующего его товара. Например, мне интересны "игрушки для детей от трёх лет", и алгоритм делает аналитику на основе похожих товаров.

Что было дано 🗂
Датасет из позиций закупок, грубо говоря, были даны покупки определённого товара. В эту закупку входила цена, страна, описание и категория товара.

Решение 📊
1. Почистили мега вонючий датасет от мусора💩
2. Распарсили текст и провели лемматизацию (это штука переводит слово в изначальное состояние: слово красивейший в красивый )
сделали из них эмбеддинги (вектора (для самых маленьких - это циферки) , которые передают определённую информацию о словах). 🧮
3. С помощью расчёта угла косинуса между описанием, который нам дал поставщик, желающий получить аналитику, и всеми описаниями, которые у нас были в тексте. Подсчитанный угол косинуса показывает насколько близки вектора друг другу, другими словами, насколько сильно описания сходятся, тем самым отобрали топ похожих описаний из изначального датасета
4. По итогу построили графики, которые показывают место нашего поставщика среди конкурентов, конкуренцию на рынке, а также анализ по странам 📈

Проблемы 🫠
1. Там было много редких слов, которые было очень сложно обработать. Из-за их редкости алгоритму было очень сложно понять, что мы вообще от него хотим, да даже человеку порой сложно догадаться до этого.
Вот представьте, что у вас просят шиберную задвижку DN 500, я бы ударил этого человека, который меня это попросил 🤡
2. Мы выдаём определённое количество подходящих товаров, то есть мы можем выдать товары, которые не подходят его запросу, или выдать не все запросы

Итог:
Много вкусной еды на фуршете.... 🥴
Ну и конечно же второе место с проектом, который не стыдно показать работодателем. Также познакомился со многими интересными людьми и возможно нашёл работу🤫

GitHub с проектом

#События



tgoop.com/eboutdatascience/12
Create:
Last Update:

+1 Выигранный Хакатон 😎

Наша команда заняла второе место на хакатоне ZakupkiHack. Я выступал в качестве капитана-MLщика, и это была далеко не самая лёгкая задача. Два с половиной дня написания кода и одна бессоная ночь дали свои плоды, и у нас получилось сделать достойное решение.

Задача
🤔
Сделать анализ рынка для поставщика, который вводит описание интересующего его товара. Например, мне интересны "игрушки для детей от трёх лет", и алгоритм делает аналитику на основе похожих товаров.

Что было дано 🗂
Датасет из позиций закупок, грубо говоря, были даны покупки определённого товара. В эту закупку входила цена, страна, описание и категория товара.

Решение 📊
1. Почистили мега вонючий датасет от мусора💩
2. Распарсили текст и провели лемматизацию (это штука переводит слово в изначальное состояние: слово красивейший в красивый )
сделали из них эмбеддинги (вектора (для самых маленьких - это циферки) , которые передают определённую информацию о словах). 🧮
3. С помощью расчёта угла косинуса между описанием, который нам дал поставщик, желающий получить аналитику, и всеми описаниями, которые у нас были в тексте. Подсчитанный угол косинуса показывает насколько близки вектора друг другу, другими словами, насколько сильно описания сходятся, тем самым отобрали топ похожих описаний из изначального датасета
4. По итогу построили графики, которые показывают место нашего поставщика среди конкурентов, конкуренцию на рынке, а также анализ по странам 📈

Проблемы 🫠
1. Там было много редких слов, которые было очень сложно обработать. Из-за их редкости алгоритму было очень сложно понять, что мы вообще от него хотим, да даже человеку порой сложно догадаться до этого.
Вот представьте, что у вас просят шиберную задвижку DN 500, я бы ударил этого человека, который меня это попросил 🤡
2. Мы выдаём определённое количество подходящих товаров, то есть мы можем выдать товары, которые не подходят его запросу, или выдать не все запросы

Итог:
Много вкусной еды на фуршете.... 🥴
Ну и конечно же второе место с проектом, который не стыдно показать работодателем. Также познакомился со многими интересными людьми и возможно нашёл работу🤫

GitHub с проектом

#События

BY Ebout Data Science | Дима Савелко




Share with your friend now:
tgoop.com/eboutdatascience/12

View MORE
Open in Telegram


Telegram News

Date: |

Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Some Telegram Channels content management tips During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. Image: Telegram. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn.
from us


Telegram Ebout Data Science | Дима Савелко
FROM American