tgoop.com/data_bar/76
Last Update:
Проект VILKY. LLM, телеграм канал и дайджесты
Давно не писал про проект VILKY и анализ IT вакансий. Мы дошли до самого интересного: LLM и нормализации данных. Над этим работаем несколько месяцев, но не писали ещё.
К нам с Никитой присоединился Рома, и мы продолжаем развивать пет-проект. Рома занимается Data Quality, пишет и проводит тесты. И у него есть канал Котолитик - там подробнее про это.
🪄 Три больших новых этапа к этому моменту:
1. LLM и нормализация данных
2. Тесты качества нормализации и усложнение промптов.
3. TG канал со статистикой по вакансиям
Подключение дополнительных платформ пока было в меньшем приоритете, но забираем с HH по API для тестов.
Также мы нормализовали поля грейда и вилок зарплат. По описанию вакансии LLM может определить грейд (senior, middle и т.д.). Зарплатные вилки тоже указываются по-разному, бывают ошибки. Поэтому, нормализуем данные по ЗП до трёх полей: min ЗП, max ЗП, валюта.
В процессе и планах нормализации: локации, net или gross в указании зарплат, плюшки каждой вакансии и др..
Про техническую реализацию нормализации читайте в канале у Никиты, а Рома написал про создание, запуск тестов проверки корректности работы LLM и про картинки для постов.
Такую красоту данных нет смысла прятать, поэтому сделали TG канал 'VILKY', куда ежедневно автоматически публикуются прикольные рубрики с топами вакансий, компаний и всему что придумаем. Дизайн картинок и весь концепт придумывали и делали вместе. Я реализовал на Tableau Public. Кроме этого, ежедневно публикуются дайджесты по вчерашним данным и недельные дайджесты.
Ежедневный дайджест - набор из 5и визуализаций:
Дайджест сделали в виде слайдов. У Тиньков инвестиций примерно так же - понравилась эта концепция. Были другие варианты, но остановились на этом.
🥁 Сам телеграм канал 'VILKY. Вилки зарплат в IT' 🥁
Каждый день автоматически скидывается статистика вакансий IT. Добавим постепенно месячный и дайджесты по всем IT направлениям. Можно просто заходить и смотреть статистику.
Фидбек очень важен, будем прислушиваться и формировать роадмап. Комментарии и эмоджи открыты - можно писать в комменты что добавить, улучшить или убрать.
Все сообщения в канале автоматические, но, пока обкатываем, сделали себе в тестовый канал те же публикации, но на час раньше. Баги возможны, будем смотреть и фиксить.
Его оптимизировали немного. В дашборд добавили статистику просмотров за последние 7 дней. Автоматически забирается по API Tableau Public. В дашборде сейчас 3 нормализованных поля, про которые писал выше. Поэтому, можно считать его AI powered.
Итого, мы построили систему, которая: