tgoop.com/data_bar/84
Last Update:
Пет-проект VILKY. Архитектура, исследования, дизайн.
Продолжаю рассказывать о нашем пет-проекте анализа зарплатных вилок в IT. Команда (Саша, Рома, Никита), ещё подключилась Снежана. Она занимается дизайном.
Месячный апдейт по проекту анализа IT зарплат:
1. Стали собирать исторические данные по ЗП за всё время.
2. Собираем вакансии сервиса vseti.app
3. Создали репозиторий на GitHub, появились первые пулл-реквесты.
4. Перенесли Airflow на Timeweb.
5. Дизайн. Сделали гайдбук.
6. Сделали первые исследования на данных.
7. Сделали лендинг и запустили рекламу канала.
8. Сделали манифест проекта.
Стало понятно, что снепшоты, которые делаем каждый день, не решают ряд задач анализа, а хочется именно историю смотреть. Поэтому, собрали все доступные вакансии с Habr career и Finder.work. Finder.work - большой ресурс вакансий, там их более 2х млн, не только IT, а вообще все по отраслям. Это моя часть работы, сейчас собраны все возможные поля. Выше писал пост о геоанализе данных с Finder. В итоге, переходим от снепшотов к историческим данным и инкрементальному обновлению - каждый день смотрим какие вакансии появились, открыты и добавляем статусы на текущий день в базу. Проблема с нормализацией LLM - слишком дорого получается нормализовать исторические объёмы через YandexGPT или ChatGPT, поэтому, будем делать свою модель.
Пункты
Уникальных данных у нас сейчас много - можно делать детализированные отчёты и исследования, подключать LLM. Это всё в планах.
В канале @vilky_it сейчас 400+ подписчиков. Более 150 пришли после постов Димы Аношина о проекте в его канале "Инжиниринг данных". Спасибо ему огромное!