Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6640

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎁

Как версионировать датасеты и ML-модели (и не сойти с ума)

Одна из самых частых причин почему вчера работало, а сегодня нет — отсутствие версионирования данных и моделей.

Без него сложно:
🙅‍♂️ повторить эксперименты,
🙅‍♂️ понять, почему метрики ухудшились,
🙅‍♂️ отладить баги в проде.

Вот как это решается 👇

1⃣

Используйте DVC или LakeFS для версионирования данных

DVC (Data Version Control) — git-подобный инструмент для отслеживания датасетов. Работает поверх Git и хранит данные в облаке (S3, GCS и т.п.).

dvc init
dvc add data/train.csv
git add data/train.csv.dvc .gitignore
git commit -m "Добавил версию обучающего датасета"

LakeFS — альтернатива на уровне хранилища (s3), позволяет делать data branches, merges и rollback данных.

2⃣

Храните модели с MLflow, Weights & Biases или DVC

MLflow позволяет логировать, сохранять и восстанавливать модели по version/tag/commit:

import mlflow
with mlflow.start_run():
    mlflow.log_param("max_depth", 5)
    mlflow.log_metric("accuracy", 0.92)
    mlflow.sklearn.log_model(model, "model")

DVC тоже можно использовать:

dvc add models/random_forest.pkl
git commit -m "Модель v1.0"

3⃣

Сохраняйте метаданные эксперимента

Храните конфиги, хэши данных, модель, метрики, код и дату запуска. Можно использовать:
— MLflow Tracking
— Sacred + Omniboard
— W\&B Experiments

4⃣

Встраивайте версионирование в CI/CD

Добавьте в pipeline:
— автоматическое логирование модели,
— проверку отклонений метрик,
— тегирование релизов модели,
— деплой только при прохождении проверок.

-5⃣ Подписывайте версии моделей семантически (semver)

model_v1.2.0.pkl говорит больше, чем model_final_v4.pkl

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥2

1.18K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❗ Первый вебинар нашего курса по AI-агентам уже прошёл!

Запись уже выложили на обучающей платформе — можно влетать и догонять с комфортом.

Первые слушатели уже оставили фидбэки — и, кажется, мы попали в точку:
— «теперь наконец понял, как выбирать модели под задачу — раньше брал первую попавшуюся»
— «без лишнего, по делу, в лайве — кайф»
— «огонь, ожидания 100% оправданы лично у меня»

Если хотели вписаться, но сомневались — ещё не поздно. Вебинары идут вживую, записи сохраняются, чат работает, материалы открыты.

⏳ Ещё можно догнать и пройти всё вместе с потоком.

👉 Залетай на курс

👍1

1.17K views16:42

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Реальность сегодняшних дней 😆

Библиотека дата-сайентиста #развлекалово

😁9❤2💯2

1.2K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Промпт для анализа и улучшения мониторинга ML-моделей в продакшене

Хотите вовремя замечать деградацию моделей и реагировать на изменения? Этот промпт поможет оптимизировать систему мониторинга и алертов.

✍️

Промпт:

Проанализируй текущий мониторинг ML-моделей в продакшене.
Опиши, как настроены: сбор метрик, детекция дрейфа данных и моделей, оповещения.
Дай рекомендации по:
• Инструментам для мониторинга (Prometheus, Grafana, Evidently, WhyLabs и др.)
• Метрикам и порогам для алертов
• Автоматической реакции на аномалии
• Логированию и трассировке ошибок
• Визуализации и отчетности

📌 Что получите:
• Аудит текущей системы мониторинга
• Конкретные шаги и инструменты для улучшения
• План для своевременного обнаружения и устранения проблем

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3🔥1😁1🥱1

1.17K views07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📬 «Кажется, я слишком рано начинаю кодить…» — история подписчика

«Работая в ML, начинаю понимать, что недостаточно времени уделяю именно дизайну задачи. Часто сразу перехожу к моделированию, а потом сталкиваюсь с проблемами: не продумано, как формировать обучающую и тестовую выборки, где брать фичи, какие модели подойдут, как организовать пайплайн, чтобы результат можно было внедрить. И всё приходится переделывать заново».

На самом деле, вы не одиноки. Такой подход — распространённая ловушка даже среди опытных специалистов. Почему так происходит?

▶️ Потому что этап проектирования ML-задачи часто воспринимается как «бумажная работа», хотя именно он отличает эксперимент в ноутбуке от реальной работающей системы, внедрённой в продукт.

На что стоит обратить внимание до начала разработки

1⃣

Как устроены ваши данные?

— Есть ли временная структура? Тогда нельзя мешать строки случайно.
— Возможен ли data leakage?
— Хватает ли данных для всех классов или сегментов?

2⃣

Как делите данные на train / validation / test?

— По пользователям, по времени, по объектам?
— Отражает ли такое разбиение реальный сценарий в продакшене?

3⃣

Какие ограничения существуют?

— Сколько времени можно тратить на инференс?
— Где будет работать модель — в облаке, на сервере или на клиентском устройстве?
— Будет ли переобучение и как часто?

4⃣

Какая метрика действительно важна?

— Кто будет интерпретировать результат?
— Не приведёт ли фокус на «среднюю метрику» к ошибкам в критичных случаях?

5⃣

Как модель будет использоваться в продукте?

— Кто и как будет применять результат?
— Какие требования к explainability?
— Как встроить модель в существующий пайплайн?

Cоветы:
▶️ Перед тем как писать код, зафиксируйте ключевые параметры задачи в документе:
— цель,
— доступные источники данных,
— ограничения,
— целевую метрику,
— требования к внедрению.
▶️ Используйте ML Canvas — структуру, помогающую спланировать проект как с технической, так и с бизнес-стороны.
▶️ Возьмите за правило: потратить один день на проектирование — чтобы сэкономить три на переделках.

📣 А как вы подходите к постановке ML-задач? Что обязательно продумываете перед началом?

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2

1.02K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:29

Media is too big

VIEW IN TELEGRAM

Как относитесь к созданию своего жпт не через конструктор, а хардкорно через код?

🔥 — я своего завайбкодил

🏃‍♀️ Ссылка на курс

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1

1.01K views06:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⌛

Инструмент для работы со временными рядами: sktime

Если вы работаете с временными рядами в Python — обязательно попробуйте sktime.

sktime — это библиотека с единой и удобной обёрткой для задач машинного обучения на временных рядах.

Поддерживает:
➡️ Прогнозирование (forecasting)
➡️ Классификацию временных рядов
➡️ Регрессию
➡️ Кластеризацию
➡️ Обнаружение аномалий и точек изменений
➡️ Композиции моделей, трансформеры и пайплайны

Features:
➡️ Единый API для задач ML/AI с временными рядами: от построения моделей до валидации
➡️ Поддержка разных задач: прогнозирование, классификация, регрессия, кластеризация
➡️ Композиции моделей: пайплайны, ансамбли, тюнинг, редукции
➡️ Удобный и интерактивный UX в духе scikit-learn

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥1

1.07K viewsedited 07:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥

Дата-инженеры, встречаемся на митапе ЮMoney

Приходите на митап High SQL — он пройдёт 15 июля в 19:00 (по мск) офлайн в Санкт-Петербурге и онлайн из любой точки мира. Вот о чём поговорим со спикерами из ЮMoney и приглашённым экспертом Дмитрием Аношиным:

🟣

101 Performance Tuning: невредные советы. Проверяем и анализируем самые популярные советы по оптимизации хранилищ на основе реляционных баз данных.

🟣

Качество данных: от осознания до реализации. Если вы тоже сталкивались с ошибками в отчётах, дублированием данных и недоверием к аналитике, этот доклад для вас.

🟣

Обзор фреймворка DBT и примеры его использования. Почему он стал таким популярным? Рассмотрим основные возможности DBT, альтернативы и как DBT используют в дата-командах.

✅ Участие бесплатное, но нужно зарегистрироваться на сайте.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.01K views14:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Как продвинуть резюме в ТОП на HeadHunter: 9 рабочих приёмов

Обновили резюме — а в ответ тишина? Ни просмотров, ни откликов?
Всё потому, что просто «быть» на HeadHunter мало — нужно правильно продавать себя алгоритму.

В нашей новой статье вы узнаете:
— Как реально работает выдача HH
— Почему ваше резюме могут не заметить
— 9 способов вырваться в ТОП — от ключевых слов до правильного времени публикации

👉 Если ищете работу в IT (и не только), прочитайте обязательно: https://proglib.io/sh/rStRsQJzH1

Библиотека дата-сайентиста #буст

🔥3❤2👍2

1.04K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Наглядно 😆

Библиотека дата-сайентиста #развлекалово

😁6👍4💯1

992 views09:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик

❤1👍1🤔1

940 views13:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚩

Google DeepMind представила GenAI Processors — новый способ создавать Gemini-приложения

Создавать LLM-приложения — особенно мультимодальные и в реальном времени — сложно: куча обработок, API-вызовов, асинхронности и нестабильной логики.

✅ Теперь всё меняется. GenAI Processors — новая open-source Python-библиотека, которая помогает собирать такие пайплайны как из кубиков Lego.

🔎

Что такое GenAI Processors

Это абстракция над обработкой данных, где всё — поток:
Входы, выходы и даже промежуточные шаги обрабатываются как асинхронные стримы ProcessorParts.
Вы комбинируете видеопоток, аудио, текст, модель — и получаете живое, отзывчивое LLM-приложение, работающее в реальном времени.

Что внутри:
— Модульный дизайн — разбивайте логику на независимые блоки
— Асинхронность и параллелизм — быстрый отклик, меньше лагов
— Поддержка Gemini API и Live-модели
— Легко пишите кастомные процессоры
— Умеет работать с текстом, изображениями, аудио, JSON — в одном потоке
— Утилиты для объединения, разделения и управления потоками

Установка:

pip install genai-processors

🔗

Для старта — готовые Colab-блокноты и примеры: https://clc.to/CvkgTQ

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3🔥1

907 views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧠 Контекст-инжиниринг и LLM
— Context Engineering Guide — промпт-инжиниринг эволюционирует: теперь важен не только prompt, но весь контекст
— Unsupervised Elicitation of Language Models — Антропик обучил Claude 3.5 без разметки
— Open Source RL Libraries for LLMs — сравнение RLHF-фреймворков: TRL, Verl, OpenRLHF и др.

🔬 Глубже в ML/AI
— PyTorch in One Hour — краткий и ценный гайд по PyTorch
— ML Papers Explained — ключевые концепты и статьи по ML объяснены на практике
— Топ вопросов с DS-собесов — классика ML, метрики, линейные модели

💡 Технологии и исследования
— AI как люди — исследование: ИИ-модели синхронизируются при общении так же, как мозги животных
— Медицинский ИИ от Google — MedGemma 27B и MedSigLIP для диагностики и анализа изображений
— Bыпуклость в обучении — как искусственный интеллект начинает думать почти как человек

🌐 Будущее AI
— OpenAI запускает браузер — ИИ-браузер против Chrome
— AWS и Anthropic запускают маркетплейс агентов
— Сутскевер стал CEO Safe Superintelligence

📌 Подборка статей
— Агентные системы и LLM в 2027
— Готовимся к собесу: positional encodings
— Поисковый сервис Яндекс Лавки
— Оптимизация модели Mamba на CPU
— ML в логистике

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

414 views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📬 Подпишись на [@dsproglib](https://www.tgoop.com/dsproglib) для регулярных апдейтов из мира data science, LLM и ML-инфраструктуры.
\#datascience #llm #research #mltools

---

Elvissaravia

Context Engineering Guide

Prompt engineering is being rebranded as context engineering

❤1

471 views13:02

2025/07/13 19:21:23
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>