Notice: file_put_contents(): Write of 20598 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib P.6641
DSPROGLIB Telegram 6641
🎁 Как версионировать датасеты и ML-модели (и не сойти с ума)

Одна из самых частых причин почему вчера работало, а сегодня нет — отсутствие версионирования данных и моделей.

Без него сложно:
🙅‍♂️ повторить эксперименты,
🙅‍♂️ понять, почему метрики ухудшились,
🙅‍♂️ отладить баги в проде.

Вот как это решается 👇

1⃣ Используйте DVC или LakeFS для версионирования данных

DVC (Data Version Control) — git-подобный инструмент для отслеживания датасетов. Работает поверх Git и хранит данные в облаке (S3, GCS и т.п.).

dvc init
dvc add data/train.csv
git add data/train.csv.dvc .gitignore
git commit -m "Добавил версию обучающего датасета"


LakeFS — альтернатива на уровне хранилища (s3), позволяет делать data branches, merges и rollback данных.

2⃣ Храните модели с MLflow, Weights & Biases или DVC

MLflow позволяет логировать, сохранять и восстанавливать модели по version/tag/commit:
import mlflow
with mlflow.start_run():
mlflow.log_param("max_depth", 5)
mlflow.log_metric("accuracy", 0.92)
mlflow.sklearn.log_model(model, "model")


DVC тоже можно использовать:
dvc add models/random_forest.pkl
git commit -m "Модель v1.0"


3⃣ Сохраняйте метаданные эксперимента

Храните конфиги, хэши данных, модель, метрики, код и дату запуска. Можно использовать:
— MLflow Tracking
— Sacred + Omniboard
— W\&B Experiments

4⃣ Встраивайте версионирование в CI/CD

Добавьте в pipeline:
— автоматическое логирование модели,
— проверку отклонений метрик,
— тегирование релизов модели,
— деплой только при прохождении проверок.

-5⃣ Подписывайте версии моделей семантически (semver)

model_v1.2.0.pkl говорит больше, чем model_final_v4.pkl


Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2



tgoop.com/dsproglib/6641
Create:
Last Update:

🎁 Как версионировать датасеты и ML-модели (и не сойти с ума)

Одна из самых частых причин почему вчера работало, а сегодня нет — отсутствие версионирования данных и моделей.

Без него сложно:
🙅‍♂️ повторить эксперименты,
🙅‍♂️ понять, почему метрики ухудшились,
🙅‍♂️ отладить баги в проде.

Вот как это решается 👇

1⃣ Используйте DVC или LakeFS для версионирования данных

DVC (Data Version Control) — git-подобный инструмент для отслеживания датасетов. Работает поверх Git и хранит данные в облаке (S3, GCS и т.п.).

dvc init
dvc add data/train.csv
git add data/train.csv.dvc .gitignore
git commit -m "Добавил версию обучающего датасета"


LakeFS — альтернатива на уровне хранилища (s3), позволяет делать data branches, merges и rollback данных.

2⃣ Храните модели с MLflow, Weights & Biases или DVC

MLflow позволяет логировать, сохранять и восстанавливать модели по version/tag/commit:
import mlflow
with mlflow.start_run():
mlflow.log_param("max_depth", 5)
mlflow.log_metric("accuracy", 0.92)
mlflow.sklearn.log_model(model, "model")


DVC тоже можно использовать:
dvc add models/random_forest.pkl
git commit -m "Модель v1.0"


3⃣ Сохраняйте метаданные эксперимента

Храните конфиги, хэши данных, модель, метрики, код и дату запуска. Можно использовать:
— MLflow Tracking
— Sacred + Omniboard
— W\&B Experiments

4⃣ Встраивайте версионирование в CI/CD

Добавьте в pipeline:
— автоматическое логирование модели,
— проверку отклонений метрик,
— тегирование релизов модели,
— деплой только при прохождении проверок.

-5⃣ Подписывайте версии моделей семантически (semver)

model_v1.2.0.pkl говорит больше, чем model_final_v4.pkl


Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tgoop.com/dsproglib/6641

View MORE
Open in Telegram


Telegram News

Date: |

Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture.
from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American