tgoop.com/sqlhub/1893
Last Update:
🦆 DuckDB теперь дружит с scikit-learn — мощный дуэт для ML-прототипов
В свежем гайде от 16 мая 2025 команда DuckDB показывает, как использовать их аналитическую СУБД вместе с scikit-learn — чтобы максимально быстро и удобно прототипировать модели машинного обучения.
💡 Пример — классификация пингвинов (датасет Palmer Penguins):
🔸 Предобработка в DuckDB:
Удаление NULL-ов, фильтрация, типизация.
Категориальные признаки кодируются через референс-таблицы (вместо LabelEncoder).
Используется selection_query с ленивым выполнением — данные грузятся только при необходимости.
🔸 Интеграция с scikit-learn:
Извлекаем pandas DataFrame прямо из DuckDB.
Обучаем классификатор (например, RandomForestClassifier) по подготовленным данным.
🛠 Идеально для:
• Быстрого прототипирования моделей
• Малых и средних наборов данных
• Python-разработчиков, которым не хочется возиться с SQL-серверами
📎 Подробнее:
https://duckdb.org/2025/05/16/scikit-learn-duckdb.html
@sqlhub
BY Data Science. SQL hub

Share with your friend now:
tgoop.com/sqlhub/1893