SQLHUB Telegram 1893
🦆 DuckDB теперь дружит с scikit-learn — мощный дуэт для ML-прототипов

В свежем гайде от 16 мая 2025 команда DuckDB показывает, как использовать их аналитическую СУБД вместе с scikit-learn — чтобы максимально быстро и удобно прототипировать модели машинного обучения.

💡 Пример — классификация пингвинов (датасет Palmer Penguins):

🔸 Предобработка в DuckDB:

Удаление NULL-ов, фильтрация, типизация.

Категориальные признаки кодируются через референс-таблицы (вместо LabelEncoder).

Используется selection_query с ленивым выполнением — данные грузятся только при необходимости.

🔸 Интеграция с scikit-learn:

Извлекаем pandas DataFrame прямо из DuckDB.

Обучаем классификатор (например, RandomForestClassifier) по подготовленным данным.

🛠 Идеально для:
• Быстрого прототипирования моделей
• Малых и средних наборов данных
• Python-разработчиков, которым не хочется возиться с SQL-серверами

📎 Подробнее:
https://duckdb.org/2025/05/16/scikit-learn-duckdb.html

@sqlhub



tgoop.com/sqlhub/1893
Create:
Last Update:

🦆 DuckDB теперь дружит с scikit-learn — мощный дуэт для ML-прототипов

В свежем гайде от 16 мая 2025 команда DuckDB показывает, как использовать их аналитическую СУБД вместе с scikit-learn — чтобы максимально быстро и удобно прототипировать модели машинного обучения.

💡 Пример — классификация пингвинов (датасет Palmer Penguins):

🔸 Предобработка в DuckDB:

Удаление NULL-ов, фильтрация, типизация.

Категориальные признаки кодируются через референс-таблицы (вместо LabelEncoder).

Используется selection_query с ленивым выполнением — данные грузятся только при необходимости.

🔸 Интеграция с scikit-learn:

Извлекаем pandas DataFrame прямо из DuckDB.

Обучаем классификатор (например, RandomForestClassifier) по подготовленным данным.

🛠 Идеально для:
• Быстрого прототипирования моделей
• Малых и средних наборов данных
• Python-разработчиков, которым не хочется возиться с SQL-серверами

📎 Подробнее:
https://duckdb.org/2025/05/16/scikit-learn-duckdb.html

@sqlhub

BY Data Science. SQL hub




Share with your friend now:
tgoop.com/sqlhub/1893

View MORE
Open in Telegram


Telegram News

Date: |

Step-by-step tutorial on desktop: According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. Concise Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings.
from us


Telegram Data Science. SQL hub
FROM American