Telegram Web
🚀 Вышел Apache Airflow 3.0 — крупнейшее обновление за последнее время

После месяцев активной работы сообщества мир увидел релиз Apache Airflow 3.0 — важный шаг вперёд для оркестрации данных.

Что нового:
➡️ Сервисно-ориентированная архитектура — разворачивайте только нужные компоненты, без монолита.
➡️ Планирование на основе данных — теперь можно нативно определять и отслеживать объекты данных.
➡️ Событийное управление — запускайте DAG-и не только по расписанию, но и в ответ на события.
➡️ Версионирование DAG-ов — история выполнения сохраняется даже при изменении кода.
➡️ Новый UI на React — современный, удобный, полностью переработанный веб-интерфейс.

👉 Подробнее: https://clc.to/1KZxhQ

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥75👍2
🔍 Datacompy — библиотека для быстрого сравнения DataFrame'ов

Datacompy — мощная Python-библиотека для валидации и сравнения данных.
Идеально подходит для работы с Pandas, Polars и Spark.

Что умеет:
🟠 Сравнивает строки и столбцы между DataFrame'ами
🟠 Генерирует подробные отчёты о различиях
🟠 Гибкая настройка: ключи сравнения, допуски, регистр

Преимущества:
🟠 Лёгкая интеграция в пайплайны и тесты
🟠 Подходит для больших данных и распределённых вычислений
🟠 Контроль качества данных в ETL и миграциях

➡️ Подробнее: https://clc.to/6ZBRkA

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1🔥1
🔥 IT Breaking Memes — 30 000 ₽ за самую смешную IT-новость

Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!

👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.

🏆 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе

Пример:
Реальная новость: «Гугл создала модель для общения с дельфинами».

Смешная альтернатива: «Нейросеть от Гугл обрабатывает видеопоток с камеры в свинарнике. ИИ следит, сколько свинья находится возле кормушки, не отталкивают ли ее собратья. Недокормленных докармливают, а переевшие пропускают следующую кормешку».

📅 Сроки: с 29 апреля по 11 мая включительно

Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8

Ждем ваших новостей!
👍2
🐍 Пиши как профи: 10 Python-лайфхаков для новичков

Лайфхаки от разработчиков, обжёгшихся до вас

➡️ Что вас ждет внутри:
— почему if x == True: — это преступление
— как списковые включения экономят часы
— зачем линтер важнее кофе
— и почему def func(start_list=[]) может испортить тебе вечер
— как не сойти с ума от зависимостей (и что делать с виртуальными окружениями)
— секретный power move: dir(), help() и другие встроенные суперсилы

И всё это без занудства и «книг для чайников». Просто, по делу, с примерами и личным опытом от бывалых питонистов

📎 Статья

🔵 Начинайте свой путь в программировании и прокачивайте свои навыки с нашим курсом «Основы программирования на Python»

Proglib Academy #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🎯 Промпт для анализа и оптимизации пайплайнов обработки данных

Этот промпт поможет оптимизировать пайплайны данных для повышения эффективности, автоматизации процессов и улучшения качества данных, используемых в проектах.

🧾 Промпт:
Prompt: [опишите текущий пайплайн обработки данных]

I want you to help me analyze and optimize my data processing pipeline. The pipeline involves [data collection, cleaning, feature engineering, storage, etc.]. Please follow these steps:

1. Data Collection:
- Evaluate the current method of data collection and suggest improvements to increase data quality and speed.
- If applicable, recommend better APIs, data sources, or tools for more efficient data collection.

2. Data Cleaning:
- Check if the data cleaning process is efficient. Are there any redundant steps or unnecessary transformations?
- Suggest tools and libraries (e.g., pandas, PySpark) for faster and more scalable cleaning.
- If data contains errors or noise, recommend methods to identify and handle them (e.g., outlier detection, missing value imputation).

3. Feature Engineering:
- Evaluate the current feature engineering process. Are there any potential features being overlooked that could improve the model’s performance?
- Recommend automated feature engineering techniques (e.g., FeatureTools, tsfresh).
- Suggest any transformations or feature generation techniques that could make the data more predictive.

4. Data Storage & Access:
- Suggest the best database or storage system for the current project (e.g., SQL, NoSQL, cloud storage).
- Recommend methods for optimizing data retrieval times (e.g., indexing, partitioning).
- Ensure that the data pipeline is scalable and can handle future data growth.

5. Data Validation:
- Recommend methods to validate incoming data in real-time to ensure quality.
- Suggest tools for automated data validation during data loading or transformation stages.

6. Automation & Monitoring:
- Recommend tools or platforms for automating the data pipeline (e.g., Apache Airflow, Prefect).
- Suggest strategies for monitoring data quality throughout the pipeline, ensuring that any anomalies are quickly detected and addressed.

7. Performance & Efficiency:
- Evaluate the computational efficiency of the pipeline. Are there any bottlenecks or areas where processing time can be reduced?
- Suggest parallelization techniques or distributed systems that could speed up the pipeline.
- Provide recommendations for optimizing memory usage and reducing latency.

8. Documentation & Collaboration:
- Ensure the pipeline is well-documented for future maintainability. Recommend best practices for documenting the pipeline and the data flow.
- Suggest collaboration tools or platforms for teams working on the pipeline to ensure smooth teamwork and version control.


📌 Что получите на выходе:
• Анализ пайплайна обработки данных: поиск проблем и предложений для улучшения
• Рекомендации по автоматизации и мониторингу: улучшение рабочих процессов с помощью инструментов автоматизации
• Рекомендации по хранению и доступу: оптимизация хранения и извлечения данных
• Оптимизация и улучшение производительности: уменьшение времени обработки данных и повышение эффективности

Библиотека дата-сайентиста #буст
3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
How to: работать с 11 типами переменных в данных

В анализе данных и машинном обучении важно понимать, с какими типами переменных вы имеете дело — это помогает правильно интерпретировать данные, строить модели и избегать ошибок.

👇 Разберём 11 ключевых типов переменных.

➡️ Независимые и зависимые переменные:
🔵Независимые переменные (или предикторы/фичи) — это признаки, которые используются в качестве входных данных для предсказания результата.
🔵 Зависимая переменная — это результат, который предсказывается. Её также называют целевой переменной, ответом или выходной переменной.
🔵 Пример: предсказываем уровень дохода (зависимая переменная) по возрасту, образованию и стажу (независимые переменные).

➡️ Спутывающие и коррелированные переменные:
🔵 Спутывающие переменные влияют и на независимую, и на зависимую переменную, искажают причинно-следственные связи.
🔵 Коррелированные переменные могут быть связаны между собой, но это не означает наличие причинной связи.
🔵 Важно: «Корреляция ≠ причинность».
🔵 Пример: продажи мороженого и кондиционеров растут одновременно не из-за связи между ними, а из-за жары (спутывающая переменная).

➡️ Контрольные переменные:
🔵 Не являются объектом исследования, но учитываются, чтобы избежать искажения результатов.
🔵 Пример: при исследовании влияния образования на доход контролируют возраст и регион.

➡️ Латентные (скрытые) переменные:
🔵 Не наблюдаются напрямую, но влияют на данные. Выводятся опосредованно через другие признаки.
🔵 Пример: кластеры пользователей (предпочтения, поведение) — латентны, но можно выявить с помощью кластеризации.

➡️ Переменные взаимодействия:
🔵 Отражают влияние комбинации двух или более переменных.
🔵 Пример: взаимодействие плотности населения и дохода может выявить различия в потреблении по регионам.

➡️ Стационарные и нестационарные переменные:
🔵 Стационарные: статистики (среднее, дисперсия) не меняются со временем.
🔵 Нестационарные: имеют тренды, сезонность, нарушают предположения многих моделей.
🔵 Пример: цены акций — нестационарны, их нужно преобразовать перед анализом (например, логарифм, разности).

➡️ Отставшие переменные:
🔵 Переменные, которые представляют собой значения с предыдущих временных точек.
🔵 Продажи в прошлом месяце — отставшая переменная для прогноза продаж в следующем.

➡️ Утечка переменных:
🔵 Эти переменные предоставляют информацию о целевой переменной, которая была бы недоступна во время предсказания. Это приводит к чрезмерно оптимистичной производительности модели на обучающих данных, но она плохо обобщается на новые данные.
🔵 Пример: дата оформления страховки появляется в обучении, но при предсказании она ещё неизвестна.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3❤‍🔥1
🤯 Как простая задачка поставила в тупик программистов

На собеседовании задали простой вопрос:
«В мешке числа от 1 до 100. Одно пропало. Как найти его? А если пропали два числа? Три? Или вообще k чисел?»


Эта задачка превратилась в одно из самых обсуждаемых тем на Stack Overflow.

➡️ Что внутри статьи:
— Как найти 1 пропущенное число (формула + код).
— Как находить 2 и больше пропущенных чисел (оптимальные алгоритмы).
— Алгоритм Мински–Трахтенберга–Зиппеля.
— Симметрические многочлены и тождества Ньютона (и зачем они нужны).
— Примеры кода на Python для всех случаев.

Если хочешь понять, как красиво решать задачи уровня собесов — обязательно прочитай статью.

👉 Переходи к статье

🔵 Чтобы получить оффер-мечты в Data Science, забирайте наш курс → «Математика для Data Science»

Proglib Academy #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32
🔥 Холивар: ML/DS-стажировка в 2025 — или ты full-stack инженер, или мимо

В 2025 году всё больше студентов, увлечённых машинным обучением и анализом данных, сталкиваются с неожиданным поворотом: стажировки в ML/DS требуют не только знаний по моделям, но и полного стека разработки.

👀 Типичная вакансия на «ML-интерн»:
«Ищем стажёра по машинному обучению. Требования: знание Python, PyTorch, SQL, Django/Flask, React, Docker, AWS, CI/CD, MLOps, REST API, системный дизайн, опыт с Spark и Kafka. Плюсом будет умение писать собственный компилятор.»


Простыми словами: «Ты не просто строишь модели — ты их разворачиваешь, деплоишь, мониторишь и желательно — делаешь это вслепую на Kubernetes.»

🎯 Вопрос к сообществу:
1. Это адекватные ожидания от стажёров в ML/DS? Или индустрия потеряла берега?
2. Является ли full-stack разработка теперь обязательным скиллом для входа в ML?

Опрос для стажёров и джунов. Какой путь выбрали вы:
❤️ — Только ML/DS: алгоритмы, модели, датасеты — без продакшна
👍 Full-stack + ML: backend, frontend, DevOps — потому что по-другому не берут
🔥 Забили и ушли в продукт/аналитику
😁 Пока учусь и в лёгком шоке от требований

👇 Делитесь мнением: это нормальное развитие профессии — или перегибы рынка, которые пугают новичков?
Инструкция о том, как оставить комментарий: https://www.tgoop.com/dsproglib/6244

Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
22😁20👍14🔥10🌚1
🎯 Фишка инструмента: топ-5 библиотек Python для EDA (разведочного анализа данных)

EDA (Exploratory Data Analysis) — это важнейший этап анализа данных, помогающий понять структуру, закономерности и аномалии в данных перед моделированием. Ниже — библиотеки, которые максимально ускоряют и упрощают этот процесс.

1️⃣ pandas\_profiling
import pandas_profiling  
report = pandas_profiling.ProfileReport(df)
report.to_file("eda_report.html")


🟪 Генерирует полноценный HTML-отчёт по DataFrame.
🟪 Показывает распределения, корреляции, пропущенные значения, типы данных и многое другое.
🟪 Отличный способ получить обзор по данным всего за пару строк кода.

2️⃣ Sweetviz
import sweetviz  
report = sweetviz.analyze(df)
report.show_html("sweetviz_report.html")


🟪 Создаёт красивый визуальный EDA-отчёт.
🟪 Можно сравнивать два набора данных (например, обучающую и тестовую выборки).
🟪 Очень полезен для выявления смещений и различий между выборками.

3️⃣ D-Tale
import dtale  
dtale.show(df)


🟪 Открывает DataFrame в веб-интерфейсе прямо в браузере.
🟪 Позволяет фильтровать, сортировать, строить графики и смотреть статистику без написания кода.
🟪 Идеален для быстрой визуальной разведки данных.

4️⃣ Skimpy
import skimpy  
skimpy.clean_columns(df)
skimpy.scan(df)


🟪 Очищает названия столбцов (удаляет пробелы, приводит к удобному формату).
🟪 Показывает компактную сводку: типы, пропуски, уникальные значения и т.д.
🟪 Очень лёгкая и быстрая библиотека — минимализм и эффективность.

5️⃣ AutoViz
from autoviz.AutoViz_Class import AutoViz_Class  
AV = AutoViz_Class()
AV.AutoViz("your_file.csv")


🟪 Автоматически определяет тип переменных и строит графики: распределения, тренды, связи между переменными.
🟪 Работает напрямую с CSV и Pandas DataFrame.
🟪 Подходит для быстрого первичного анализа без ручного выбора визуализаций.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥3
🎓 Как выбрать свою роль в Data Science и не потеряться в терминах

Если вы только начинаете разбираться в Data Science — перед вами лабиринт из названий: data scientist, аналитик, ML-инженер, BI, архитектор... Кто чем занимается? Что нужно учить?

➡️ Что внутри статьи

— Кто такие Data Engineer

— Чем отличается Data Architect от инженера и зачем он нужен в big data проектах

— Чем занимаются Data Analyst и почему это отличная точка входа в карьеру

— Что делает настоящий Data Scientist

В статье разобрано всё: от задач до технологий, которые реально спрашивают на собеседованиях.

📎 Ссылка

Азбука айтишника #ликбез
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик
1
🆕 Свежие новости из мира AI и Data Science

🔥 Модели, релизы и технологии:
Alibaba выпустила Qwen3 — восемь моделей с гибридным мышлением и агентными возможностями, сопоставимыми с OpenAI и xAI
Amazon представила Nova Premier — продвинутую AI-модель, способную обучать другие
Model2Vec — делает sentence transformers в 50 раз меньше и в 500 раз быстрее
Google NotebookLM теперь говорит на 50+ языках — поддержка многоязычного аудио и чата
Apache Airflow 3.0 — крупнейшее обновление популярного оркестратора

🧠 Статьи, исследования и лучшие практики:
Backpropagation Through Time: разбор с выводами — глубокое погружение в обучение RNN
Геометрия ландшафта потерь и «понимание» модели — визуализация и интерпретация обучения
MLflow для исследований — как систематизировать ML-эксперименты
Как Яндекс обучал Алису «видеть» — мультимодальный подход в реальном кейсе
Бинарная классификация одним нейроном — личный опыт и минимализм в ML

🗣 Мнения и индустрия:
У GPT-4o проблема с личностью — OpenAI работает над излишней лестью и согласием модели
Китай готовит альтернативу NVIDIA — Huawei тестирует AI-чип Ascend 910D
30% кода Microsoft пишется ИИ — Satya Nadella рассказал о роли Copilot в разработке
Марк Цукерберг о Llama 4 и стратегии AGI — интервью о масштабировании AI-инфраструктуры

📚 Библиотека дата-сайентиста #свежак
4👍4🔥1
🔥 Конкурс: 30 000 ₽ за самую смешную IT-новость

Напоминаем о конкурсе «Библиотеки программиста»: напишите самую смешную версию реальной новости про технологии.

👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.

🎁 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе

🏆 Как будем оценивать:
Мы выложим новости всех участников в одном из наших телеграм-каналов. Те новости, которые наберут больше всего охвата, войдут в шорт-лист. Из шорт-листа подписчики и жюри выберут победителя.

📅 Сроки: прием новостей до 11 мая включительно

Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8

Осталась неделя — ждем ваших новостей!
👨‍💻 Топ-вакансий для дата-сайентистов за неделю

Бизнес-/продуктовый аналитик в B2B-маркетплейс — от 100 000 до 180 000 ₽ net, удаленка, предпочтительная география: Урал, Поволжье и около

Продуктовый аналитик на проект Piece of Cake

AI Engineer (инженер по ИИ) data science (дата-сайентист) — от 100 000 до 200 000 ₽, гибрид (Москва)

Data Scientist в Сетку, гибрид (Москва)

BI Analytics Team Lead — от 6 600 до 7 500 €, гибрид (Кипр, Казахстан, Грузия, Сербия, ОАЭ)

Senior Data Scientist (RL), удалёнка (Москва)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
🔍 How to: выбрать важные признаки и избежать переобучения

Выбор признаков и регуляризация — ключевые методы для повышения эффективности модели и предотвращения переобучения. Вот как это можно реализовать:

1️⃣ Использование Recursive Feature Elimination (RFE)

Метод RFE помогает выбрать наиболее значимые признаки, исключая менее важные:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
rfe = RFE(model, n_features_to_select=5)
X_rfe = rfe.fit_transform(X, y)


2️⃣ L1-регуляризация (Lasso)

L1-регуляризация помогает «занулять» незначительные признаки, что эффективно для отбора:
from sklearn.linear_model import Lasso

model = Lasso(alpha=0.1)
model.fit(X, y)


📌 Рекомендация: подбирайте оптимальное значение alpha с использованием кросс-валидации, например, через GridSearchCV.

3️⃣ Random Forest для выбора признаков

Алгоритм Random Forest вычисляет важность признаков, что позволяет отбирать наиболее значимые:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X, y)
importances = model.feature_importances_


4️⃣ Регуляризация с Ridge (L2-регуляризация)

L2-регуляризация помогает уменьшить влияние менее значимых признаков, но не исключает их полностью:
from sklearn.linear_model import Ridge

model = Ridge(alpha=0.1)
model.fit(X, y)


5️⃣ Анализ важности признаков с помощью деревьев решений

Если вы используете алгоритмы на основе деревьев решений, важно учитывать их внутреннюю важность признаков:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(X, y)
importances = model.feature_importances_


📌 Рекомендация: рассмотрите возможность комбинированного использования методов Lasso и RFE для более агрессивного отбора признаков, что может быть полезно, если ваш набор данных содержит множество признаков.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3
2025/07/09 03:36:13
Back to Top
HTML Embed Code: