Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6615

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥

RFID в экстремальных условиях: как отслеживать ковши с расплавленным чугуном

В металлургии каждая секунда на счету — чугун быстро остывает, оборудование простаивает, а убытки растут.

Раньше НЛМК контролировал ковши с расплавленным металлом «по старинке»: звонками и рациями. Теперь же у каждого ковша есть свой «мозг»: система в реальном времени отслеживает его местоположение, температуру и маршрут движения.

✅ Результат? Значительная экономия и повышение эффективности.

🔗 Подробнее по ссылке в новой статье: https://proglib.io/sh/mXKzViUZen

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

1.5K views17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔓 Анализ данных с новой Python-библиотекой для Data Commons

Data Commons — это открытый граф знаний от Google, который объединяет сотни тысяч статистических переменных из множества публичных источников. Он упрощает доступ к важной информации по демографии, экономике, здравоохранению и другим сферам.

Теперь доступна новая версия Python-клиента Data Commons на базе V2 REST API! Эта библиотека позволяет легко выполнять запросы, получать данные и анализировать их в привычном Python-окружении.

Что нового в V2:
✅ Поддержка Pandas DataFrame — работать с данными стало еще удобнее
✅ Упрощённые методы для частых запросов
✅ Управление API-ключами прямо из клиента
✅ Поддержка нескольких форматов ответа (JSON, dict, list)
✅ Интеграция с Pydantic для проверки типов и валидации данных
✅ Возможность работать с публичными и приватными инстансами Data Commons, включая кастомные на Google Cloud

Пример использования:

variable = "sdg/SI_POV_DAY1"  # Доля населения ниже международной черты бедности  
df = client.observations_dataframe(variable_dcids=variable, date="all", parent_entity="Earth", entity_type="Continent")  
df = df.pivot(index="date", columns="entity_name", values="value")  

ax = df.plot(kind="line")  
ax.set_xlabel("Year")  
ax.set_ylabel("%")  
ax.set_title("Proportion of population below international poverty line")  
ax.legend()  
ax.plot()

✅ Вам не нужно копаться в куче CSV и API — просто берите данные и начинайте исследовать!

🔥 Для дата-сайентистов и аналитиков, которые хотят работать с крупными наборами данных быстрее и эффективнее.

➡️

Подробнее: https://clc.to/epdx-A

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3🔥3

1.52K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Последняя неделя перед стартом курса по AI-агентам

Старт курса уже 5го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место

На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах

📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями

И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»

👉 Курс здесь

❤1

1.54K views13:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Да, но нет 😆

Библиотека дата-сайентиста #развлекалово

😁13👍1💯1

1.4K views17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔍 Как искать аномалии в данных без моделей

1️⃣

Статистический анализ

➡️

Значения за пределами 3σ (стандартных отклонений)
Вычислите среднее и стандартное отклонение, найдите значения, выходящие за ±3σ — они часто считаются аномалиями.

➡️

Используйте квантильный анализ (IQR)
Рассчитайте интерквартильный размах (IQR = Q3 – Q1).

Аномалии — это точки вне диапазона:
[Q1 - 1.5 * IQR, Q3 + 1.5 * IQR].

2️⃣

Визуализация данных

➡️ Boxplot — визуально выявляет выбросы.
➡️ Гистограмма — смотрите на распределение и выбивающиеся столбцы.
➡️ Scatter plot — для выявления выбросов в двухмерных данных.
➡️ Парные графики — помогает понять аномалии в связях между переменными.

3️⃣

Логика и доменная экспертиза

➡️

Проверяйте данные на логические ошибки:
— отрицательные значения там, где их быть не может,
— даты в будущем или прошлом вне контекста,
— значения параметров вне физических или бизнес-ограничений.

4️⃣

Проверка на дубликаты

➡️ Часто дубликаты могут «маскировать» аномалии или искажать статистику.
➡️ Используйте .duplicated() или аналогичные методы.

5️⃣

Сравнение с историческими данными

➡️ Сравните текущие значения с типичными значениями за предыдущие периоды.
➡️ Внезапные резкие изменения — потенциальные аномалии.

6️⃣

Использование агрегированных метрик

➡️ Анализируйте суммарные и средние значения по группам.
➡️ Если одна группа сильно выделяется — это может быть аномалия.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7😁2❤1

1.43K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬 Вопрос от подписчика: правда ли, что в AI всё не про нейросети, а про грязную работу с данными

Я читал, что в реальных проектах по AI основная работа — это не модные модели, а банальная подготовка данных: удаление пропусков, нормализация, фичи, постановка задачи.

Кто-то ещё писал, что с приходом LLM'ов «prompt engineering — это новое программирование».

Это реально так? Или в индустрии всё ещё крутятся вокруг алгоритмов?

✅ Краткий ответ: да, грязной работы больше, чем кажется.

В реальной практике машинного обучения и data science доля «магии» моделей — процентов 10–20. Остальное:
✅ Очистка данных (пропуски, выбросы, баги в логах)
✅ Построение признаков (особенно если данные табличные)
✅ Корректная постановка задачи (что вообще нужно: классификация? ранжирование?)
✅ Проверка данных на утечку или data leakage
✅ Разработка пайплайна для inference
✅ Оценка на offline и онлайн метриках
✅ Мониторинг модели на проде (модели деградируют, и часто незаметно)

Если вы работаете с LLM — то здесь «грязная работа» переезжает в другие места:
✅ Подбор и генерация промтов
✅ Выбор правильного контекста (RAG)
✅ Обработка нестабильных ответов
✅ Постобработка текста
✅ И опять же — валидация, оценка, сбор фидбека

Модели важны, но... чаще всего «достаточно хорошие» уже есть.

Большинство задач в проде не требуют state-of-the-art: достаточно стабильной, воспроизводимой модели, которая работает лучше, чем бизнес-правила.

Модель — это не цель, а инструмент. Иногда даже логистическая регрессия лучше, чем сложная нейросеть (если её проще объяснить и внедрить).

🔄 А вот тот эффект обратной связи — это не миф:
Пример: вы обучили рекомендательную модель на старых данных → модель начала влиять на поведение пользователей → данные изменились → старая метрика уже не отражает качество → вы обновляете модель на новых данных → ещё больше смещений. Добро пожаловать в feedback loops.

Это очень частая история в проде.

👉 А у вас так же? Сколько процентов времени уходит на работу с данными, а не с моделями?

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3💯1

1.57K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 «Поиграйся с LLM, почитай про агентов — и сам поймёшь, как это работает»

Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах.

Поиграйся — это как?
Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну.

AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения.

➡️ Чтобы разобраться, нужно:
— понимать, как устроен LLM под капотом
— уметь подключать внешние данные (RAG, retrievers, rerankers)
— уметь масштабировать и дебажить поведение агентов
— разбираться в фреймворках вроде AutoGen, CrewAI, LangChain
— знать, как всё это тащится в прод

Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля

P.S: не упусти свой шанс, промокод: LASTCALL на 10.000₽

❤1

1.43K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎧 Что послушать: из ноутбука в продакшн: реальный путь Data Scientist’а

Работаете в Jupyter, а хотите в прод?
Этот выпуск подкаста — как раз об этом.

🔍 Тема — как перейти от локальных ноутбуков и экспериментального анализа к настоящим production-системам в Data Science.

Обсуждают подходы, инструменты и культуру разработки, когда DS — это не просто ресёрч, а часть продукта.

➡️ Cсылка на подкаст: https://clc.to/A0ezRA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2🔥2

1.42K views07:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😤 Пока вы думаете — остальные уже учатся строить системы, которые работают за них

⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены!

Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии.

Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку».

➡️ Что вы потеряете, если не впишетесь:
— навык, который уже востребован на рынке
— понимание, как из GPT сделать полноценного помощника, агента или продукт
— шанс догнать тех, кто уже перешёл на следующий уровень

📌 Курс стартует уже завтра
— 5 вебинаров, живая практика, код, разборы, продовые кейсы
— без «посмотрите статью», только то, что реально нужно

Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет.

❗Старт уже завтра — забронируйте место на курсе сейчас

❤1👍1

1.26K views09:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💭

Почему LLM работают с токенами, а не словами

Большие языковые модели (LLM) не читают текст так, как мы — они видят токены. Это не совсем слова и не просто символы. Зачем вообще нужен токенизация и почему слова — не лучший вариант? Рассказываем.

🔎

Почему не просто слова

Слова — неудобны: их много, они часто пишутся с ошибками, в разных языках — разные формы.
Если модель не видела слово раньше, она теряется.
Слова вроде running, runs, runner — все о разном, хотя корень один. Слово как единица — слишком «грубая».

🔎

Первые решения

До LLM токенизацией занимались FastText и char embeddings:
— FastText разбивал слова на подстроки (например, unhappiness → un, happi, ness) и пытался понять смысл по кусочкам.
— Character embeddings брали каждый символ как токен. Работает для опечаток, но плохо понимает смысл (dock ≈ duck? Нет же).

🔎

Взлет LLM: умная токенизация

Современные LLM (GPT, Claude и др.) используют Byte-Pair Encoding (BPE):
— Начинаем с символов, потом часто встречающиеся пары объединяем.
— Пример: lowering → low, er, ing
— Получаем разумные токены, экономим память и длину последовательностей.

🔎

Новые подходы

— Byte-level токенизация: работает напрямую с байтами (даже с эмодзи и редкими символами).
— Морфемная токенизация: разбивает слова по смысловым единицам (misunderstanding → mis, understand, ing). Хорошо для языков со сложной грамматикой, но требует знаний языка.

🔎

Что дальше: токены уходят

На горизонте — Large Concept Models (LCM):
Они строят представление сразу на уровне фраз или предложений, а не отдельных токенов:
— Больше смысла, меньше ошибок
— Лучшая многозадачность и кросс-языковое понимание
— Меньше параметров = ниже стоимость

📌 Если вам интересны детали токенизации, статья обязательно к прочтению: https://clc.to/6bmuZA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2🔥1

1.33K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Сеньор сказал: «Ты сможешь!». И вот я смог... 🤣

Библиотека дата-сайентиста #развлекалово

😁6👍2💯2

1.26K views08:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Сегодня стартует курс по AI-агентам!

Онбординг уже сегодня, но ещё можно вписаться — ПОСЛЕДНИЙ ШАНС это сделать.

Мы больше года собирали мультиагентные системы: экспериментировали, переделывали и в итоге — оформили всё в 5 плотных вебинаров.

😤 «А можно ли вообще научиться чему-то за 5 вебинаров?!»

Если вы хотите просто послушать — нет
Если хотите разбираться и делать — да

➡️ На курсе:
— мы не читаем слайдики, а работаем в коде в реальном времени
— можно задавать вопросы прямо на вебинаре
— после каждого вебинара есть домашка и поддержка в чате

И главное — вы получаете системное понимание, а не набор хаотичных туториалов.

⚡️Если вы думаете, что успеете потом — не успеете.
Старт сегодня:
— а те, кто вписался сейчас, будут вас опережать — в проектах, на грейде и в зарплате

Знакомьтесь, эксперт нашего курса:
Никита Зелинский — Chief Data Scientist МТС, Head of ML Platforms, руководитель центра компетенций по Data Science.

❗Стартуем сегодня — забронируй свое место

❤2

1.22K views10:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Генеративные модели: будущее науки или оружие дезинформации

Сегодня генеративные нейросети умеют создавать тексты, изображения, аудио и видео, практически неотличимые от реальных. GPT, DALL·E, Sora, StyleGAN — эти технологии открывают перед человечеством огромные научные перспективы… но вместе с ними и новые риски.

Возможности:
✅ Автоматизация научных открытий

✅ Генерация синтетических данных для обучения моделей

✅ Помощь в программировании, анализе текстов и данных

✅ Поиск и формулировка научных гипотез

✅ Разработка лекарств и новых материалов

Угрозы:
➡️ Deepfake-контент и фейковые аудиозаписи

➡️ Генерация недостоверной информации и псевдонауки

➡️ Снижение доверия к подлинным источникам

➡️ Отсутствие прозрачности в происхождении данных

➡️ Этические и правовые вызовы

Что делать

Важно развивать не только технологии, но и инфраструктуру доверия: цифровую маркировку контента, прозрачные модели, фильтрацию, этические рамки.

Возможно, будущее потребует и нового уровня цифровой грамотности и критического мышления.

📣 А как Вы считаете: генеративный ИИ — это инструмент прогресса или угроза для общества?

❤️ — Безусловно, инструмент прогресса
👍 — Скорее угроза, чем польза

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4👏1🌚1

1.27K views13:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

⚙️ Инструменты и фреймворки
— Scikit‑LLM 0.4.2 — привычный интерфейс fit()/predict() из Scikit‑Learn теперь и для LLM‑задач: классификация, zero‑shot‑лейблинг, суммирование и др.

💻 Железо
— Blackwell: огромный GPU NVIDIA — GB202 (750 мм², 92,2 млрд транзисторов) почти догоняет AMD MI300X по FP32 и опережает B200 по памяти.

📑 Шпаргалки и подборки
— Top 50 LLM Interview Questions — краткий конспект ключевых тем по LLM (автор Hao Hoang).
— LLM Research Papers 2025 — список лучших работ 2025 года.

🩺 AI в медицине
— Path to Medical Superintelligence — Diagnostic Orchestrator от Microsoft AI диагностирует 85 % случаев NEJM, в 4 раза точнее врачей.

🧠 Опыт
— Vision Transformer с нуля — как «научить» трансформер смотреть.
— Кросс‑валидация во временных рядах — не перепутайте порядок данных.
— 16 промптов для памяти ChatGPT — увеличиваем полезный контекст.
— 10 000 лошадей «в лицо» — кейс по CV и эксперименты с датасетом.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤3👍2

1.45K views12:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

❤1

1.34K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

❤1

314 voters1.39K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💰

Топ-вакансий для дата-сайентистов за неделю

ML / Data Science Lead (Marketing + Dynamic Pricing + Out-of-Stock) —‍ от 470 000 до 480 000 ₽, удалёнка

Senior Marketing Analyst, удалёнка

Lead Data Engineer —‍ от 450 000 до 550 000 ₽, удалёнка

Middle+/Senior Data Scientist —‍ до 3 500 $, удалёнка

Quant Researcher —‍ от 350 000 до 450 000 ₽, удалёнка

Data Engineer —‍ от 3 300 $, офис (Тбилиси)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1😁1

1.35K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

↔️

Как не потерять данные из-за пропусков: практические стратегии

Пропущенные данные — распространённая проблема в реальных проектах. Причины могут быть разными: ошибки при сборе, повреждение файлов, неполные опросы и прочее.

Представляем три продвинутых способа иммутации пропусков с использованием Pandas и Scikit-learn:

1️⃣

Множественная иммутация с помощью цепочек уравнений (MICE)

Использует модели, например, Байесовскую регрессию или случайный лес, чтобы последовательно заполнять пропуски, обучаясь на известных данных.

from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

iterative_imputer = IterativeImputer(random_state=42, max_iter=10)
df_imputed = pd.DataFrame(iterative_imputer.fit_transform(df), columns=df.columns)
print(df_imputed.isnull().sum().sum())  # Пропусков больше нет

Можно менять модель, например, использовать RandomForestRegressor для иммутации.

2️⃣

Иммутация с помощью K-ближайших соседей (KNN)

Заполняет пропуски, опираясь на похожие строки с известными значениями. Вес соседей можно задавать по расстоянию или равномерно.

from sklearn.impute import KNNImputer

knn_imputer = KNNImputer(n_neighbors=5, weights='distance')
df_knn = pd.DataFrame(knn_imputer.fit_transform(df), columns=df.columns)
print(df_knn.isnull().sum().sum())

3️⃣

Ансамблевая иммутация разными моделями

Запускаем разные иммутационные модели, получаем несколько вариантов заполненных данных, а затем выбираем лучший результат, ориентируясь на ключевые признаки:

from sklearn.linear_model import BayesianRidge
from sklearn.ensemble import ExtraTreesRegressor, RandomForestRegressor

imputers = {
    'bayesian_ridge': IterativeImputer(estimator=BayesianRidge(), random_state=42),
    'extra_trees': IterativeImputer(estimator=ExtraTreesRegressor(n_estimators=10, random_state=42), random_state=42),
    'rf_regressor': IterativeImputer(estimator=RandomForestRegressor(n_estimators=10, random_state=42), random_state=42)
}

imputed_datasets = {}
for name, imputer in imputers.items():
    imputed_datasets[name] = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
    print(f"{name}: Средний доход = {imputed_datasets[name]['income'].mean():.2f}")

➡️

Итоги:
— KNN хорошо подходит для небольших числовых датасетов, но требует ресурсов на больших.
— Ансамблевые методы дают лучшее качество, но сложнее и тяжелее в вычислениях.
— MICE — золотая середина для многих задач.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3🔥1🥰1👏1

1.14K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Как НЛМК отслеживает ковши с расплавленным чугуном — и зачем это нужно

Раньше ковши искали по рации. Сегодня — за ними следит цифровая система: знает, где каждый ковш, сколько в нём чугуна, куда он движется и не перегрелась ли футеровка.

В новом кейсе рассказываем:
— почему стандартные RFID-метки плавились и что сделали вместо
— как устроена цифровая модель предприятия
— что даёт это внедрение: меньше простоев, теплопотерь и аварий

👷‍♂️ Спойлер: теперь даже ковши «думают».

📌 Читать: https://proglib.io/sh/mXKzViUZen

Библиотека дата-сайентиста #буст

❤2👍1😁1

1.31K views18:05

2025/07/13 12:13:08
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>