tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
⭐ Инструмент недели: Shapash
Shapash — это библиотека для Python, предназначенная для интерпретируемого и понятного машинного обучения. Она предлагает различные визуализации с четкими и понятными метками, которые легко воспринимаются как специалистами по данным, так и пользователями без технического бэкграунда.
▪️ Что умеет Shapash?
— Генерирует Web-приложение для анализа взаимодействий между признаками модели.
— Позволяет переключаться между локальной и глобальной интерпретируемостью модели.
— Упрощает аудит моделей и данных, создавая подробные отчеты.
▪️ Shapash подходит для:
— Регрессии
— Бинарной классификации
— Мультиклассовой классификации
▪️ Совместим с моделями:
— CatBoost, XGBoost, LightGBM
— Sklearn Ensemble, линейные модели, SVM
— Другие модели также можно интегрировать (подробности в документации).
✔️ Ссылка на репозиторий: https://clc.to/Y1mkYA
Библиотека дата-сайентиста #буст
Shapash — это библиотека для Python, предназначенная для интерпретируемого и понятного машинного обучения. Она предлагает различные визуализации с четкими и понятными метками, которые легко воспринимаются как специалистами по данным, так и пользователями без технического бэкграунда.
▪️ Что умеет Shapash?
— Генерирует Web-приложение для анализа взаимодействий между признаками модели.
— Позволяет переключаться между локальной и глобальной интерпретируемостью модели.
— Упрощает аудит моделей и данных, создавая подробные отчеты.
▪️ Shapash подходит для:
— Регрессии
— Бинарной классификации
— Мультиклассовой классификации
▪️ Совместим с моделями:
— CatBoost, XGBoost, LightGBM
— Sklearn Ensemble, линейные модели, SVM
— Другие модели также можно интегрировать (подробности в документации).
✔️ Ссылка на репозиторий: https://clc.to/Y1mkYA
Библиотека дата-сайентиста #буст
👍6❤1
☕ Что посмотреть: Fabric Espresso
Команда Microsoft Fabric запускает новую серию блог-постов о Data Science и Machine Learning в Microsoft Fabric.
За последние 1,5 года продакт-менеджеры выпустили 80+ эпизодов на YouTube, где:
▪️ разбирают фичи продукта,
▪️ делятся дорожной картой,
▪️ показывают реальные кейсы.
Теперь следить за новинками стало еще проще! Они начали публиковать тематические подборки эпизодов с ключевыми инсайтами и пояснениями.
📌 В фокусе этой недели: данные, модели, AutoML и возможности ML в Fabric.
🎥 Смотреть плейлист: https://clc.to/NAT8FQ
Библиотека дата-сайентиста #буст
Команда Microsoft Fabric запускает новую серию блог-постов о Data Science и Machine Learning в Microsoft Fabric.
За последние 1,5 года продакт-менеджеры выпустили 80+ эпизодов на YouTube, где:
▪️ разбирают фичи продукта,
▪️ делятся дорожной картой,
▪️ показывают реальные кейсы.
Теперь следить за новинками стало еще проще! Они начали публиковать тематические подборки эпизодов с ключевыми инсайтами и пояснениями.
📌 В фокусе этой недели: данные, модели, AutoML и возможности ML в Fabric.
🎥 Смотреть плейлист: https://clc.to/NAT8FQ
Библиотека дата-сайентиста #буст
👍2❤1
Forwarded from Библиотека девопса | DevOps, SRE, Sysadmin
☸️ CKAD 2025. Самый свежий гайд по сдаче сертификации Certified Kubernetes Application Developer
CKAD стал более строгим к деталям — без системной подготовки можно завалить даже на банальных заданиях. Если хочется разобраться, что важно для получения сертификации — эта статья сэкономит часы.
➡️ Читать статью
🐸 Библиотека devops'a
CKAD стал более строгим к деталям — без системной подготовки можно завалить даже на банальных заданиях. Если хочется разобраться, что важно для получения сертификации — эта статья сэкономит часы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Сегодня делимся вопросом от нашего подписчика, который уже 3,5 года работает Data Scientist, но хочет выйти на новый уровень и попасть в топовые компании.
Общаясь с опытными DS, я получил важный фидбэк по своему резюме:— У меня недостаточно опыта в NLP, Deep Learning и LLMs.— У меня нет проектов, которые демонстрируют эти навыки.— По оформлению резюме мнения сильно разнятся.
Теперь передо мной стоит вопрос: как эффективно прокачать эти навыки и повысить шансы на новую работу?
🔹 Как развить понимание NLP, DL и LLMs на уровне, достаточном для перехода в новую компанию?
🔹 Из-за разных форматов обучения (курсы, проекты и т. д.) ощущаю перегруз. Как организовать процесс, чтобы не распыляться?
🔹 Как объективно оценить свою подготовку перед собеседованием?
💡 Делитесь своими советами и личным опытом в комментариях!
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🤔1
aiopandas
— асинхронная магия для PandasТеперь обработка данных в Pandas может быть асинхронной!
aiopandas
— это лёгкий monkey-patch, который добавляет поддержку async в map
, apply
, applymap
, aggregate
и transform
. Это позволяет параллельно выполнять асинхронные функции без лишних сложностей. 🔺 Что умеет aiopandas?
— Поддерживает асинхронные функции без изменений в коде
— Управляет количеством параллельных задач через
max_parallel
— Встроенная обработка ошибок: можно прерывать, игнорировать или логировать
— Поддержка
tqdm
для отслеживания прогресса 🔺 Быстрый старт:
import aiopandas as pd # Monkey-патчим Pandas
import asyncio
df = pd.DataFrame({'x': range(10)})
async def f(x):
await asyncio.sleep(0.1 x) # Симуляция асинхронной задачи
return x 2 # Преобразование данных
df['y'] = await df.x.amap(f, max_parallel=5) # Асинхронный map
print(df)
🔺 Кому пригодится aiopandas?
— Запросы к API (LLMs, веб-скрапинг, базы данных)
— Ускорение работы с асинхронными задачами в Pandas
— Минимальные изменения кода:
.map()
→ .amap()
, .apply()
→ .aapply()
Ссылка на репозиторий aiopandas: https://clc.to/Pf_xow
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5⚡3❤1
🎯 Устали от вопросов типа «Ну и что это значит для бизнеса?» после презентации отчетов?
Bullet-chart — мощный инструмент, который сразу показывает, насколько фактические показатели соответствуют целевым. В этой статье разберем, как правильно читать такой график и шаг за шагом создадим его в Power BI.
Готовы визуализировать данные так, чтобы они говорили сами за себя?
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Качество и количество данных — ключ к успеху в машинном обучении. Но что эффективнее, дешевле и «правильнее» для улучшения модели?
• Экономия времени: повороты, отражения, шумы (например, с помощью библиотеки Albumentations) создают тысячи новых примеров за минуты.
• Борется с переобучением: модель учится на разнообразных вариациях данных.
• Доступно даже с маленьким датасетом: из 1000 изображений можно сделать 10 000.
• Аугментация не всегда отражает реальные сценарии, и модель может «выучить» искусственные артефакты.
• Реалистичность: модель видит настоящие данные, а не сгенерированные вариации.
• Лучше для сложных задач: например, в медицинском ML синтетические данные могут быть недостаточно точными.
• Долгосрочная выгода: качественный датасет можно использовать для разных проектов.
• Сбор данных дорогой (например, разметка изображений может стоить $1–5 за пример) и занимает много времени.
• Начало: использование аугментации для быстрого наращивания объёма данных.
• Со временем: добавление реальных данных для улучшения качества модели.
• Баланс: экономия на разметке при сохранении реалистичности.
• Риски: необходимость грамотного балансирования, чтобы избежать перегрузки модели «фальшивыми» данными.
Давайте обсудим в комментариях!
👍 Аугментация — потому что быстро и дёшево
❤️ Сбор данных — реальные данные рулят
🔥 Гибрид — зачем выбирать, если можно всё?
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤7👍2❤🔥1
🚀 Модели и релизы:
— NemoTron-H — новые гибридные Mamba-модели от NVIDIA, обученные на 20T токенов
— Google DeepMind представил Gemini 2.5 Pro Experimental — доступен в Google AI Studio и приложении Gemini
— Google DeepMind опубликовал технический отчёт о Gemma 3 — 27B параметров, оптимизирован для многозадачности и многозначности
— OpenAI добавил генерацию изображений в GPT-4o и Sora — интеграция текстового и визуального AI
📊 Аналитика и исследования:
— Hugging Face Real-Time Endpoint Analytics — теперь с обновлениями в реальном времени для мониторинга AI-инференса
— OpenAI и MIT исследовали эмоциональное влияние ChatGPT — редкие, но глубокие взаимодействия, снижение благополучия у активных пользователей.
— Как дистилляция меняет AI-индустрию — ускорение моделей без потери качества
— Галлюцинации в языковых моделях — причины, типы и способы борьбы
🔒 Безопасность и интеграция:
— NIST выпустил финальное руководство по безопасности AI — рекомендации по защите AI-систем от атак
— OpenAI внедрил Anthropic MCP в Agents SDK — упрощает интеграцию сторонних инструментов
📚 Что почитать:
— Модели машинного обучения: что могут спросить на интервью
— Частые ловушки в ML-экспериментах
— От скриптов к сервисам: 10 книг для Data Science-разработки
— Подборка книг по нейросетям и рекомендательным системам
— Советы по эффективному обучению ML-моделей
— Reinforcement Learning: детальный обзор
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?
Давайте разберём основные методы:
🔥 Высокая температура → креативный, но хаотичный текст.
❄️ Низкая температура → логичный, но скучный текст.
💡 Какой метод лучше?
✓ Если нужен фактологичный ответ — лучше beam search
✓Для творческих текстов — sampling
✓ Для баланса между качеством и разнообразием — contrastive search
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
🔹 Конференции:
• ECIR 2025 — Европейская конференция по информационному поиску
6–10 апреля | Лукка, Италия
• CHI 2025 — Конференция по взаимодействию человека и компьютера
26 апреля — 1 мая | Иокогама, Япония
• ICLR 2025 — Международная конференция по представлениям обучения
24–28 апреля | Сингапур
🔹 Релизы фреймворков для ИИ:
• TensorFlow 2.20.0 — ожидается около 12 апреля
• PyTorch 2.7 — запланирован на апрель
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🎭 Dev Memes: 1 апреля, а баги всё те же
Сегодня день официально разрешённого троллинга — и мы не могли пройти мимо. Собрали подборку мемов для Дата-сайентиста, которые вызывают лёгкое желание уволиться.
👉 Всё это — из нашего мемного канала «Библиотека IT-мемов»
Библиотека дата-сайентиста
Сегодня день официально разрешённого троллинга — и мы не могли пройти мимо. Собрали подборку мемов для Дата-сайентиста, которые вызывают лёгкое желание уволиться.
👉 Всё это — из нашего мемного канала «Библиотека IT-мемов»
Библиотека дата-сайентиста
😁4❤2