Telegram Web
📊 Промт дня: быстрый разведочный анализ (EDA) нового датасета

Перед тем как приступить к построению моделей или визуализаций, важно понять, с какими данными вы работаете. Разведочный анализ (Exploratory Data Analysis, EDA) помогает выявить структуру, качество и ключевые особенности датасета — это фундамент любого проекта в области аналитики и машинного обучения.

Промт:
Выполни экспресс-EDA (Exploratory Data Analysis) на pandas DataFrame. Проанализируй следующие аспекты:
• Определи типы переменных (числовые, категориальные и пр.).
• Проверь наличие и долю пропущенных значений по столбцам.
• Рассчитай базовые статистики (среднее, медиана, стандартное отклонение и т.д.).
• Оцени распределения признаков и выдели потенциальные выбросы.
• Сформулируй ключевые наблюдения и инсайты, которые могут повлиять на последующую обработку или моделирование данных.


🎯 Цель — получить общее представление о структуре, качестве и особенностях данных до начала построения моделей или визуализаций.

Поддерживается использование специализированных инструментов:
📝 pandas_profiling / ydata-profiling — для автоматического отчета,
📝 sweetviz — для визуального сравнения датасетов,
📝 seaborn и matplotlib — для точечных визуализаций распределений и корреляций.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🚨 Смешные новости про IT теперь в одном канале

Мы запустили @hahacker_news — наш новый юмористический IT-канал.

Туда будем постить лучшие шутки до 19го мая, которые вы присылали на конкурс.

👉 @hahacker_news — голосование уже идёт, переходите, читайте, угарайте и оставляйте реакции
This media is not supported in your browser
VIEW IN TELEGRAM
🤝 Hugging Face + Kaggle: улучшенный доступ к моделям для всех

Теперь Kaggle и Hugging Face тесно интегрированы:
➡️ Вы можете запускать модели Hugging Face напрямую в Kaggle-ноутбуках.
➡️ Kaggle автоматически создаёт страницы моделей на своей стороне, если их ещё нет.
➡️ Появилась централизованная точка для поиска моделей и примеров кода.

📤 Из Hugging Face в Kaggle:
1. Зайдите на страницу модели (например, Qwen/Qwen3-1.7B) на Hugging Face.
2. Нажмите «Use this model» → выберите Kaggle.
3. Откроется ноутбук с уже готовым кодом для загрузки модели.

📥 Из Kaggle в Hugging Face:
1. На Kaggle-моделях теперь есть вкладка «Code», где отображаются все публичные ноутбуки, использующие эту модель.
2. Также есть кнопка «Открыть в Hugging Face» — для перехода на оригинальную страницу модели с полными метаданными и обсуждениями.

🚩 В ближайшие месяцы Kaggle планирует внедрить поддержку моделей Hugging Face в оффлайн-соревнованиях. Это требует особого подхода, так как Kaggle строго следит за отсутствием утечек данных и честностью результатов.

Подробности в блоге: https://clc.to/YCGcmQ

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Как ускорить Python-код для ресурсоёмких задач

При работе с большими объёмами данных Python может «тормозить», особенно при обработке сотен тысяч строк или обучении сложных ML-моделей.

🎯 Ниже — два приёма, которые позволят ускорить обучение и загрузку данных в десятки раз.

1️⃣ Используйте GPU с включённым memory growth

По умолчанию TensorFlow может попытаться занять всю память видеокарты, что приводит к ошибке OOM. Решение — включить «постепенное» выделение памяти:
gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
for gpu in gpus:
tf.config.experimental.set_memory_growth(gpu, True)


2️⃣ Оптимизируйте загрузку данных с `tf.data`

Загрузка Excel-файла — типичное узкое место (Disk I/O). Использование tf.data.Dataset с prefetch позволяет загружать и обрабатывать данные асинхронно.

Пример:
dataset = tf.data.Dataset.from_generator(
data_generator,
output_signature={col: tf.TensorSpec(shape=(), dtype=tf.float32) for col in data.columns}
).shuffle(1000).batch(32).prefetch(tf.data.AUTOTUNE)


📎 Вывод:
GPU и tf.data с правильной настройкой дают мощный прирост производительности. Особенно важно при работе с крупными ML-пайплайнами и в продакшене.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Fest 2025 в гостях у VK — офлайн 24 мая 🤩

Открываем конференцию Data Fest 2025 — в офисе VK. Приходите познакомиться с опытом дата-инженеров и исследователей в направлениях LLM, NLP, MLOps и других. Эксперты VK подготовили секцию докладов о RecSys, Reliable ML и карьере тимлида. Афтепати с розыгрышем призов и нетворкингом прилагается.

📍 Встречаемся 24 мая по адресу: Ленинградский проспект, 39, стр. 79, БЦ Skylight, башня А.

🤗 Регистрация уже открыта.
Количество мест ограничено, поэтому заполняйте анкету внимательно.
🎧 Как работает преобразование Фурье — простыми словами и на Python

Вы, наверняка, слышали о преобразовании Фурье, но что это на самом деле и зачем оно нужно?

Мы подготовили для вас 6 простых карточек:
📍 Что делает преобразование Фурье
📍 Как разложить сигнал
📍 Как найти шум
📍 И даже как его убрать!

Листайте 👉

Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/1DKn7CfvLQ

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик
🆕 Свежие новости из мира AI и Data Science

🔥 Модели, релизы и технологии:
AlphaEvolve — новый кодинг-агент для сложных алгоритмов
Model Context Protocol (MCP) — мост между LLM и любыми API
Hugging Face + Kaggle — совместный доступ к моделям для всех

🧠 Статьи, исследования и лучшие практики:
Continuous Thought Machine — новая архитектура от SakanaAI, вдохновлённая биологией
LLM превзошли врачей — OpenAI выпускает медицинский бенчмарк
Инженерные хаки от DeepSeek — обучение и инференс без боли
System prompt Claude — слит весь Claude на 24k токенов

📘 Обучение и развитие:
fit() для новичков — просто и понятно
От студента до AI-инженера — карьерный гайд
MLечный путь 2025 — репортаж с коммьюнити-мероприятия
Как прокачаться джуниору в ML — полезная подборка

🛠 Практика и инструменты:
Разворачиваем нейросеть на VPS — FastAPI + Hugging Face за 15 минут
Точная OCR через декомпозицию — кейс Avito

💬 Мнение:
Интервью про ИИ, которое меня выбесило — критика, сатира, реакция

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Представьте, что ваш мозг в союзе с суперкомпьютером: вы задаёте направление, а машина выполняет задачи. Именно так может работать современная аналитика.

На курсе Нетологии «ИИ для анализа данных» вы узнаете, как сделать ChatGPT, DeepSeek, Gemini и другие нейросети своими полноценными помощниками.

За 2 месяца под руководством эксперта-практика научитесь:

находить тренды и аномалии в данных,
генерировать SQL-запросы и анализировать Excel-таблицы,
получать от ИИ обоснованные выводы и рекомендации,
работать с Python в Jupyter Notebook без знания языка,
создавать ИИ-ассистентов под нужные задачи.
Ещё вы получите библиотеку готовых промптов и доступ к курсу «Английский язык для аналитики».

Освойте современный подход к анализу данных → https://netolo.gy/d9Ij
А по ПРОМОКОДУ AIDSTG10 - скидка 10%

Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5yMjEBS
2025/05/19 11:39:04
Back to Top
HTML Embed Code: