tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
📊 Промт дня: быстрый разведочный анализ (EDA) нового датасета
Перед тем как приступить к построению моделей или визуализаций, важно понять, с какими данными вы работаете. Разведочный анализ (Exploratory Data Analysis, EDA) помогает выявить структуру, качество и ключевые особенности датасета — это фундамент любого проекта в области аналитики и машинного обучения.
Промт:
🎯 Цель — получить общее представление о структуре, качестве и особенностях данных до начала построения моделей или визуализаций.
Поддерживается использование специализированных инструментов:
📝
📝
📝
Библиотека дата-сайентиста #буст
Перед тем как приступить к построению моделей или визуализаций, важно понять, с какими данными вы работаете. Разведочный анализ (Exploratory Data Analysis, EDA) помогает выявить структуру, качество и ключевые особенности датасета — это фундамент любого проекта в области аналитики и машинного обучения.
Промт:
Выполни экспресс-EDA (Exploratory Data Analysis) на pandas DataFrame. Проанализируй следующие аспекты:
• Определи типы переменных (числовые, категориальные и пр.).
• Проверь наличие и долю пропущенных значений по столбцам.
• Рассчитай базовые статистики (среднее, медиана, стандартное отклонение и т.д.).
• Оцени распределения признаков и выдели потенциальные выбросы.
• Сформулируй ключевые наблюдения и инсайты, которые могут повлиять на последующую обработку или моделирование данных.
🎯 Цель — получить общее представление о структуре, качестве и особенностях данных до начала построения моделей или визуализаций.
Поддерживается использование специализированных инструментов:
pandas_profiling
/ ydata-profiling
— для автоматического отчета,sweetviz
— для визуального сравнения датасетов,seaborn
и matplotlib
— для точечных визуализаций распределений и корреляций.Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🚨 Смешные новости про IT теперь в одном канале
Мы запустили @hahacker_news — наш новый юмористический IT-канал.
Туда будем постить лучшие шутки до 19го мая, которые вы присылали на конкурс.
👉 @hahacker_news — голосование уже идёт, переходите, читайте, угарайте и оставляйте реакции
Мы запустили @hahacker_news — наш новый юмористический IT-канал.
Туда будем постить лучшие шутки до 19го мая, которые вы присылали на конкурс.
👉 @hahacker_news — голосование уже идёт, переходите, читайте, угарайте и оставляйте реакции
This media is not supported in your browser
VIEW IN TELEGRAM
🤝 Hugging Face + Kaggle: улучшенный доступ к моделям для всех
Теперь Kaggle и Hugging Face тесно интегрированы:
➡️ Вы можете запускать модели Hugging Face напрямую в Kaggle-ноутбуках.
➡️ Kaggle автоматически создаёт страницы моделей на своей стороне, если их ещё нет.
➡️ Появилась централизованная точка для поиска моделей и примеров кода.
📤 Из Hugging Face в Kaggle:
1. Зайдите на страницу модели (например,
2. Нажмите «Use this model» → выберите Kaggle.
3. Откроется ноутбук с уже готовым кодом для загрузки модели.
📥 Из Kaggle в Hugging Face:
1. На Kaggle-моделях теперь есть вкладка «Code», где отображаются все публичные ноутбуки, использующие эту модель.
2. Также есть кнопка «Открыть в Hugging Face» — для перехода на оригинальную страницу модели с полными метаданными и обсуждениями.
🚩 В ближайшие месяцы Kaggle планирует внедрить поддержку моделей Hugging Face в оффлайн-соревнованиях. Это требует особого подхода, так как Kaggle строго следит за отсутствием утечек данных и честностью результатов.
✅ Подробности в блоге: https://clc.to/YCGcmQ
Библиотека дата-сайентиста #свежак
Теперь Kaggle и Hugging Face тесно интегрированы:
📤 Из Hugging Face в Kaggle:
1. Зайдите на страницу модели (например,
Qwen/Qwen3-1.7B
) на Hugging Face.2. Нажмите «Use this model» → выберите Kaggle.
3. Откроется ноутбук с уже готовым кодом для загрузки модели.
📥 Из Kaggle в Hugging Face:
1. На Kaggle-моделях теперь есть вкладка «Code», где отображаются все публичные ноутбуки, использующие эту модель.
2. Также есть кнопка «Открыть в Hugging Face» — для перехода на оригинальную страницу модели с полными метаданными и обсуждениями.
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Как ускорить Python-код для ресурсоёмких задач
При работе с большими объёмами данных Python может «тормозить», особенно при обработке сотен тысяч строк или обучении сложных ML-моделей.
🎯 Ниже — два приёма, которые позволят ускорить обучение и загрузку данных в десятки раз.
1️⃣ Используйте GPU с включённым memory growth
По умолчанию TensorFlow может попытаться занять всю память видеокарты, что приводит к ошибке OOM. Решение — включить «постепенное» выделение памяти:
2️⃣ Оптимизируйте загрузку данных с `tf.data`
Загрузка Excel-файла — типичное узкое место (Disk I/O). Использование
Пример:
📎 Вывод:
GPU и
Библиотека дата-сайентиста #буст
При работе с большими объёмами данных Python может «тормозить», особенно при обработке сотен тысяч строк или обучении сложных ML-моделей.
🎯 Ниже — два приёма, которые позволят ускорить обучение и загрузку данных в десятки раз.
По умолчанию TensorFlow может попытаться занять всю память видеокарты, что приводит к ошибке OOM. Решение — включить «постепенное» выделение памяти:
gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
for gpu in gpus:
tf.config.experimental.set_memory_growth(gpu, True)
Загрузка Excel-файла — типичное узкое место (Disk I/O). Использование
tf.data.Dataset
с prefetch
позволяет загружать и обрабатывать данные асинхронно.Пример:
dataset = tf.data.Dataset.from_generator(
data_generator,
output_signature={col: tf.TensorSpec(shape=(), dtype=tf.float32) for col in data.columns}
).shuffle(1000).batch(32).prefetch(tf.data.AUTOTUNE)
📎 Вывод:
GPU и
tf.data
с правильной настройкой дают мощный прирост производительности. Особенно важно при работе с крупными ML-пайплайнами и в продакшене.Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Fest 2025 в гостях у VK — офлайн 24 мая 🤩
Открываем конференцию Data Fest 2025 — в офисе VK. Приходите познакомиться с опытом дата-инженеров и исследователей в направлениях LLM, NLP, MLOps и других. Эксперты VK подготовили секцию докладов о RecSys, Reliable ML и карьере тимлида. Афтепати с розыгрышем призов и нетворкингом прилагается.
📍 Встречаемся 24 мая по адресу: Ленинградский проспект, 39, стр. 79, БЦ Skylight, башня А.
🤗 Регистрация уже открыта.
Количество мест ограничено, поэтому заполняйте анкету внимательно.
Открываем конференцию Data Fest 2025 — в офисе VK. Приходите познакомиться с опытом дата-инженеров и исследователей в направлениях LLM, NLP, MLOps и других. Эксперты VK подготовили секцию докладов о RecSys, Reliable ML и карьере тимлида. Афтепати с розыгрышем призов и нетворкингом прилагается.
📍 Встречаемся 24 мая по адресу: Ленинградский проспект, 39, стр. 79, БЦ Skylight, башня А.
🤗 Регистрация уже открыта.
Количество мест ограничено, поэтому заполняйте анкету внимательно.
🎧 Как работает преобразование Фурье — простыми словами и на Python
⠀
Вы, наверняка, слышали о преобразовании Фурье, но что это на самом деле и зачем оно нужно?
⠀
Мы подготовили для вас 6 простых карточек:
📍 Что делает преобразование Фурье
📍 Как разложить сигнал
📍 Как найти шум
📍 И даже как его убрать!
⠀
Листайте 👉
Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/1DKn7CfvLQ
Библиотека дата-сайентиста #буст
⠀
Вы, наверняка, слышали о преобразовании Фурье, но что это на самом деле и зачем оно нужно?
⠀
Мы подготовили для вас 6 простых карточек:
⠀
Листайте 👉
Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/1DKn7CfvLQ
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Самые догадливые, пишите ответ в комментах 👇
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
🔥 Модели, релизы и технологии:
— AlphaEvolve — новый кодинг-агент для сложных алгоритмов
— Model Context Protocol (MCP) — мост между LLM и любыми API
— Hugging Face + Kaggle — совместный доступ к моделям для всех
🧠 Статьи, исследования и лучшие практики:
— Continuous Thought Machine — новая архитектура от SakanaAI, вдохновлённая биологией
— LLM превзошли врачей — OpenAI выпускает медицинский бенчмарк
— Инженерные хаки от DeepSeek — обучение и инференс без боли
— System prompt Claude — слит весь Claude на 24k токенов
📘 Обучение и развитие:
— fit() для новичков — просто и понятно
— От студента до AI-инженера — карьерный гайд
— MLечный путь 2025 — репортаж с коммьюнити-мероприятия
— Как прокачаться джуниору в ML — полезная подборка
🛠 Практика и инструменты:
— Разворачиваем нейросеть на VPS — FastAPI + Hugging Face за 15 минут
— Точная OCR через декомпозицию — кейс Avito
💬 Мнение:
— Интервью про ИИ, которое меня выбесило — критика, сатира, реакция
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Представьте, что ваш мозг в союзе с суперкомпьютером: вы задаёте направление, а машина выполняет задачи. Именно так может работать современная аналитика.
На курсе Нетологии «ИИ для анализа данных» вы узнаете, как сделать ChatGPT, DeepSeek, Gemini и другие нейросети своими полноценными помощниками.
За 2 месяца под руководством эксперта-практика научитесь:
находить тренды и аномалии в данных,
генерировать SQL-запросы и анализировать Excel-таблицы,
получать от ИИ обоснованные выводы и рекомендации,
работать с Python в Jupyter Notebook без знания языка,
создавать ИИ-ассистентов под нужные задачи.
Ещё вы получите библиотеку готовых промптов и доступ к курсу «Английский язык для аналитики».
Освойте современный подход к анализу данных → https://netolo.gy/d9Ij
А по ПРОМОКОДУ AIDSTG10 - скидка 10%
Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5yMjEBS
На курсе Нетологии «ИИ для анализа данных» вы узнаете, как сделать ChatGPT, DeepSeek, Gemini и другие нейросети своими полноценными помощниками.
За 2 месяца под руководством эксперта-практика научитесь:
находить тренды и аномалии в данных,
генерировать SQL-запросы и анализировать Excel-таблицы,
получать от ИИ обоснованные выводы и рекомендации,
работать с Python в Jupyter Notebook без знания языка,
создавать ИИ-ассистентов под нужные задачи.
Ещё вы получите библиотеку готовых промптов и доступ к курсу «Английский язык для аналитики».
Освойте современный подход к анализу данных → https://netolo.gy/d9Ij
А по ПРОМОКОДУ AIDSTG10 - скидка 10%
Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5yMjEBS