Telegram Web
В 2014 году вышла знаменитая статья Хэдли Уикхэма о Tidy Data (аккуратных данных).
Разбираемся по ссылке, что такое аккуратные данные с точки зрения Python и pandas 🐼

Еще в качестве эксперимента собрал блокнот с примером равновесия Нэша из теории игр, запустить его можно в CoLab по ссылке.
По многочисленным просьбам подготовил перевод статьи про визуализацию в Plotly Express 🥳

👉 Взгляд на Plotly Express.

Приятного чтения! 🐼
Подготовил обзор двух полезных модулей 🐍

Pandas Profiling - это библиотека для генерации интерактивных отчетов (по ссылке пример отчета) на основе пользовательских данных: можем увидеть распределение данных, типы, возможные проблемы. Библиотека очень проста в использовании: можем создать отчет и отправить его кому угодно! 🐼

👉 Использование модуля Pandas Profiling для профилирования или в CoLab

Folium - это библиотека, которая позволяет рисовать карты, маркеры, а также отмечать собственные данные (по умолчанию в OpenStreetMap) 🗺

👉 Используем модуль folium для рисования карт или в CoLab

📚 Остальные переводы, обзоры и кейсы по анализу данных доступны по ссылке.
Подготовил обзор модуля pandera 🐍

Pandera - инструмент для проверки фреймов данных pandas, который предоставляет интуитивно понятный, гибкий и выразительный API 🐼

👉 Проверка статистических данных с помощью модуля pandera или в CoLab

Приятного чтения! 📚
Сегодня две новости 🕺

1️⃣ Запускаю серию статей про визуализацию. Начинаем с pyvis 🐍

Библиотека pyvis предназначена для быстрой визуализации сетевых графиков с минимальным количеством кода на Python. pyvis разработана как обертка для популярной JavaScript библиотеки visJS. Например, результат визуализации сети персонажей Игры престолов 🧝‍♀️

Подробнее см. Делаем сетевые графы интерактивными с помощью Python и Pyvis.

2️⃣ Решил взяться за написание открытого учебника по анализу данных на языке Python 😎 Главы буду публиковать по мере их написания тут 🐼
1️⃣ Собрал небольшой мануал про регулярные выражения в pandas 🐼 Запустить можно в CoLab.

2️⃣ Работаю над главой учебника про pandas и упражнениями. Процесс идет. В мае опубликую 🥳 Принимаются предложения по составу учебника 📚
Подготовил новый перевод кейса с упражнениями! 🐍

Разбираем проект по анализу данных: исследуем средний вес новорожденных (запустить в CoLab):

Этот пример демонстрирует важные шаги практически в любом проекте по анализу данных:

0⃣ Определение данных, которые помогут ответить на вопрос.
1⃣ Получение данных и их загрузка в Python.
2⃣ Проверка данных и устранение ошибок.
3⃣ Выбор соответствующих подмножеств из данных.
4⃣ Использование гистограмм для визуализации распределения значений.
5⃣ Использование сводной статистики для описания данных таким образом, чтобы наилучшим образом ответить на вопрос.
6⃣ Рассмотрение возможных источников ошибок и ограничений в наших выводах.

Остальные переводы доступны по ссылке 🐼
Несколько летних новостей 🐍

1⃣ записал небольшое видео про этапы анализа данных на языке Python, видео доступно по ссылке.

2⃣ также на днях вышло 3-е издание моего пособия по основам языка Python, бумажная версия представлена на сайте издательства.

📚 Остальные переводы, обзоры и кейсы по анализу данных по ссылке 🐼
🔥 Подготовил новый перевод с кейсами: Исследуем отношение между переменными 🐼

1⃣ Мы будем визуализировать отношения с помощью диаграмм рассеяния (scatter plots), диаграмм размаха (box plots) и скрипичных диаграмм (violin plots).

2⃣ И количественно определять отношения, используя корреляцию (correlation) и простую регрессию (simple regression).

Самый важный урок этого блокнота заключается в том, что вы всегда должны визуализировать взаимосвязь между переменными, прежде чем пытаться ее количественно оценить; в противном случае вас могут ввести в заблуждение.

👉 Ссылка на html-версию

👉 Ссылка на Colab

🐍 Остальные переводы по ссылке: https://dfedorov.spb.ru/pandas/
🔥Подготовил новый перевод с кейсами 🕺

В этом блокноте используется вычислительный подход к пониманию вероятности. Мы будем использовать данные Общего социального опроса, чтобы вычислить вероятность таких предположений, как:

Если я выберу случайного респондента в опросе, какова вероятность, что это будут женщины?

Если я выберу случайного респондента, какова вероятность того, что он будет работать в банковской сфере?

Оттуда мы исследуем две взаимосвязанные концепции:

❗️Конъюнкция, которая представляет собой вероятность того, что оба утверждения верны; например, какова вероятность выбора женщины-банкира?

❗️Условная вероятность, которая представляет собой вероятность того, что одно утверждение верно, при условии, что верно другое; например, учитывая, что респондент - женщина, какова вероятность того, что она банкир? 🐼

👉Ссылка на html-версию

👉Ссылка на Colab

🐍 Остальные переводы по ссылке: https://dfedorov.spb.ru/pandas/
🔥Подготовил новый перевод про возможности библиотеки HoloViz с кейсами 🕺

API-интерфейс Pandas .plot() стал де-факто стандартом для высокоуровневого построения графиков в Python и теперь поддерживается множеством различных библиотек, которые используют набор базовых механизмов построения графиков для обеспечения дополнительных возможностей.

В этом блокноте мы исследуем возможности стандартного API .plot и продемонстрируем дополнительные возможности, предоставляемые .hvplot, которые включают бесшовную интерактивность в развернутых информационных панелях и рендеринг на стороне сервера больших наборов данных.

Чтобы показать эти особенности, мы будем использовать набор данных в виде таблиц о землетрясениях.

👉Ссылка на html-версию

🐍 Остальные переводы по ссылке: https://dfedorov.spb.ru/pandas/
🐍 После длительного перерыва вернулся с хорошими новостями.

Разместил свой полный курс видео по Python и анализу данных: https://dfedorov.spb.ru/python3/
Почти год прошел с момента прошлой публикации.

Пакет pandas по-прежнему продолжает набирать популярность: создается множество модулей, использующих тип DataFrame в качестве обмена данными.
Визуализация в Python становится ближе к пользователю, а на моем сайте появилось несколько новых разделов! 😇

👉Учебники по анализу данных на Python (в оригинале) - обновляемая подборка открытых учебников на языке Python. Здесь собраны топовые учебные курсы и книги. Разместил ссылки в порядке убывания их значимости.

👉Справочники и учебники по визуализации (в оригинале) - подборка открытых учебных курсов и статей о визуализации: Streamlit, Vega-Lite, Altair и пр.

👉Python и кибербезопасность - здесь добавил обзор модуля MSTICPy (пакет от Microsoft для анализа инцидентов ИБ), способ обработки хеш-значений и PE/ELF-файлов на языке Python, пример нечеткого хеширования, простую обработку YARA-правил.

👉Дополнительные темы по языку Python - здесь немного про устройство виртуальной машины Python, пример 1 и пример 2 создания простого модуля на языке Си.

❗️Добавил новые справочные презентации по основам pandas: тип Series, тип DataFrame, сводные таблицы, агрегирование и группировка, слияние и соединение, объединение наборов данных, приведение данных в порядок и пр.
Позитивная команда 🟥 в поисках аналитика данных (удаленка + офис в Москве).

👉 Требуемые знания, навыки и опыт:
- высшее образование математическое/техническое;
- опыт работы на позиции системного аналитика/бизнес аналитика от 2х лет;
- опыт работы с BI инструментами;
- опыт работы с ETL-инструментами;
- опыт работы с DWH (Clickhouse/Arenadata/Apache Hadoop);
- опыт участия в процессах Управления Данными, Управления Качеством данных;
- опыт проведения бизнес/системного анализа, формализации требований;
- знание SQL на базовом уровне (select, join, update, insert, case).

👉 Задачи:
- разработка технический требований для построения дашбордов/витрин/отчетности
- разработка макетов дашбордов/витрин/отчетности;
- участие в улучшении качества данных посредством изменения бизнес-процессов добавление необходимых метрик и т.д.;
- анализ систем-источников в компании, подготовка бизнес требований и функциональных требований для сбора данных под расчет метрик;
- анализ альтернативных источников данных в компании для обогащения отчетности и оптимизации их сбора;
- написание технических заданий на доработку систем-источников, хранилища данных;
- подготовка дата-сетов (набора данных) и использование их в BI инструменте;
- проведение обучения бизнес пользователей по построению дашбордов в BI на подготовленных ранее наборах данных;
- участие в демо и тестировании дашбордов/витрин/отчетности.

#вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
Коллеги, поделитесь, какие технологии / языки, помимо Python, вы активно используете для обработки данных?
Anonymous Poll
10%
Bash
3%
PowerShell
1%
Rust
56%
Excel
76%
SQL
12%
R
5%
JavaScript
1%
C#
1%
Julia
2%
Java
Этюды для программистов на Python pinned «Коллеги, поделитесь, какие технологии / языки, помимо Python, вы активно используете для обработки данных?»
Позитивная ML-команда 🟥 в поисках Senior ML Engineer (удаленка + семь офисов в России).

👉 Задачи:
- Предстоит применять техники машинного обучения/статистики/анализа данных или понимать, что можно решить проще и эффективнее традиционными способами для продуктов ⬜️ (обнаружение атак в реальном времени, пост анализ, классификация протоколов, детектирования аномалий, поиск похожих инцидентов и новых "знаний").
- Предстоит внедрять решения в продукты, включая проектирование частей ML-компонент, использующих ML-модели, написания кода для частей, использующих ML-компоненты продукта, проходить код ревью и взаимодействовать с разработчиками продуктов, различных их частей.
- Также предстоит сталкиваться и думать над актуальными проблемами ML-безопасности (как offence так и defence) и способами их решения — это не совсем исследовательская позиция, но быть вовлеченным или желать вовлекаться в актуальные проблемы как ML так и ИБ очень важно.

👉 Что ждём от кандидата:
- Опыт работы на ML позиции > 3 лет.
- Понимание основ статистики, техник машинного обучения в частности глубокого обучения, а также опыт работы с какими-то конкретными задачами. Важна не супер-глубина, сколько умение решать задачу относительно целей и ограничений.
- Хорошие технические познания в Python, опыт с другими языками тоже приветствуются.
- Опыт работы с Linux-based ОС, Docker.
- Знания основ CS: алгоритмы и структуры данных (не на уровне олимпиадников, а на уровне опыта применения).
- Опыт работы в командах c agile/kanban процессами.
- Опыт доведения прототипов до прода.

#вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
Про метод apply в pandas

Возвращаемся к изучению основ pandas 🐼 в формате теория + самостоятельная практика 🤓

Частый кейс, который решается благодаря методу apply - заполнение значений в таблице, исходя из показаний в других столбцах. Например, в популярном датасете titanic множество пропусков в столбце с возрастом пассажиров (age).

Можем заполнить их несколькими способами: 1️⃣ заменить константой, 2️⃣ средним по столбцу или 3️⃣ более сложным способом, учитывая другие столбцы (на рисунке показан пример таблицы с пропущенным значением в столбце age).

👉 Пример кейса titanic с методом apply доступен по ссылке, по традиции внутри блокнота есть Colab.

👨‍🏫 Закрепить понимание темы предлагаю решением кейса с классификацией вин 🍷 по ссылке в Colab.
Please open Telegram to view this post
VIEW IN TELEGRAM
Подготовил по ссылке сводный блокнот про различные способы загрузки и выгрузки данных в Python и pandas 👨‍🏫

Рассматриваю темы:
- модули csv, json, sqlite3 🖥
- функции read_csv, read_table, read_excel, read_html, read_sql 🐼
- функции to_csv, to_excel, to_html 🐼
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/01 01:02:54
Back to Top
HTML Embed Code: