DSPROGLIB Telegram 6430
📈 Холивар: NumPy против pandas против PySpark — кто рулит в данных

Дата-сайентисты, делитесь: чем копаете свои миллионы строк?

🐍 NumPy — минимализм и математика
• Основа всех ML-библиотек.
• Векторы, матрицы, broadcasting — строго, быстро, эффективно.
• Если ты знаешь np.dot и np.linalg, тебя зовут в глубины ML.

Но:
• Строгая типизация и отсутствие удобных табличек.
• Хотел сделать фильтр по колонке? Сначала reshape.
IndexError: too many indices — старая знакомая.

📊 pandas — король табличек
df.head() — и ты уже видишь суть.
• Гибкость, группировки, фильтрации — словно Excel на стероидах.
• Подходит и для EDA, и для препроцессинга.

Но:
• Большой датасет? Привет, out of memory.
• Интуитивно, но не всегда предсказуемо.
SettingWithCopyWarning — и ты не уверен, изменил ли что-то вообще.

🔥 PySpark — big data и кластеры
• Когда данных слишком много для pandas.
• Распределённые вычисления, lazy evaluation, Spark SQL.
• Подходит для продакшена, когда ноутбук уже плачет.

Но:
• Стартуем JVM… подождите немного.
• Написал три строчки — получил лог на 300 строк.
• Не для быстрых экспериментов.

А вы кто: numpy-ниндзя, pandas-мастер или spark-инженер? Или по чуть-чуть от каждого?
Инструкция о том, как оставить комментарий: https://www.tgoop.com/dsproglib/6244

Библиотека дата-сайентиста #междусобойчик
👍91



tgoop.com/dsproglib/6430
Create:
Last Update:

📈 Холивар: NumPy против pandas против PySpark — кто рулит в данных

Дата-сайентисты, делитесь: чем копаете свои миллионы строк?

🐍 NumPy — минимализм и математика
• Основа всех ML-библиотек.
• Векторы, матрицы, broadcasting — строго, быстро, эффективно.
• Если ты знаешь np.dot и np.linalg, тебя зовут в глубины ML.

Но:
• Строгая типизация и отсутствие удобных табличек.
• Хотел сделать фильтр по колонке? Сначала reshape.
IndexError: too many indices — старая знакомая.

📊 pandas — король табличек
df.head() — и ты уже видишь суть.
• Гибкость, группировки, фильтрации — словно Excel на стероидах.
• Подходит и для EDA, и для препроцессинга.

Но:
• Большой датасет? Привет, out of memory.
• Интуитивно, но не всегда предсказуемо.
SettingWithCopyWarning — и ты не уверен, изменил ли что-то вообще.

🔥 PySpark — big data и кластеры
• Когда данных слишком много для pandas.
• Распределённые вычисления, lazy evaluation, Spark SQL.
• Подходит для продакшена, когда ноутбук уже плачет.

Но:
• Стартуем JVM… подождите немного.
• Написал три строчки — получил лог на 300 строк.
• Не для быстрых экспериментов.

А вы кто: numpy-ниндзя, pandas-мастер или spark-инженер? Или по чуть-чуть от каждого?
Инструкция о том, как оставить комментарий: https://www.tgoop.com/dsproglib/6244

Библиотека дата-сайентиста #междусобойчик

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tgoop.com/dsproglib/6430

View MORE
Open in Telegram


Telegram News

Date: |

The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” 3How to create a Telegram channel? The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added.
from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American