⭐️ Чек-лист: как правильно работать с pandas

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⭐️

Чек-лист: как правильно работать с pandas

Работаете с табличными данными?

Эти простые советы сэкономят вам время, память и нервы:

✔️

Используйте векторизацию вместо apply

Быстрее, короче, читаемее:

# Вместо apply
df["log"] = np.log(df["x"])

✔️

Считайте в столбцах, а не в цикле по строкам

Избавьтесь от .iterrows() — векторные операции эффективнее:

df["sum"] = df["a"] + df["b"]

✔️

Используйте `category` для колонок с повторяющимися строками

Существенно уменьшает потребление памяти:

df["country"] = df["country"].astype("category")

✔️

Загружайте только нужные данные

Не тратьте ресурсы на лишние строки и столбцы:

pd.read_csv("big.csv", usecols=["col1", "col2"], nrows=100_000)

✔️

Сохраняйте данные одним вызовом, а не в цикле

Сначала собираем — потом записываем:

df.to_csv("result.csv", index=False)

✔️

Контролируйте использование памяти

Проверяйте «тяжёлые» столбцы

df.memory_usage(deep=True)

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/dsproglib/6530

1.4K viewsJun 5 at 06:57

tgoop.com/dsproglib/6530

Create: 2025-06-05
Last Update: 2025-07-06 08:08:59

⭐️ Чек-лист: как правильно работать с pandas

Работаете с табличными данными?

Эти простые советы сэкономят вам время, память и нервы:

✔️ Используйте векторизацию вместо apply

Быстрее, короче, читаемее:

# Вместо apply
df["log"] = np.log(df["x"])

✔️