tgoop.com/dsproglib/6530
Create:
Last Update:
Last Update:
Работаете с табличными данными?
Эти простые советы сэкономят вам время, память и нервы:
Быстрее, короче, читаемее:
# Вместо apply
df["log"] = np.log(df["x"])
Избавьтесь от
.iterrows()
— векторные операции эффективнее:df["sum"] = df["a"] + df["b"]
Существенно уменьшает потребление памяти:
df["country"] = df["country"].astype("category")
Не тратьте ресурсы на лишние строки и столбцы:
pd.read_csv("big.csv", usecols=["col1", "col2"], nrows=100_000)
Сначала собираем — потом записываем:
df.to_csv("result.csv", index=False)
Проверяйте «тяжёлые» столбцы
df.memory_usage(deep=True)
Библиотека дата-сайентиста #буст