tgoop.com/tricky_python/118
Last Update:
Вышел pandas 2.0 релиз, который был во многом ориентирован на улучшение производительности. Что интересного:
- Если раньше pandas работал только поверх numpy, теперь можно выбрать в качестве бекенда apache arrow
- Работа с отсутствующими значениями и строками стала эффективнее при использовании arrow backend
- Copy-on-write - ленивое копирование, при котором реальное копирование данных откладывается до тех пор, пока мы не начнем изменять данные. Это уменьшит количество ошибок, когда меняя данные в срезе мы на самом деле меняем исходный фрейм и при этом не скажется на производительности, когда нам нужно только читать данные
- Числовые индексы теперь могут быть не только 64-х разрядные (`int64`, uint64, `float64`), но и любых других числовых типов
- У datetime и timedelta теперь можно указывать единицу измерения. Если раньше pandas приводил все к наносекундам, теперь можно явно указать что-то типа dtype="datetime64[s]"
Полный список изменений: https://pandas.pydata.org/docs/dev/whatsnew/v2.0.0.html
BY Хитрый Питон
Share with your friend now:
tgoop.com/tricky_python/118
