tgoop.com/data_hub_ir/933
Create:
Last Update:
Last Update:
امروز یه کار عملی برای تون دارم میخواید ببینید دیتاتون چقدر کیفیت داره؟
کد زیر رو اجرا کنید (Python):
import pandas as pd
# فایل CSV خودتون رو بخونید
df = pd.read_csv('your_data.csv')
# گزارش سریع کیفیت داده
print(f"تعداد سطرها: {len(df)}")
print(f"تعداد ستونها: {len(df.columns)}")
print(f"مقادیر خالی: {df.isnull().sum().sum()}")
print(f"سطرهای تکراری: {df.duplicated().sum()}")
# آماره سریع
print("\nخلاصه آماری:")
print(df.describe())
# مقادیر خالی به تفکیک ستون
print("\nمقادیر خالی هر ستون:")
۵ دقیقه وقت بذارید، اجراش کنید نتیجه رو ببینید شاید متوجه بشید چرا مدلتون خوب نتیجه نمیده
داده کثیف = نتیجه کثیف
این قانون طلایی علم دادس
پ.ن: می دونم کد خیلی ساده ای هست
ولی این نمونه هستش، و اینو میشه خیلی پیشرفته انجام دادش. واسم توی کامنت ها بنویسید که چه روش های بهتری سراغ دارین.
BY دیتاهاب
Share with your friend now:
tgoop.com/data_hub_ir/933