PYTHON4FINANCE Telegram 975
انواع خطاها در کار با داده ها - 2
مهمترین خطاهایی که در داده ها ممکن است وجود داشته باشد عبارت است:
1️⃣ ناقص بودن اطلاعات (incompleteness error): یعنی داده وجود نداشته باشد که در پایتون با NA یا NaN نمایش داده می شود. معمولا برای حل این موضوع از میانگین، میانه، مد و یا صفر (بسته به مسئله) برای پر کردن داده ها استفاده می شود. (ردیف2)
2️⃣ بی اعتبار بودن داده ها (invalidity error): یعنی زمانی که داده ها از محدوده معناداری خارج می شوند. برای مثال در ردیف 2 تاریخ تولد فرد مذکور سال 1300 ذکر شده است که خارج از محدوده است.
3️⃣ دقت پایین داده ها (inaccuracy error): وقتی که داده ها با مقادیر صحیح پر نشده باشند، این خطا عموما از ناحیه مسئولین داده ها اتفاق می افتد. برای مثال افراد یا کارت بانکی دارند یا ندارند، «بدون پاسخ» در ردیف 4 معنی ندارد.
4️⃣ ناسازگاری داده ها (inconsistency error): وقتی بخش های مختلف داده با هم ناسازگار باشند. در ردیف 5 نام فرد خانم ب است اما جنسیت مرد ذکر شده است. معمولا برای رفع این مشکل معمولا از داده های تکمیلی استفاده می کنند.
5️⃣ یکنواخت نبودن داده ها (non-uniformity error): برای راحتی محاسبه و افزایش دقت لازم است داده ها از یک الگو تبعیت کنند. راهکار این موضوع تبدیل داده ها به یک فرم یکنواخت است. برای مثال در همه ردیف ها سال تولد با الگوی 4 رقم ذکر شده است اما در ردیف 3 با الگوی دو رقم ذکر شده است.
6️⃣ تکراری بودن داده ها (duplication error): وجود داده های تکراری ممکن است باعث جابجایی میانگین، میانه و مد شود و تمرکز ما از جابجا کند. راه کار آن نیز حذف داده های تکراری است. در مثال ردیف 1و 4 تکراری هستند.


#preprocessing
#Data_Cleansing
پایتون برای مالی
🆔 www.tgoop.com/python4finance
🆔 ble.ir/python4finance



tgoop.com/python4finance/975
Create:
Last Update:

انواع خطاها در کار با داده ها - 2
مهمترین خطاهایی که در داده ها ممکن است وجود داشته باشد عبارت است:
1️⃣ ناقص بودن اطلاعات (incompleteness error): یعنی داده وجود نداشته باشد که در پایتون با NA یا NaN نمایش داده می شود. معمولا برای حل این موضوع از میانگین، میانه، مد و یا صفر (بسته به مسئله) برای پر کردن داده ها استفاده می شود. (ردیف2)
2️⃣ بی اعتبار بودن داده ها (invalidity error): یعنی زمانی که داده ها از محدوده معناداری خارج می شوند. برای مثال در ردیف 2 تاریخ تولد فرد مذکور سال 1300 ذکر شده است که خارج از محدوده است.
3️⃣ دقت پایین داده ها (inaccuracy error): وقتی که داده ها با مقادیر صحیح پر نشده باشند، این خطا عموما از ناحیه مسئولین داده ها اتفاق می افتد. برای مثال افراد یا کارت بانکی دارند یا ندارند، «بدون پاسخ» در ردیف 4 معنی ندارد.
4️⃣ ناسازگاری داده ها (inconsistency error): وقتی بخش های مختلف داده با هم ناسازگار باشند. در ردیف 5 نام فرد خانم ب است اما جنسیت مرد ذکر شده است. معمولا برای رفع این مشکل معمولا از داده های تکمیلی استفاده می کنند.
5️⃣ یکنواخت نبودن داده ها (non-uniformity error): برای راحتی محاسبه و افزایش دقت لازم است داده ها از یک الگو تبعیت کنند. راهکار این موضوع تبدیل داده ها به یک فرم یکنواخت است. برای مثال در همه ردیف ها سال تولد با الگوی 4 رقم ذکر شده است اما در ردیف 3 با الگوی دو رقم ذکر شده است.
6️⃣ تکراری بودن داده ها (duplication error): وجود داده های تکراری ممکن است باعث جابجایی میانگین، میانه و مد شود و تمرکز ما از جابجا کند. راه کار آن نیز حذف داده های تکراری است. در مثال ردیف 1و 4 تکراری هستند.


#preprocessing
#Data_Cleansing
پایتون برای مالی
🆔 www.tgoop.com/python4finance
🆔 ble.ir/python4finance

BY Python4Finance


Share with your friend now:
tgoop.com/python4finance/975

View MORE
Open in Telegram


Telegram News

Date: |

A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. A vandalised bank during the 2019 protest. File photo: May James/HKFP. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” Image: Telegram.
from us


Telegram Python4Finance
FROM American