Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
74 - Telegram Web
Telegram Web
به نظرم همه کسایی که تو بحث تحلیل دیتا فعالیت میکنن باید با آمار آشنا باشن. یه بحث خود آمار داریم که بتونیم باهاش انواع تحلیل هامون انجام بدیم که تمام شاخه های مرتبط با دیتا یه جورایی درگیرش میشن (نکات اینو تو این پست میذارم و بهش میگم آمار عمومی)، یه بحث انواع آزمون هایی که برای تست استفاده می کنیم و اینو بیشتر دیتاساینس ها احتیاج دارن (به اینم میگم آزمون های آماری و تو پست بعدی راجع بهش حرف میزنم)
به طور کلی دسته های زیر رو میتونیم برای آمار عمومی متصور باشیم:
آمار توصیفی (Descriptive Statistics)
نما (Mode)، میانه (Median)، میانگین (Mean)، همبستگی (Correlation)، کشیدگی(Kurtosis)، چولگی(Skewness)، پراکندگی(Variance)، مکان و مرکزیت داده (Location and Centrality Data)
بصری سازی داده ها (Data Visualization)
انواع نمودارها، خطی، دایره ای، میله ای، هیستوگرام، پراکنده و . . .
برای کسب دانش مورد نیاز آمار عمومی اول از همه احتیاجه با کلیات EDA (Exploratory Data Analysis)، تحلیل اکتشافی داده‌ها آشنا باشیم تا برای خلاصه سازی داده هامون بتونیم ازش استفاده کنیم. چون اینجا بحثمون رودمپ و الان نمیخوایم وارد آموزش بشم کلیدواژه های اصلی رو لیست میکنم تا اگه احتیاجه بدونیم چه مباحثی رو بیشتر نیازه مرور کنیم، حالا از کتابای درسی قدیمیمون یا هر منبعی که خودمون باهاش راحت تریم یه دور نگاه کنیم. بعد کلیدواژه ها چند تا منبع خوب هم میگم.

تحلیل اکتشافی داده‌ها EDA (Exploratory Data Analysis)
شاخص های گرایش مرکزی (Measures of central tendency) { نما (Mode)، میانه (Median)، میانگین (Mean)}
داده‌های مستطیلی (Rectangular Data)
تخمین مکان داده‌ها (Estimation Of Location)
تخمین تنوع و پراکندگی (Estimation Of Variability)
انواع چارک (Quartile)
فاصله‌ی بین چارکی (IQR (Interquartile Range
توزیع‌های آماری (Statistical Distributions)
فاصله‌ی آماری (Statistical Distance)
واگرایی کولبک-لیبلر (Kullback-Leibler Divergence)
فاصله‌ی جنسون-شنون (Jenson-Shannon)

#آمار_مقدماتی
@DataHobbies
اگرم اهل کتاب خوندن باشین

کتاب "مبانی احتمال" شلدون راس
کتاب "آمار مهندسی" لیبرمن
و کتاب‌های دکتر ایوزیان

خیلی مفیداند👌👌👌

#آمار_مقدماتی
@DataHobbies
4
آزمون های آماری
آمار استنباطی (Inferential)
آزمایش فرضیه (Hypothesis Testing)
برازش مدل (Model Fitting)

آزمایش فرضیه/ آزمون فرض:
همونطور که می دونیم آزمون فرض یه ادعایی درباره پارامترهای توزیع یک/چند جمعیت یا نوع متغیر تصادفیه که ممکن درست یا غلط باشه. حالا از بین کلی آزمون فرضیه آماری که وجود داره اینایی که لیست می کنم بیشترین کاربرد رو برای یه دیتاساینس داره:
آزمون های نرمالیتی ((Normality Tests
آزمون های همبستگی (Correlation Tests)
آزمون های ایستایی (Stationary Tests)
آزمون های پارامتری (Parametric Statistical Hypothesis Tests)
آزمون های ناپارامتری (Non-Parametric Statistical Hypothesis Tests)

برازش مدل:
Model Fitting یا برازش مدل نشون میده یه دیتاساینس توی مدلی که طراحی کرده چقدر میتونه پشتیبانی از داده های واقعیش بگیره، در واقع به نوعی تطابق یا سازگاری مدل نظری و تجربی رو میسنجه، سه تا شاخص اصلی داره که هر کدوم ازین شاخص ها چند تا روش دارن:
شاخصهای برازش مقتصد
شاخصهای برازش تطبیقی
شاخصهای برازش مطلق
یه تعریف دیگه هم که جا داره حواسمون بهش باشه بحث روندی که انجام میشه تا یه تابع ریاضی یا منحنی به وجود بیاد که بیشترین شباهت با داده هارو داشته باشه که به اینم برازش منحنی یا (Curve Fitting) میگن.
اکسل! Excel
اکسل برای داده‌های با حجم کم ابزار کاربردیه ولی قطعا یکی از مهم‌ترین ابزارها برای تحلیل دیتا نیست!
ممکن به فراخور بیزینس و شرکتی که باهاش کار میکنیم قسمتی از دیتاهاشون تو اکسل باشه و ما به اجبار باید کار کردن با اکسل رو بلد باشیم
از طرفی خیلی از اوقات خبره‌های (expert) بیزینسی ک داریم باهاشون همکاری میکنیم اکثر فرمول‌هاشون تو اکسل زدن و ما گاها باید بر اساس اون فرمول‌ها و پیاده‌سازی که تو اکسل داشتن بفهمیم تو اون بیزینس چخبره.

filters, functions, formulas, Charts - plots, Pivot table, vlookup
و شاید VBA macros
مسائل مهم اکسل باشه که بشه تو یه هفته آموزششو گذروند.
به عنوان یه فرد که تو زمینه تحلیل دیتا کار میکنه باید ریاضیاتی مثل جبر خطی (Linear algebra) بلد باشیم، به طور مثال وقتی میخوایم مولفه های اصلیمون پیدا کنیم و کاهش بعد بدیم، از PCA استفاده می کنیم. خب مسلما باید بدونیم که PCA یک روش تبدیل خطیه! یا وقتی میخوایم با انواع رگرسیون کار کنیم باید مفاهیم ماتریس بدونیم، پس اگه میخوایم به طور اصولی تو زمینه یادگیری ماشین و یادگیری عمیق و... رشد کنیم نباید از مرور جبر خطی فرار کنیم 😌
مباحث زیر به طور کلی تو جبر خطی برامون مهم اند:
عدد (Scalar)، بردار (Vectors)، ماتریس (Matrix) و تنسور (Tensor)
انواع ماتریس، نرم(Norm) بردار یا ماتریس، بردار ویژه (Eigen Vector) و مقدار ویژه (Eigen Value) ماتریس، SVD در ماتریس، ماتریس کواریانس (Covariance) و ماتریس همبستگی (Correlation)
و آنالیز مولفه اصلی PCA (Principal Component Analysis)
کتابای رفرنس جبر خطی معمولا این ها هستن که هم ترجمه شون هست، هم pdf هاشون راحت گیر میاد
• کتاب جبرخطی هافمن/کنزی
• کتاب جبر خطی شلدون اکسلر
• کتاب جبر خطی استرنگ

#ریاضیات
@DataHobbies
1
یکی از سایت هایی که جبر خطی رو خوب و سریع گفته، خان آکادمیه:
https://www.khanacademy.org/math/linear-algebra
ویدیوهای 3-1 الی 3-6 ماشین لرنینگ اندرو ان جی، ریاضیات جبر خطی رو در حد کلیات مرور میکنه، برای بچه هایی که قبلا خوندن و میخوان فقط یه مرور شه خوبه یکی دو ساعت زمان بذارن نگاه کنن

https://www.youtube.com/watch?v=Dft1cqjwlXE&list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN&index=12
matrixcookbook.pdf
676.5 KB
اینم یه کتاب خوب برای ماتریس هاست
2025/10/19 23:13:16
Back to Top
HTML Embed Code: