tgoop.com/bigdata_ir/385
Last Update:
پروژه آموزشی : ساخت یک سامانه پردازش جریان به کمک ردپاندا، کلیکهوس و سوپرست
اخیرا پستی از یکی از دوستان در لینکدین مشاهده کردم که وظیفه خود دانستم آنرا برای علاقه مندان به انجام پروژه های عملی و کاربردی در دنیای مهندسی داده به اشتراک بگذارم.
آدرس پست اصلی : https://lnkd.in/d6i7Eiti
این پست گزارش یک پروژه انجام شده توسط سایه حجازی Saieh Hejazi است. در چند سال گذشته، سایه با پشتکار و علاقهای ستودنی، مسیر حرفهای خود را از حوزهی هوش تجاری (BI) بهسمت مهندسی داده گسترش داده است. من در طول این مسیر شاهد یادگیریهای عمیق، پیگیریهای فنی، و تلاشهای مستمر او بودهام.
بهتازگی، سایه یکی از پروژههای مهم و واقعی خود را منتشر کرده که واقعاً برای بسیاری از علاقهمندان به یادگیری پایپلاینهای دادهای real-time، الهامبخش است:
🎯 Build a Real-Time Data Pipeline with Redpanda, ClickHouse, and Superset
پروژهای کامل، کاربردی، و مبتنی بر ابزارهای مدرن و سریع.
🔧 فلوی اصلی پروژه به این صورت است:
📁 منبع دادهها بهشکل فایلهایی (مثلاً CSV یا JSON) است که در یک فولدر مشخص قرار میگیرند و از طریق FTP Server قابل دسترسی هستند.
🛠 ابزار Redpanda Connect که یک کتابخانه قدرتمند ingestion بدون کدنویسی است، بهصورت مداوم این پوشه را مانیتور میکند. بهمحض ورود فایل جدید، آن را میخواند و محتوای آن را بهصورت یک پیام (event) وارد Redpanda میکند.
🧠 اینجا، #Redis وارد عمل میشود: با استفاده از Redis، برای هر فایل ورودی یا رکورد، یک مکانیسم #deduplication پیادهسازی شده تا از ورود چندبارهی دادهها جلوگیری شود. این کار ریسک رکوردهای تکراری را از بین میبرد و کیفیت داده را در مرحلهی ingestion تضمین میکند. این کار البته توسط خود ردپاندا کانکت انجام می شود اما تنظیمات لازم برای این منظور باید انجام شود.
🚀 دادههایی که وارد Redpanda شدهاند، بهکمک Kafka engine در ClickHouse بهصورت real-time مصرف میشوند و مستقیماً وارد یک جدول تحلیلی میگردند.
📊 در نهایت، Apache Superset به این جدول در ClickHouse# متصل است و بهصورت بلادرنگ (real-time) داشبوردهایی از این دادهها ایجاد کرده که تحلیل سریع و قابل مشاهده برای کاربر نهایی را ممکن میسازد.
🧰 ابزارهای کلیدی مورد استفاده در این پروژه عبارتند از:
👉 #Redpanda: موتور سریع و سبک استریم داده (جایگزین Kafka)
👉 Redpanda Connect (Benthos سابق): ابزار ingestion بدون کدنویسی برای ارسال/دریافت داده با حجم بالا
👉 #Redis: برای deduplication و جلوگیری از ingest دوباره رکوردها
👉 #ClickHouse: پایگاهداده ستونی برای ذخیره و تحلیل سریع دادهها
👉 Superset: داشبورد تحلیلی متنباز برای نمایش دادههای real-time
📌 تمامی کدها، کانفیگها و مستندات راهاندازی در این ریپوی گیتهاب در دسترس هستند:
https://github.com/saiehhejazi/Project_2
برای سایه عزیز آرزوی موفقیت در آغاز یک دوره نوین تخصصی در دنیای مهندسی داده دارم. مطمئنم این پروژه تنها نقطهی شروع برای دستاوردهای بزرگتر و تأثیرگذارتر در آیندهی حرفهای او خواهد بود. 🌟
پ.ن:
سایر دوستان هم اگر پروژه هایی مشابه با این را انجام داده اند که بار آموزشی برای علاقه مندان به مهندسی داده دارد، ممنون میشوم آنرا برای ادمین کانال ارسال کنید تا با سایر علاقه مندان به این حوزه هم به اشتراک گذاشته شود.
BY مهندسی داده

Share with your friend now:
tgoop.com/bigdata_ir/385