Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
276 - Telegram Web
Telegram Web
مدرسه تکمیلی دانشکده مهندسی و علوم کامپیوتر دانشگاه شهید بهشتی با همکاری سحاب (sahab.ir) برگزار می‌کند:

دوره ۴۵ ساعته مهندسی داده به همراه پروژه های عملی

📝سرفصل‌های دوره:

- مفاهیم مهندسی داده
- ذخیره‌سازی و بازیابی داده توزیع شده
- پردازش دسته‌ای و جویباری
- کار عملی با ابزارهای HBase / MapReduce / Spark / HDFS / Kafka

👤مدرسین:
سید محمد غفاریان، دکترای مهندسی کامپیوتر از دانشگاه صنعتی امیرکبیر

مهدی صفرنژاد، دکترای مهندسی کامپیوتر از دانشگاه صنعتی شریف

محمدحمزه‌ئی، دکترای مهندسی کامپیوتر از دانشگاه علم و صنعت ایران

زمان:
چهارشنبه‌ها ساعت ۱۵:۰۰ الی ۱۸:۰۰ شروع از ۷ مهرماه

ثبت‌نام:
در سامانه انتخاب واحد گلستان همزمان با انتخاب واحد

*امکان اخذ درس به طور اختیاری برای دانشجویان سایر دانشکده های دانشگاه شهید بهشتی نیز فراهم است.

#BigData #Java #Spark
علاقه مندان حوزه مهندسی داده و مباحث زیرساختی پردازش و طراحی خطوط انتقال داده که روز بروز بر تعداد آنها افزوده میشود، از کمبود منابع آموزشی مناسب در این خصوص گله مند هستند و این کمبود را مانعی جدی در شروع به کار حرفه ای در این مسیر شغلی می دانند.
هر چند به نوبه خودم سعی کردم با طراحی و برگزاری دوره مهندسی داده با همکاری موسسه وزین نیک آموز، تا حدودی این کمبود در منابع فارسی را جبران کنم اما مطمئنا برای پیدا کردن تسلط نسبی از طریق انجام پروژه های متنوع و نیز احترام گذاشتن به سلایق افراد مختلف در این حوزه، نیاز خواهیم داشت که منابع آموزشی متنوع و با کیفیتی در دسترس مشتاقان مهندسی داده قرار داشته باشد .

در چند سال گذشته و بخصوص در یکسال اخیر، دوره های آموزشی مهندسی داده را دنیا رصد کرده ام و تنها دوره ای که از لحاظ جامعیت، سبک و پلتفرم ارائه، توجه بنده را به خودش جلب کرده است دوره مهندسی داده وب سایت معروف کورسرا است که با حمایت یکی از قدیمی ترین غول های فناوری اطلاعات آمریکا یعنی IBM ارائه میشود.
https://www.coursera.org/professional-certificates/ibm-data-engineer

این دوره که خود از سیزده کورس مختلف آموزشی تشکیل شده است، با شروع از پایتون و کار با دیتابیس های رابطه ای، به صورت پایه ای به آموزش مفاهیم مورد نیاز مهندسین داده می پردازد . دوره های آموزشی مندرج در این برنامه از قرار زیر هستند :

مقدمه ای بر مهندسی داده
پایتون برای علم داده، یادگیری ماشین و توسعه نرم افزار
پروژه پایتون برای مهندسی داده
مقدمه ای بر بانکهای اطلاعاتی رابطه ای
دیتابیس و SQL برای علم داده (پایتون)
مقدمه ای بر دیتابیس های NoSQL
مقدمه ای بر بیگ دیتا – آشنایی با هدوپ و اسپارک
مهندسی داده و یادگیری ماشین با اسپارک
مقدمه ای بر دستورات لینوکس و اسکریپت نویسی خط فرمان
مدیریت دیتابیس های رابطه ای
ای تی ال(ETL) و خطوط انتقال داده به کمک کافکا و ایرفلو
شروع کار با انباره های داده
پروژه نهایی
همانطور که می بینید سرفصل بسیار جامع و کاملی دارد و غیر از مسایلی مانند مدیریت لاگ و داده های Observability و دیتابیس های تحلیلی نوین مثل دروید، پینوت و کلیک هوس، سایر مباحث دوره ، مسایل اساسی حوزه مهندسی داده را پوشش میدهد.

شرکت در این دوره ها رایگان است (البته هنگام Enrolment یا ثبت نام باید گزینه Audit را انتخاب کنید ) اما امکانات کامل این وب سایت آموزشی مانند دادن گواهینامه و یا تصحیح تمرینات، نیاز به پرداخت هزینه خواهد داشت. البته می توانید درخواست حمایت مالی بدهید و دوره ها را به صورت کاملا رایگان و با تمام امکانات، دریافت کنید که در یوتیوب فارسی، چندین فیلم مختلف در رابطه با نحوه دریافت این کمک های مالی خواهید یافت.
چندی پیش وقتی گزارش Oreilly راجع به دستمزدها و پرداختی های حوزه پردازش داده/هوش مصنوعی را بررسی می کردم در بخش کتابخانه های پایتون که آشنایی با آنها بیشترین درآمد را برای متخصصین این حوزه به همراه دارد، به کتابخانه Ray برخوردم که حقوق متوسط ۱۹۰ هزار دلاری برای آن، وسوسه انگیز به نظر میرسید و نشان میداد که بازار به این پروژه متن باز نیاز دارد. اما اینکه دقیقا چه مشکلی را این کتابخانه حل کرده است در نگاه نخست، به چشمم نیامد.

با بررسی اولیه این پروژه که کتابخانه های آن برای پایتون، جاوا و ++C در دسترس است، متوجه شدم که هدف اصلی آن، اجرای توزیع شده کدهای مرتبط با پردازش داده و بویژه انجام کارهای یادگیری ماشین بر این مبناست.

با توجه به وجود چارچوب های به نسبت جاافتاده و قدیمی این حوزه مانند اسپارک و فلینک، رواج یک فریمورک جدید و آن هم در این سطح، کمی برایم تعجب آور بود. با بررسی مثالهای موجود در مستندات رسمی Ray، دلیل اصلی این محبوبیت (البته از نقطه نظر بنده) را یافتم. با توجه به اینکه در آینده ای نزدیک از این کتابخانه، در ادبیات حوزه پردازش داده زیاد خواهید شنید، تصمیم گرفتم این تجربه را با شما هم اشتراک بگذارم.

اگر با اسپارک و هدوپ آشنا باشید، میدانید که این دو فریمورک پردازش توزیع شده داده ها که اولی جزء اصلی ترین بازیگران این حوزه هم محسوب می شود، علیرغم امکانات فراوان و سرعتی که با خود به همراه می آورند، یک ضعف بزرگ دارند و آن هم این است که باید برنامه های موجود خود را با استانداردهای آنها تطبیق دهید یعنی به سبک آنها کدنویسی کنید. قدم اول هم در این راستا، این است که توسعه دهندگان شما با اسپارک (یا فلینک یا آپاچی بیم) و نحوه برنامه نویسی با آن، آشنا شوند که این موضوع، خود مانعی بزرگ برای تیم های مختلفی است که فرصت آموزش یا نیروی ماهرِ آشنا به مباحث پردازش توزیع شده داده ها را ندارند.

فریمورک Ray این مانع را به درستی تشخیص داده است و دلیل محبوبیت و رواج آن هم به نظرم، همین نکته کلیدی است.

Ray به شما اجازه میدهد همان سبک برنامه نویسی معمولی خود را ادامه دهید و فقط با اضافه کردن یک خط کد در ابتدای تعریف تابع یا کلاس (از طریق دکوراتورها)و یک تغییر کوچک در هنگام فراخوانی این توابع، آنها را برای شما به صورت توزیع شده اجرا کند و نتیجه را به شما برگرداند.
--------------------------------------

اگر به این موضوع علاقه مند شدید، ادامه مقاله را می توانید در وب سایت مهندسی داده در لینک زیر،‌پیگیری کنید
yun.ir/mqf6ge

#مهندسی_داده #RAY #پردازش_توزیع_شده
کارگاه یکساعته ای را برای معرفی و کار با دیتابیس تحلیلی آپاچی دروید به میزبانی موسسه نیک آموز به مناسبت یلدای ۱۴۰۰ برگزار کرده ام که فیلم این کارگاه در سه قسمت (معرفی / کارگاه عملی / پرسش و پاسخ ) تدوین و آماده استفاده علاقه مندان گردیده است.
اگر به این حوزه علاقه مند هستید میتوانید بعد از مشاهده این کارگاه یکساعته (سعی کرده ام خیلی خلاصه و مختصر آنرا برگزار کنم ) که لینک دو بخش ابتدایی آنرا در بالا مشاهده میکنید، فایلهای کارگاه شامل کدهای پایتون تولید داده های فیک در کافکا و داکر کامپوز مربوطه را از آدرس زیر دریافت و خودتان به کار با این دیتابیس آینده دار بپردازید :
https://github.com/irbigdata/workshops
Forwarded from PaaSino
⚪️ آموزش عملی داکر

❇️ در این دوره قراره با داکر به عنوان یک برنامه‌‌نویس کار کنیم. قدم به قدم جلو می‌ریم و با داکر و امکاناتش آشنا می‌شیم.
پروژه‌ای که روش کار می‌کنیم یک اپ جنگو هست که به یک دیتابیس پستگرس متصل میشه.


🔹 قسمت اول - داستان کانتینرها
🎥 https://www.aparat.com/v/FRvmb

🔹 قسمت دوم - کار با ایمیج‌ها و بیلد ایمیج
🎥 https://www.aparat.com/v/kMcRz

🔹 قسمت سوم - اجرای کانتینرها با داکر
🎥 https://www.aparat.com/v/XcsD6

🔹 قسمت چهارم - کار با والیوم در داکر
🎥 https://www.aparat.com/v/6jyek

🔹 قسمت پنجم - استفاده از کش هنگام بیلد ایمیج
🎥 https://www.aparat.com/v/jAvQV

این لیست به روز رسانی میشه

#docker
🆔 @paasino
اگر در کارهای روزانه ، با پستگرس سر و کار دارید، این مقاله خوب را از دست ندهید و به کمک اون، مروری سریع بر تکنیک‌های مانیتورینگ و افزایش کارآیی این دیتابیس قدرتمند داشته باشید
https://blog.stackademic.com/unleashing-the-full-power-of-postgresql-a-definitive-guide-to-supercharge-performance-a8ce725725ac
Kubernetes for Data Engineers
یک مقاله مفید و مختصر در خصوص آشنایی با کوبرنتیز برای مهندسین داده با لینک‌های مناسب برای شروع کار
We do live in the Age of Containers, it’s the world we all live in. Docker has become standard. Data has grown. Everyone and everything is in the cloud. The Modern Data Stack we’ve all been working low these many hard years has only made the need for an agnostic and scalable container platform more real.

And this brings us to today’s topic.

We want to give Data Engineers an introduction to Kubernetes. It’s a tool everyone talks about, but not that many folks get a chance to get their hands dirty with.
https://dataengineeringcentral.substack.com/p/kubernetes-for-data-engineers?utm_source=substack&utm_medium=email
بعد از اتمام دوره بیگ‌دیتای همکاران سیستم، یکی از دانشجویان این دوره به من پیام داد که اگر بخواهم یک کار عملی توی حوزه مهندسی داده انجام بدم که مفاهیم اصلی مورد نیاز را به صورت عملی کار کنم، چه پروژه ای پیشنهاد می‌دهید.
پیشنهاد من ایجاد یک خط پردازش داده بود که داده‌های یک وب سایت تجاری به کمک CDC و Debezium از پستگرس دریافت و وارد کافکا شود. در مرحله بعد هم این داده‌ها به صورت خودکار توسط کلیک‌هوس دریافت شده و در جداول تحلیلی متناظر در Clickhouse‌ ذخیره شده و نهایتا با ابزارهای گرافیکی نمایش داده شود.
برای تولید داده‌ها هم از ایرفلو در بازه‌های زمانی کوتاه برای شبیه سازی یک وب‌سایت خرید و فروش محصول، استفاده شود.
خروجی ای که آقا بهنام یزدان‌پناهی @behnamyzp عزیز آماده کرد خیلی فراتر از انتظارم بود.
کل پروژه که روند فوق در آن پیاده سازی شده و نتایج در گرافانا نمایش داده شده است به همراه توضیحات لازم برای اجرای آن در آدرس زیر قرار گرفته است :‌
https://github.com/behnamyazdan/ecommerce_realtime_data_pipeline/
برای دوستانی که علاقه‌مند به حوزه مهندسی داده و مباحث زیرساختی هستند، یک نقطه شروع بسیار عالی است و برای دوستانی که با پستگرس کار می‌کنند می‌توانند از ایده انتقال داده‌ها به کلیک هوس و اجرای کوئری‌های تحلیلی بر روی آن استفاده کنند.
هر چند بهتر است ساختار طراحی شده برای کلیک هوس تغییر کند به گونه‌ای که به جای تمامی جداول بخش خرید و فروش، چند جدول اصلی اما بزرگ (با حذف نرمال‌سازی که در دیتابیس‌های تحلیلی کاملا روال است)‌ داشته باشیم و با ابزارهایی مانند dbt، با اجرای کوئری‌هایی در بازه‌های زمانی کوتاه، این جداول تحلیلی از روی جداول پایه دریافت شده از کافکا، پرشده و جداول پایه، با تنظیم مقدار TTL‌ مناسب، به صورت خودکار حذف شوند.
ضمن تشکر مجدد از آقا بهنام عزیز ، این پست را با کسب اجازه از ایشان در اینجا منتشر میکنم. باشد که برای علاقه‌مندان، مفید باشد.
لینک توضیحات خود بهنام عزیز در لینکدین :
https://www.linkedin.com/posts/behnam-yazdanpanahi_ecommerceabrdataabrpipeline-cdc-kafka-activity-7172687833793445888-USBb
#مهندسی_داده #clickhouse #airflow #cdc #postgresql #Debezium #پستگرس #خطوط_پردازش_داده
فرا رسیدن سال نو همیشه نوید بخش افکار نو،

کردار نو و تصمیم های نو برای آینده است،

آینده ای که همه امید داریم بهتر از گذشته باشد.

برای تمامی عزیزان کانال مهندسی داده، شادی و تندرستی آرزو میکنم. می دانم که زندگی همیشه مملو از دشواری و چالش است اما امیدوارم در سال نو، بتوانیم معادلات پیچیده‌ی زندگی را با آرامش و موفقیت حل کنیم.
در سال جدید، برنامه دارم که این کانال و سایت مهندسی داده را به صورت منظم‌تر و کارآمدتر به روزرسانی کنم و مطالب مفید و به روز دنیای بسیار متنوع مهندسی داده را به صورت دست‌چین‌ شده در اختیار شما عزیزان قرار دهم. امیدوارم که بتوانم در این مسیر با دعای خیر و انرژی مثبت شما موفق شوم.
ارادتمند
مجتبی بنائی
#سال_نو_مبارک 🌺
arch_v3_workshops.jpg
309.2 KB
یکی از کانال‌های فعال یوتیوب در زمینه مهندسی داده، کانال DataTalksClub است که به صورت منظم ابزارهای نوین حوزه مهندسی و علم داده را معرفی میکند و مطالب و کارگاه‌ها و رخدادهای زیادی را هم در این حوزه به کمک جامعه کاربری خود مدیریت می‌کند.

یکی از رخدادهایی که این سایت به صورت منظم برگراز میکند، کارگاه عملی مبانی مهندسی داده با Data Engineering Zoomcamp است. اگر علاقه‌مند به یادگیری مفاهیم اولیه مهندسی داده هستید و یا در این حوزه مشغول به فعالیت هستید و مایلید با ابزارهای نسبتا جدید این حوزه مانند Mage.ai‌ , RisingWave (میج یکی از گزینه های اصلی جایگزینی با ایرفلو در خطوط پردازش داده است) و یا data load tool (dlt)به صورت عملی کار کنید، این کارگاه مناسب شماست.
https://github.com/DataTalksClub/data-engineering-zoomcamp
https://dev.to/taipy/21-ai-tools-that-are-changing-the-world-1o54
کدنویسی جزء ضروری کارهای روزانه یک مهندس داده است و امروزه ابزارهای متنوعی برای افزایش کارآیی برنامه نویسی از طریق هوش مصنوعی، ایجاد و توسعه داده شده‌اند. اگر روزانه به کدنویسی بخصوص با VS Code‌ مشغول هستید این لیست ارزشمند را از دست ندهید.
به نظر می رسد زبان جدید موجو که توسط یکی از نام‌‌های مطرح در اکوسیستم طراحی زبان‌های نوین برنامه‌نویسی و با در نظرگرفتن تمامی پیشرفتهای سخت‌افزاری و نرم افزاری اخیر در این حوزه پا به عرصه وجود گذاشته است با گرامری تقریبا شبیه پایتون و با سرعتی بالاتر از Rust یکی از اصلی ترین گزینه‌های سال‌های آتی برای حوزه هوش مصنوعی و مهندسی داده خواهد بود.
https://www.bigdata.ir/1403/02/mojo-%d8%af%d8%b1-%d9%85%d9%82%d8%a7%d8%a8%d9%84-rust-%d8%a8%d8%b1%d9%86%d8%af%d9%87-%d9%82%d8%b7%d8%b9%d8%a7-mojo-%d8%ae%d9%88%d8%a7%d9%87%d8%af-%d8%a8%d9%88%d8%af/
2025/06/29 08:01:46
Back to Top
HTML Embed Code: