PyTorch Howsam@pytorch

PyTorch Howsam

این پست از ابعاد مختلف مهم هست...

حدود چهار ماه پیش، آقای Andrej Karpathy پستی در X منتشر کرد که ترجمه خلاصه اون رو به کمک ChatGPT در زیر آوردم:

در سال ۲۰۱۹، OpenAI مدل GPT-2 رو معرفی کرد. امروز، بعد حدودا ۵ سال، می‌تونید مدل مشابهی رو تنها با حدود ۶۷۲ دلار و یک نود 8XH100 GPU طی ۲۴ ساعت آموزش بدید. پروژه llm.c که روی اون کار کردم، راهنمای کاملی برای این فرآیند ارائه میده.

پیشرفت‌های سخت‌افزاری (مثل، GPUهای H100)، نرم‌افزاری (CUDA، cuBLAS، FlashAttention) و داده‌های باکیفیت (مثل FineWeb-Edu) هزینه‌ها رو چشم‌گیر کاهش دادن. llm.c مستقیماً با C/CUDA نوشته شده و نیازی به محیط‌های پیچیده Python یا ابزارهایی مانند pip نداره. فقط یک نود GPU ابری رو راه‌اندازی می‌کنید، ملزومات رو نصب می‌کنید و در چند دقیقه آماده اجرا میشه.

این پروژه از علاقه‌ام به بازتولید GPT-2 برای یک ویدیوی آموزشی شروع شد. اما در ادامه مسیر، یادگیری بیشتر CUDA، بازنویسی همه‌چیز از صفر (حدود ۵,۰۰۰ خط کد برای llm.c) و ساخت سیستمی سریع، کوچک و پایدار رو در پی داشت.

هنوز کارهای زیادی باقی مونده، از جمله بهبود پایداری آموزش برای مدل‌های بزرگ‌تر، تست fp8 و اضافه کردن معماری‌های مدرن‌تر.

خب، مثل خیلی از کارهای Karpathy، این کار هم با استقبال قابل توجهی مواجه شد. مثلا، یک پویشی راه افتاد که هزینه آموزش مدل GPT-2 124M رو روی دیتاست FineWeb برای رسیدن به لاس 3.28 کاهش بدن. در واقع، هدف این بود که بیایید یک کاری کنیم، هرچه سریع‌تر به لاس 3.28 روی ولیدیشن دیتاست FineWeb برسیم.

این مدت، من می‌دیدم که افرادی از کاهش زمان آموزش مدل می‌گفتن و مدام پیگیری می‌کردم. مثلا، Keller Jordan خیلی روی این پروژه کار کرد و خیلی پست میذاشت. حالا بعد از چهار ماه، Karpathy یک پستی درباره این ماجرا منتشر کرده:

یادتون میاد با llm.c بازتولید آموزش مدل GPT-2 124M حدود ۴۵ دقیقه روی 8XH100 زمان می‌برد؟ از اون موقع، Keller Jordan (و حالا خیلی‌های دیگه) روی نسخه جدید و اصلاح‌شده NanoGPT کار کردن و این زمان رو به فقط ۵ دقیقه کاهش دادن! عاشق این ریپو هستم؛ 👏 ۶۰۰ خط کد!

لیست کارهای Keller Jordan برای رسیدن به 5 دقیقه رو می‌تونید در تصویر پست بعدی ببینید. سعی کردم لینک‌های مهم رو در متن براتون بذارم.

مدت‌ها بود که می‌خواستم درباره این ماجرا بنویسم، اما نمی‌تونستم به شکل خوبی مطلب رو بیان کنم. برای من این پروژه خیلی آموزنده و الهام‌بخش بود و خیلی پیگیرش بودم و هستم...

@pytorch_howsam

www.tgoop.com/pytorch_howsam/595

2.81K viewsNov 24, 2024 at 12:25

tgoop.com/pytorch_howsam/595

Create: 2024-11-24
Last Update: 2025-07-14 23:06:43

در سال ۲۰۱۹، OpenAI مدل GPT-2 رو معرفی کرد. امروز، بعد حدودا ۵ سال، می‌تونید مدل مشابهی رو تنها با حدود ۶۷۲ دلار و یک نود 8XH100 GPU طی ۲۴ ساعت آموزش بدید. پروژه llm.c که روی اون کار کردم، راهنمای کاملی برای این فرآیند ارائه میده.

پیشرفت‌های سخت‌افزاری (مثل، GPUهای H100)، نرم‌افزاری (CUDA، cuBLAS، FlashAttention) و داده‌های باکیفیت (مثل FineWeb-Edu) هزینه‌ها رو چشم‌گیر کاهش دادن. llm.c مستقیماً با C/CUDA نوشته شده و نیازی به محیط‌های پیچیده Python یا ابزارهایی مانند pip نداره. فقط یک نود GPU ابری رو راه‌اندازی می‌کنید، ملزومات رو نصب می‌کنید و در چند دقیقه آماده اجرا میشه.

این پروژه از علاقه‌ام به بازتولید GPT-2 برای یک ویدیوی آموزشی شروع شد. اما در ادامه مسیر، یادگیری بیشتر CUDA، بازنویسی همه‌چیز از صفر (حدود ۵,۰۰۰ خط کد برای llm.c) و ساخت سیستمی سریع، کوچک و پایدار رو در پی داشت.

هنوز کارهای زیادی باقی مونده، از جمله بهبود پایداری آموزش برای مدل‌های بزرگ‌تر، تست fp8 و اضافه کردن معماری‌های مدرن‌تر.

یادتون میاد با llm.c بازتولید آموزش مدل GPT-2 124M حدود ۴۵ دقیقه روی 8XH100 زمان می‌برد؟ از اون موقع، Keller Jordan (و حالا خیلی‌های دیگه) روی نسخه جدید و اصلاح‌شده NanoGPT کار کردن و این زمان رو به فقط ۵ دقیقه کاهش دادن! عاشق این ریپو هستم؛ 👏 ۶۰۰ خط کد!

BY PyTorch Howsam

Share with your friend now:
tgoop.com/pytorch_howsam/595

Telegram News

این پست از ابعاد مختلف مهم هست...