tgoop.com/pytorch_howsam/595
Create:
Last Update:
Last Update:
این پست از ابعاد مختلف مهم هست...
حدود چهار ماه پیش، آقای Andrej Karpathy پستی در X منتشر کرد که ترجمه خلاصه اون رو به کمک ChatGPT در زیر آوردم:
در سال ۲۰۱۹، OpenAI مدل GPT-2 رو معرفی کرد. امروز، بعد حدودا ۵ سال، میتونید مدل مشابهی رو تنها با حدود ۶۷۲ دلار و یک نود 8XH100 GPU طی ۲۴ ساعت آموزش بدید. پروژه llm.c که روی اون کار کردم، راهنمای کاملی برای این فرآیند ارائه میده.
پیشرفتهای سختافزاری (مثل، GPUهای H100)، نرمافزاری (CUDA، cuBLAS، FlashAttention) و دادههای باکیفیت (مثل FineWeb-Edu) هزینهها رو چشمگیر کاهش دادن. llm.c مستقیماً با C/CUDA نوشته شده و نیازی به محیطهای پیچیده Python یا ابزارهایی مانند pip نداره. فقط یک نود GPU ابری رو راهاندازی میکنید، ملزومات رو نصب میکنید و در چند دقیقه آماده اجرا میشه.
این پروژه از علاقهام به بازتولید GPT-2 برای یک ویدیوی آموزشی شروع شد. اما در ادامه مسیر، یادگیری بیشتر CUDA، بازنویسی همهچیز از صفر (حدود ۵,۰۰۰ خط کد برای llm.c) و ساخت سیستمی سریع، کوچک و پایدار رو در پی داشت.
هنوز کارهای زیادی باقی مونده، از جمله بهبود پایداری آموزش برای مدلهای بزرگتر، تست fp8 و اضافه کردن معماریهای مدرنتر.
خب، مثل خیلی از کارهای Karpathy، این کار هم با استقبال قابل توجهی مواجه شد. مثلا، یک پویشی راه افتاد که هزینه آموزش مدل GPT-2 124M رو روی دیتاست FineWeb برای رسیدن به لاس 3.28 کاهش بدن. در واقع، هدف این بود که بیایید یک کاری کنیم، هرچه سریعتر به لاس 3.28 روی ولیدیشن دیتاست FineWeb برسیم.
این مدت، من میدیدم که افرادی از کاهش زمان آموزش مدل میگفتن و مدام پیگیری میکردم. مثلا، Keller Jordan خیلی روی این پروژه کار کرد و خیلی پست میذاشت. حالا بعد از چهار ماه، Karpathy یک پستی درباره این ماجرا منتشر کرده:
یادتون میاد با llm.c بازتولید آموزش مدل GPT-2 124M حدود ۴۵ دقیقه روی 8XH100 زمان میبرد؟ از اون موقع، Keller Jordan (و حالا خیلیهای دیگه) روی نسخه جدید و اصلاحشده NanoGPT کار کردن و این زمان رو به فقط ۵ دقیقه کاهش دادن! عاشق این ریپو هستم؛ 👏 ۶۰۰ خط کد!
لیست کارهای Keller Jordan برای رسیدن به 5 دقیقه رو میتونید در تصویر پست بعدی ببینید. سعی کردم لینکهای مهم رو در متن براتون بذارم.
مدتها بود که میخواستم درباره این ماجرا بنویسم، اما نمیتونستم به شکل خوبی مطلب رو بیان کنم. برای من این پروژه خیلی آموزنده و الهامبخش بود و خیلی پیگیرش بودم و هستم...
@pytorch_howsam
BY PyTorch Howsam
Share with your friend now:
tgoop.com/pytorch_howsam/595