tgoop.com/llm_huggingface/9
Create:
Last Update:
Last Update:
🧠 فصل 2: پیشآموزش مدلهای زبانی و قوانین مقیاسپذیری
تو این فصل میفهمیم مدلهای زبانی چطور آموزش میبینن، با چه اهدافی ساخته میشن و چه محدودیتهای محاسباتی دارن. به بحث کوانتیزیشن، قوانین مقیاسپذیری و استراتژیهای چند GPU هم میپردازیم.
سرفصلهای این فصل:
ملاحظات برای انتخاب مدل (Considerations for Model Selection)
معماریهای مدل و اهداف پیشآموزش (Model architectures and pre-training objectives)
مدلهای فقط خودرمزگذار (Encoder Only Models)
مدلهای فقط رمزگشا (Decoder Only Models)
مدلهای توالی به توالی (مدلهای رمزگذار-رمزگشا) (Sequence-to-sequence (Encoder-Decoder Models))
رابطه اندازه مدل و دقت (How Model Size Affects Accuracy)
چالشهای محاسباتی و کوانتیزیشن (Computational challenges & Quantization)
استراتژیهای محاسباتی کارآمد با چند پزدازنده گرافیکی - بخش 1 (DDP) (Efficient Multi-GPU Compute Strategies part1 (DDP))
استراتژیهای محاسباتی کارآمد با چند پزدازنده گرافیکی - بخش 2 (FSDP) (Efficient Multi-GPU Compute Strategies part2 (FSDP))
قوانین مقیاسپذیری و مدلهای بهینه از نظر محاسباتی (Scaling laws and compute-optimal models)
قانون Chinchilla و استثناها: نقش اندازه مدل و داده در عملکرد (The Chinchilla Law and Its Exceptions: The Role of Model Size and Data in Performance)
پیشآموزش برای انطباق دامنه (Pre-training for domain adaptation)
#مدل_زبانی_بزرگ
BY آموزش LLM و VLM
Share with your friend now:
tgoop.com/llm_huggingface/9