tgoop.com/llm_huggingface/13
Create:
Last Update:
Last Update:
🤖 فصل 5: RLHF، DPO و GRPO — فاینتیون با بازخورد انسانی
(بازخورد انسانی و الگوریتمهای پیشرفته یادگیری تقویتی)
در این فصل وارد دنیای مدلهایی میشیم که با بازخورد انسانی تربیت میشن. الگوریتمهایی مثل RLHF، DPO و GRPO با پروژههای واقعی آموزش داده میشن.
سرفصلهای این فصل:
همراستایی مدلها با بازخورد انسانی: مفهوم و اهمیت (Model Alignment with Human Feedback: Concept and Importance)
مقدمهای بر یادگیری تقویتی: مفاهیم پایه برای مدلهای زبانی (Introduction to Reinforcement Learning: Core Concepts for LLMs)
جمعآوری بازخوردهای انسانی (Collecting human feedback)
آموزش مدل پاداش (Training the reward model)
آموزش Fine-tune کردن با یادگیری تقویتی با بازخورد انسانی (Fine-tuning with RLHF)
بهینهسازی خطمشی نزدیک (Proximal Policy Optimization)
مفهوم Policy Loss در PPO: قلب الگوریتم بهروزرسانی خطمشی (Policy Loss in PPO: The Core of Policy Update)
درک Value Loss و Entropy Loss در RLHF (Understanding Value Loss and Entropy Loss in RLHF)
وقتی مدل زرنگبازی درمیاره! بررسی Reward Hacking و کنترل با KL Divergence (When the Model Gets Sneaky: Reward Hacking and Control with KL Divergence)
آموزش RLHF با FLAN-T5 - بخش اول: آمادهسازی داده و ساخت دیتاست برای خلاصهسازی دیالوگ (RLHF with FLAN-T5 – Part 1: Data Preparation and Prompting for Dialogue Summarization)
آموزش RLHF با FLAN-T5 – بخش دوم: بارگذاری مدل، اعمال LoRA و آمادهسازی مدل مرجع و پاداش (RLHF with FLAN-T5 – Part 2: Loading the Model, Applying LoRA, and Setting Up the Reward and Reference Models)
آموزش RLHF با FLAN-T5- بخش سوم: آموزش مدل با PPO، ارزیابی سمیّت، و مقایسه نتایج قبل و بعد از RLHF (RLHF with FLAN-T5 – Part 3: Training with PPO, Toxicity Evaluation, and Comparison Before and After RLHF)
بهینهسازی مستقیم ترجیحات (Direct Preference Optimization (DPO))
آموزش DPO با Qwen - بخش اول: ساخت دیتاست ترجیحات برای عنوانگذاری ویدیوهای یوتیوب (DPO with Qwen – Part 1: Preparing Preference Data for YouTube Video Title Generation)
آموزش DPO با Qwen - بخش دوم: آموزش مدل بر اساس ترجیحات برای عنوان گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 2: Fine-Tuning on YouTube Title Preferences)
کد DPO با Phi-3 - آمادهسازی دیتای ترجیحات برای پاسخهای دقیق محاسباتی (DPO with Phi-3 – Preparing a Preference Dataset for Concise Math Responses)
کد DPO با Phi-3 - آموزش مدل برای پاسخ دقیق به سوالات محاسباتی (DPO with Phi-3 – Fine-Tuning for Accurate Math Question Answering)
کد DPO با Phi-3 - تست مدل آموزش داده شده (DPO with Phi-3 – Inference)
بهینهسازی سیاست نسبی گروهی (Group Relative Policy Optimization (GRPO))
انتخاب بین PPO، DPO و GRPO (Choosing Between PPO, DPO, and GRPO)
درک عمیق الگوریتم GRPO (Understanding GRPO)
مثال ساده فاینتیون LLM با روش GRPO برای محدود کردن طول جمله (Basic Fine-tuning of LLM with GRPO to Restrict Output Length)
زنجیره افکار (COT)
فاینتیون مدل زبانی بزرگ با LoRA و Unsloth - آمادهسازی داده و تنظیمات (قسمت اول) (Fine-tuning LLM with LoRA using Unsloth — Dataset Preparation & Setup (Part 1))
آموزش مدل زبانی بزرگ با روش GRPO در Unsloth - توابع پاداش و تولید متن (قسمت دوم) (Training LLM with GRPO Rewards in Unsloth — Reward Functions & Generation (Part 2))
مقیاسپذیر کردن بازخورد انسانی (Scaling human feedback)
#مدل_زبانی_بزرگ
BY آموزش LLM و VLM
Share with your friend now:
tgoop.com/llm_huggingface/13