LLM_HUGGINGFACE Telegram 13
🤖 فصل 5: RLHF، DPO و GRPO — فاین‌تیون با بازخورد انسانی
(بازخورد انسانی و الگوریتم‌های پیشرفته یادگیری تقویتی)

در این فصل وارد دنیای مدل‌هایی می‌شیم که با بازخورد انسانی تربیت می‌شن. الگوریتم‌هایی مثل RLHF، DPO و GRPO با پروژه‌های واقعی آموزش داده می‌شن.

سرفصل‌های این فصل:

    همراستایی مدل‌ها با بازخورد انسانی: مفهوم و اهمیت (Model Alignment with Human Feedback: Concept and Importance) 

مقدمه‌ای بر یادگیری تقویتی: مفاهیم پایه برای مدل‌های زبانی (Introduction to Reinforcement Learning: Core Concepts for LLMs)

جمع‌آوری بازخوردهای انسانی (Collecting human feedback)

آموزش مدل پاداش (Training the reward model)

آموزش Fine-tune کردن با یادگیری تقویتی با بازخورد انسانی (Fine-tuning with RLHF)

بهینه‌سازی خط‌مشی نزدیک (Proximal Policy Optimization)

مفهوم Policy Loss در PPO: قلب الگوریتم به‌روزرسانی خط‌مشی (Policy Loss in PPO: The Core of Policy Update)

درک Value Loss و Entropy Loss در RLHF (Understanding Value Loss and Entropy Loss in RLHF)

وقتی مدل زرنگ‌بازی درمیاره! بررسی Reward Hacking و کنترل با KL Divergence (When the Model Gets Sneaky: Reward Hacking and Control with KL Divergence)

آموزش RLHF با FLAN-T5 - بخش اول: آماده‌سازی داده و ساخت دیتاست برای خلاصه‌سازی دیالوگ (RLHF with FLAN-T5 – Part 1: Data Preparation and Prompting for Dialogue Summarization)

آموزش RLHF با FLAN-T5 – بخش دوم: بارگذاری مدل، اعمال LoRA و آماده‌سازی مدل مرجع و پاداش (RLHF with FLAN-T5 – Part 2: Loading the Model, Applying LoRA, and Setting Up the Reward and Reference Models)

آموزش RLHF با FLAN-T5- بخش سوم: آموزش مدل با PPO، ارزیابی سمیّت، و مقایسه نتایج قبل و بعد از RLHF (RLHF with FLAN-T5 – Part 3: Training with PPO, Toxicity Evaluation, and Comparison Before and After RLHF)

بهینه‌سازی مستقیم ترجیحات (Direct Preference Optimization (DPO))

آموزش DPO با Qwen - بخش اول: ساخت دیتاست ترجیحات برای عنوان‌گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 1: Preparing Preference Data for YouTube Video Title Generation)

آموزش DPO با Qwen - بخش دوم: آموزش مدل بر اساس ترجیحات برای عنوان گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 2: Fine-Tuning on YouTube Title Preferences)

کد DPO با Phi-3 - آماده‌سازی دیتای ترجیحات برای پاسخ‌های دقیق محاسباتی (DPO with Phi-3 – Preparing a Preference Dataset for Concise Math Responses)

کد DPO با Phi-3 - آموزش مدل برای پاسخ دقیق به سوالات محاسباتی (DPO with Phi-3 – Fine-Tuning for Accurate Math Question Answering)

کد DPO با Phi-3 - تست مدل آموزش داده شده (DPO with Phi-3 – Inference)

بهینه‌سازی سیاست نسبی گروهی (Group Relative Policy Optimization (GRPO))

انتخاب بین PPO، DPO و GRPO (Choosing Between PPO, DPO, and GRPO)

درک عمیق الگوریتم GRPO (Understanding GRPO)

مثال ساده فاین‌تیون LLM با روش GRPO برای محدود کردن طول جمله (Basic Fine-tuning of LLM with GRPO to Restrict Output Length)

زنجیره افکار (COT)

فاین‌تیون مدل زبانی بزرگ با LoRA و Unsloth - آماده‌سازی داده و تنظیمات (قسمت اول) (Fine-tuning LLM with LoRA using Unsloth — Dataset Preparation & Setup (Part 1))

آموزش مدل زبانی بزرگ با روش GRPO در Unsloth - توابع پاداش و تولید متن (قسمت دوم) (Training LLM with GRPO Rewards in Unsloth — Reward Functions & Generation (Part 2))

مقیاس‌پذیر کردن بازخورد انسانی (Scaling human feedback)


#مدل_زبانی_بزرگ
👍31



tgoop.com/llm_huggingface/13
Create:
Last Update:

🤖 فصل 5: RLHF، DPO و GRPO — فاین‌تیون با بازخورد انسانی
(بازخورد انسانی و الگوریتم‌های پیشرفته یادگیری تقویتی)

در این فصل وارد دنیای مدل‌هایی می‌شیم که با بازخورد انسانی تربیت می‌شن. الگوریتم‌هایی مثل RLHF، DPO و GRPO با پروژه‌های واقعی آموزش داده می‌شن.

سرفصل‌های این فصل:

    همراستایی مدل‌ها با بازخورد انسانی: مفهوم و اهمیت (Model Alignment with Human Feedback: Concept and Importance) 

مقدمه‌ای بر یادگیری تقویتی: مفاهیم پایه برای مدل‌های زبانی (Introduction to Reinforcement Learning: Core Concepts for LLMs)

جمع‌آوری بازخوردهای انسانی (Collecting human feedback)

آموزش مدل پاداش (Training the reward model)

آموزش Fine-tune کردن با یادگیری تقویتی با بازخورد انسانی (Fine-tuning with RLHF)

بهینه‌سازی خط‌مشی نزدیک (Proximal Policy Optimization)

مفهوم Policy Loss در PPO: قلب الگوریتم به‌روزرسانی خط‌مشی (Policy Loss in PPO: The Core of Policy Update)

درک Value Loss و Entropy Loss در RLHF (Understanding Value Loss and Entropy Loss in RLHF)

وقتی مدل زرنگ‌بازی درمیاره! بررسی Reward Hacking و کنترل با KL Divergence (When the Model Gets Sneaky: Reward Hacking and Control with KL Divergence)

آموزش RLHF با FLAN-T5 - بخش اول: آماده‌سازی داده و ساخت دیتاست برای خلاصه‌سازی دیالوگ (RLHF with FLAN-T5 – Part 1: Data Preparation and Prompting for Dialogue Summarization)

آموزش RLHF با FLAN-T5 – بخش دوم: بارگذاری مدل، اعمال LoRA و آماده‌سازی مدل مرجع و پاداش (RLHF with FLAN-T5 – Part 2: Loading the Model, Applying LoRA, and Setting Up the Reward and Reference Models)

آموزش RLHF با FLAN-T5- بخش سوم: آموزش مدل با PPO، ارزیابی سمیّت، و مقایسه نتایج قبل و بعد از RLHF (RLHF with FLAN-T5 – Part 3: Training with PPO, Toxicity Evaluation, and Comparison Before and After RLHF)

بهینه‌سازی مستقیم ترجیحات (Direct Preference Optimization (DPO))

آموزش DPO با Qwen - بخش اول: ساخت دیتاست ترجیحات برای عنوان‌گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 1: Preparing Preference Data for YouTube Video Title Generation)

آموزش DPO با Qwen - بخش دوم: آموزش مدل بر اساس ترجیحات برای عنوان گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 2: Fine-Tuning on YouTube Title Preferences)

کد DPO با Phi-3 - آماده‌سازی دیتای ترجیحات برای پاسخ‌های دقیق محاسباتی (DPO with Phi-3 – Preparing a Preference Dataset for Concise Math Responses)

کد DPO با Phi-3 - آموزش مدل برای پاسخ دقیق به سوالات محاسباتی (DPO with Phi-3 – Fine-Tuning for Accurate Math Question Answering)

کد DPO با Phi-3 - تست مدل آموزش داده شده (DPO with Phi-3 – Inference)

بهینه‌سازی سیاست نسبی گروهی (Group Relative Policy Optimization (GRPO))

انتخاب بین PPO، DPO و GRPO (Choosing Between PPO, DPO, and GRPO)

درک عمیق الگوریتم GRPO (Understanding GRPO)

مثال ساده فاین‌تیون LLM با روش GRPO برای محدود کردن طول جمله (Basic Fine-tuning of LLM with GRPO to Restrict Output Length)

زنجیره افکار (COT)

فاین‌تیون مدل زبانی بزرگ با LoRA و Unsloth - آماده‌سازی داده و تنظیمات (قسمت اول) (Fine-tuning LLM with LoRA using Unsloth — Dataset Preparation & Setup (Part 1))

آموزش مدل زبانی بزرگ با روش GRPO در Unsloth - توابع پاداش و تولید متن (قسمت دوم) (Training LLM with GRPO Rewards in Unsloth — Reward Functions & Generation (Part 2))

مقیاس‌پذیر کردن بازخورد انسانی (Scaling human feedback)


#مدل_زبانی_بزرگ

BY آموزش LLM و VLM


Share with your friend now:
tgoop.com/llm_huggingface/13

View MORE
Open in Telegram


Telegram News

Date: |

As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Activate up to 20 bots While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading.
from us


Telegram آموزش LLM و VLM
FROM American