DATASCIENCE_ASSOCIATION Telegram 734
🔥 انقلاب در استدلال مدل‌های زبانی با یادگیری تقویتی!

▫️مقاله‌ای (لینک) منتشر شده است که در آن، مدل‌های DeepSeek-R1-Zero و DeepSeek-R1 معرفی شده‌اند که با بهره‌گیری از یادگیری تقویتی، توانایی‌های استدلالی قابل‌توجهی را نشان می‌دهند.

▫️مدل DeepSeek-R1-Zero بدون استفاده از تنظیم دقیق نظارت‌شده (SFT) آموزش دیده و رفتارهای استدلالی قدرتمندی را به‌طور طبیعی به نمایش می‌گذارد، هرچند با چالش‌هایی مانند خوانایی ضعیف و ترکیب زبان‌ها مواجه است.

▫️برای رفع این مشکلات و بهبود عملکرد استدلال، مدل DeepSeek-R1 با استفاده از آموزش چندمرحله‌ای و داده‌های Cold Start قبل از یادگیری تقویتی توسعه یافته است. این مدل در وظایف استدلالی عملکردی قابل‌مقایسه با مدل OpenAI-o1 دارد.

▫️این پژوهش نشان‌دهنده پیشرفت‌های قابل‌توجه در بهبود توانایی‌های استدلالی مدل‌های زبانی بزرگ با استفاده از روش‌های یادگیری تقویتی است.

#مقاله #دیپ_سیک #DeepSeek

در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
|
@DataScience_Association |
👍43🔥3



tgoop.com/DataScience_Association/734
Create:
Last Update:

🔥 انقلاب در استدلال مدل‌های زبانی با یادگیری تقویتی!

▫️مقاله‌ای (لینک) منتشر شده است که در آن، مدل‌های DeepSeek-R1-Zero و DeepSeek-R1 معرفی شده‌اند که با بهره‌گیری از یادگیری تقویتی، توانایی‌های استدلالی قابل‌توجهی را نشان می‌دهند.

▫️مدل DeepSeek-R1-Zero بدون استفاده از تنظیم دقیق نظارت‌شده (SFT) آموزش دیده و رفتارهای استدلالی قدرتمندی را به‌طور طبیعی به نمایش می‌گذارد، هرچند با چالش‌هایی مانند خوانایی ضعیف و ترکیب زبان‌ها مواجه است.

▫️برای رفع این مشکلات و بهبود عملکرد استدلال، مدل DeepSeek-R1 با استفاده از آموزش چندمرحله‌ای و داده‌های Cold Start قبل از یادگیری تقویتی توسعه یافته است. این مدل در وظایف استدلالی عملکردی قابل‌مقایسه با مدل OpenAI-o1 دارد.

▫️این پژوهش نشان‌دهنده پیشرفت‌های قابل‌توجه در بهبود توانایی‌های استدلالی مدل‌های زبانی بزرگ با استفاده از روش‌های یادگیری تقویتی است.

#مقاله #دیپ_سیک #DeepSeek

در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
|
@DataScience_Association |

BY انجمن علوم داده




Share with your friend now:
tgoop.com/DataScience_Association/734

View MORE
Open in Telegram


Telegram News

Date: |

In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. How to Create a Private or Public Channel on Telegram? Invite up to 200 users from your contacts to join your channel Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police.
from us


Telegram انجمن علوم داده
FROM American