FUSION_TO_FUTURE Telegram 24
خبر داغ! 🔥 Reflection 70B اومده و با اینکه خیلی کوچیکتره، GPT-4 و Claude Sonnet رو تو benchmark های کلیدی شکست داده! خیلی جالبه، ولی داستان اصلی اینه که چطوری این اتفاق افتاده:

مت شومر یه محقق AI معمولی نیست. این یارو یه prompt engineer هست که از روزای اول GPT-3 تو خط مقدم بوده و واسه میلیون‌ها کاربر چیز ساخته. تجربش باعث شد یه نکته مهم رو بفهمه: LLM ها تو قبول کردن اشتباهاتشون موقع بازتاب خیلی بدن! حتی حاضرن اشتباه کنن که بعدش چیزی واسه درست کردن داشته باشن!

راه حلش چی بود؟ Fine-tuning برای خود-اصلاحی واقعی بدون خطاهای جدید. اونقدر ساده که نبوغ آمیزه، و آزمایشگاه‌های بزرگ ازش غافل شدن.

نتیجش یه مدلیه که فقط وقتی لازمه فکر می‌کنه. و با بازتاب داخلی، میشه راحت از کاربر مخفیش کرد.

تو 3 هفته توسط 2 تا آدم که می‌دونن LLM ها تو دنیای واقعی چجوری رفتار می‌کنن ساخته شد. بدون نیاز به میلیاردها دلار یا سال‌ها تحقیق.

Open-source هست! نسخه 405B هفته بعد میاد، شاید dataset هم منتشر کنن. یه سیل نوآوری داره میاد!

شرکت‌های بزرگ فناوری احتمالاً دارن به خودشون میپیچن. مدل‌هاشون که اغلب توسط محققای بی‌تجربه ساخته شدن، الان قدیمی به نظر میان. System prompt گراک خجالت‌آوره. Claude قبلاً این کارو با prompting می‌کنه (ازش بخواه با دقت فکر کنه، می‌بینی که کندتر جواب میده، چون رابط کاربریش متن بین تگ‌های <Thinking></Thinking> رو نشون نمیده)، ولی fine-tune کردنش می‌تونه یه ارتقاء آسون باشه.

بذارید واضح بگم: مدل‌ها تو یکی دو ماه آینده خیلی بهتر میشن. کار مت ساده‌ست، و هنوز کلی پیشرفت آسون دیگه هست که میشه کرد.

مثلاً، اگه به یه مدل بگی "اگه درست جواب بدی 20 دلار انعام میدم" یا "شغلم به این بستگی داره"، جواب‌های بهتری میگیری. با آموزش بهتر، شاید دیگه نیازی به این کارا نباشه.

Chain-of-Thought و Self-Reflection هم خیلی ساده‌ن، و این با یه مجموعه داده مصنوعی ساخته شده. فکرشو بکن اگه از آدما واسه جمع‌آوری یه مجموعه داده خیلی بهتر استفاده می‌کردیم چی می‌شد! یا اگه با انواع دیگه CoT، خود-بازتابی، استدلال چند عاملی و غیره آزمایش می‌کردیم چی؟ کلی چیز هست که میشه امتحان کرد، و لازم نیست تو OpenAI باشی تا امتحانشون کنی!

تو درازمدت، شاید مدل‌ها نیازی به fine-tune کردن CoT/Reflection نداشته باشن، شاید این جور فکر کردن عمیقاً توشون جا بیفته. فعلاً که یه برد آسونه.

آره، کُندتره - یه مرحله استدلال اضافه می‌کنه. ولی وقتی Groq/Cerebras داره 1800+ توکن در ثانیه میزنه، مگه فرقی می‌کنه؟ هر نمره IQ واسه یه مدل حیاتیه. من با کمال میل 100 میلی‌ثانیه واسه نتایج بهتر صبر می‌کنم.

آینده AI فقط مدل‌های بزرگتر نیست. آموزش هوشمندتر و تفکر شبیه انسانه. و ممکنه از دست مهندسا بیاد، نه دکترا.

این تازه اولشه. چشماتونو باز نگه دارین! 👀💡
5🍌2👍1



tgoop.com/fusion_to_future/24
Create:
Last Update:

خبر داغ! 🔥 Reflection 70B اومده و با اینکه خیلی کوچیکتره، GPT-4 و Claude Sonnet رو تو benchmark های کلیدی شکست داده! خیلی جالبه، ولی داستان اصلی اینه که چطوری این اتفاق افتاده:

مت شومر یه محقق AI معمولی نیست. این یارو یه prompt engineer هست که از روزای اول GPT-3 تو خط مقدم بوده و واسه میلیون‌ها کاربر چیز ساخته. تجربش باعث شد یه نکته مهم رو بفهمه: LLM ها تو قبول کردن اشتباهاتشون موقع بازتاب خیلی بدن! حتی حاضرن اشتباه کنن که بعدش چیزی واسه درست کردن داشته باشن!

راه حلش چی بود؟ Fine-tuning برای خود-اصلاحی واقعی بدون خطاهای جدید. اونقدر ساده که نبوغ آمیزه، و آزمایشگاه‌های بزرگ ازش غافل شدن.

نتیجش یه مدلیه که فقط وقتی لازمه فکر می‌کنه. و با بازتاب داخلی، میشه راحت از کاربر مخفیش کرد.

تو 3 هفته توسط 2 تا آدم که می‌دونن LLM ها تو دنیای واقعی چجوری رفتار می‌کنن ساخته شد. بدون نیاز به میلیاردها دلار یا سال‌ها تحقیق.

Open-source هست! نسخه 405B هفته بعد میاد، شاید dataset هم منتشر کنن. یه سیل نوآوری داره میاد!

شرکت‌های بزرگ فناوری احتمالاً دارن به خودشون میپیچن. مدل‌هاشون که اغلب توسط محققای بی‌تجربه ساخته شدن، الان قدیمی به نظر میان. System prompt گراک خجالت‌آوره. Claude قبلاً این کارو با prompting می‌کنه (ازش بخواه با دقت فکر کنه، می‌بینی که کندتر جواب میده، چون رابط کاربریش متن بین تگ‌های <Thinking></Thinking> رو نشون نمیده)، ولی fine-tune کردنش می‌تونه یه ارتقاء آسون باشه.

بذارید واضح بگم: مدل‌ها تو یکی دو ماه آینده خیلی بهتر میشن. کار مت ساده‌ست، و هنوز کلی پیشرفت آسون دیگه هست که میشه کرد.

مثلاً، اگه به یه مدل بگی "اگه درست جواب بدی 20 دلار انعام میدم" یا "شغلم به این بستگی داره"، جواب‌های بهتری میگیری. با آموزش بهتر، شاید دیگه نیازی به این کارا نباشه.

Chain-of-Thought و Self-Reflection هم خیلی ساده‌ن، و این با یه مجموعه داده مصنوعی ساخته شده. فکرشو بکن اگه از آدما واسه جمع‌آوری یه مجموعه داده خیلی بهتر استفاده می‌کردیم چی می‌شد! یا اگه با انواع دیگه CoT، خود-بازتابی، استدلال چند عاملی و غیره آزمایش می‌کردیم چی؟ کلی چیز هست که میشه امتحان کرد، و لازم نیست تو OpenAI باشی تا امتحانشون کنی!

تو درازمدت، شاید مدل‌ها نیازی به fine-tune کردن CoT/Reflection نداشته باشن، شاید این جور فکر کردن عمیقاً توشون جا بیفته. فعلاً که یه برد آسونه.

آره، کُندتره - یه مرحله استدلال اضافه می‌کنه. ولی وقتی Groq/Cerebras داره 1800+ توکن در ثانیه میزنه، مگه فرقی می‌کنه؟ هر نمره IQ واسه یه مدل حیاتیه. من با کمال میل 100 میلی‌ثانیه واسه نتایج بهتر صبر می‌کنم.

آینده AI فقط مدل‌های بزرگتر نیست. آموزش هوشمندتر و تفکر شبیه انسانه. و ممکنه از دست مهندسا بیاد، نه دکترا.

این تازه اولشه. چشماتونو باز نگه دارین! 👀💡

BY Fusions by Saeed Abhari


Share with your friend now:
tgoop.com/fusion_to_future/24

View MORE
Open in Telegram


Telegram News

Date: |

Activate up to 20 bots Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” How to create a business channel on Telegram? (Tutorial) ZDNET RECOMMENDS Concise
from us


Telegram Fusions by Saeed Abhari
FROM American