tgoop.com/fusion_to_future/24
Last Update:
خبر داغ! 🔥 Reflection 70B اومده و با اینکه خیلی کوچیکتره، GPT-4 و Claude Sonnet رو تو benchmark های کلیدی شکست داده! خیلی جالبه، ولی داستان اصلی اینه که چطوری این اتفاق افتاده:
مت شومر یه محقق AI معمولی نیست. این یارو یه prompt engineer هست که از روزای اول GPT-3 تو خط مقدم بوده و واسه میلیونها کاربر چیز ساخته. تجربش باعث شد یه نکته مهم رو بفهمه: LLM ها تو قبول کردن اشتباهاتشون موقع بازتاب خیلی بدن! حتی حاضرن اشتباه کنن که بعدش چیزی واسه درست کردن داشته باشن!
راه حلش چی بود؟ Fine-tuning برای خود-اصلاحی واقعی بدون خطاهای جدید. اونقدر ساده که نبوغ آمیزه، و آزمایشگاههای بزرگ ازش غافل شدن.
نتیجش یه مدلیه که فقط وقتی لازمه فکر میکنه. و با بازتاب داخلی، میشه راحت از کاربر مخفیش کرد.
تو 3 هفته توسط 2 تا آدم که میدونن LLM ها تو دنیای واقعی چجوری رفتار میکنن ساخته شد. بدون نیاز به میلیاردها دلار یا سالها تحقیق.
Open-source هست! نسخه 405B هفته بعد میاد، شاید dataset هم منتشر کنن. یه سیل نوآوری داره میاد!
شرکتهای بزرگ فناوری احتمالاً دارن به خودشون میپیچن. مدلهاشون که اغلب توسط محققای بیتجربه ساخته شدن، الان قدیمی به نظر میان. System prompt گراک خجالتآوره. Claude قبلاً این کارو با prompting میکنه (ازش بخواه با دقت فکر کنه، میبینی که کندتر جواب میده، چون رابط کاربریش متن بین تگهای <Thinking></Thinking> رو نشون نمیده)، ولی fine-tune کردنش میتونه یه ارتقاء آسون باشه.
بذارید واضح بگم: مدلها تو یکی دو ماه آینده خیلی بهتر میشن. کار مت سادهست، و هنوز کلی پیشرفت آسون دیگه هست که میشه کرد.
مثلاً، اگه به یه مدل بگی "اگه درست جواب بدی 20 دلار انعام میدم" یا "شغلم به این بستگی داره"، جوابهای بهتری میگیری. با آموزش بهتر، شاید دیگه نیازی به این کارا نباشه.
Chain-of-Thought و Self-Reflection هم خیلی سادهن، و این با یه مجموعه داده مصنوعی ساخته شده. فکرشو بکن اگه از آدما واسه جمعآوری یه مجموعه داده خیلی بهتر استفاده میکردیم چی میشد! یا اگه با انواع دیگه CoT، خود-بازتابی، استدلال چند عاملی و غیره آزمایش میکردیم چی؟ کلی چیز هست که میشه امتحان کرد، و لازم نیست تو OpenAI باشی تا امتحانشون کنی!
تو درازمدت، شاید مدلها نیازی به fine-tune کردن CoT/Reflection نداشته باشن، شاید این جور فکر کردن عمیقاً توشون جا بیفته. فعلاً که یه برد آسونه.
آره، کُندتره - یه مرحله استدلال اضافه میکنه. ولی وقتی Groq/Cerebras داره 1800+ توکن در ثانیه میزنه، مگه فرقی میکنه؟ هر نمره IQ واسه یه مدل حیاتیه. من با کمال میل 100 میلیثانیه واسه نتایج بهتر صبر میکنم.
آینده AI فقط مدلهای بزرگتر نیست. آموزش هوشمندتر و تفکر شبیه انسانه. و ممکنه از دست مهندسا بیاد، نه دکترا.
این تازه اولشه. چشماتونو باز نگه دارین! 👀💡
BY Fusions by Saeed Abhari
Share with your friend now:
tgoop.com/fusion_to_future/24