Algorithm design & data structure@AlgorithmDesign

Algorithm design & data structure

🧠 تا حالا شده بخوای یه مدل زبانی بزرگ مثل LLaMA بتونه تصویر رو بفهمه، بدون اینکه بخوای آموزشش بدی؟

توی یه مقاله جدید یه روش خیلی جالب پیشنهاد شده به اسم:
Zero-Shot Vision Encoder Grafting

ایده‌ش اینه:
میان یه مدل کوچیک درست می‌کنن (بهش می‌گن surrogate) که از لایه‌های ابتدایی همون LLM استفاده می‌کنه. بعد یه رمزگذار بینایی (Vision Encoder) رو روی این مدل کوچیک آموزش می‌دن.

📌 حالا رمزگذار بینایی رو می‌گیرن و مستقیم می‌چسبونن به LLM اصلی! بدون اینکه LLM نیاز به آموزش داشته باشه

نکته: نماد (❄️)Freeze نشان میده که وزن های این رمزگذار در طول این فرایند به روز نمی شوند در واقع از قبل آموزش دیده و ثابت است.
نماد Traing (🔥) نشان دهنده که این مدل خاص در حال آموزش است.

https://arxiv.org/abs/2505.22664

Link github : https://github.com/facebookresearch/zero

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer

www.tgoop.com/AlgorithmDesign_DataStructuer/1759

1.3K viewsMay 30 at 09:52

tgoop.com/AlgorithmDesign_DataStructuer/1759

Create: 2025-05-30
Last Update: 2025-06-30 00:50:51

BY Algorithm design & data structure

Share with your friend now:
tgoop.com/AlgorithmDesign_DataStructuer/1759

Telegram News

🧠 تا حالا شده بخوای یه مدل زبانی بزرگ مثل LLaMA بتونه تصویر رو بفهمه، بدون اینکه بخوای آموزشش بدی؟