tgoop.com/ai_python_en/2438
Create:
Last Update:
Last Update:
شرکت NVIDIA مدلي به نام NVEagle را عرضه کرده که یک مدل پیشرفته برای ترکیب بینایی و زبان است. این مدل در سه نسخه 7B، 13B و 13B بهینهسازیشده برای چت ارائه شده است. این مدل از روشهای مختلفی برای ادغام خروجیهای انکودرهای تصویر و استفاده از متخصصین مختلف (MoE) بهره میبرد.
در این مدل، برای ادغام تخصصها، خروجیهای انکودرهای تصویر از طریق concatenation به هم متصل میشوند و سپس مرحلهای به نام "pre-alignment" اجرا میشود که در آن متخصصین با انکودر متن ثابت بهینهسازی میشوند. سپس متخصصین و دیکودر فریز شده و تنها لایه پروجکشن آموزش داده میشود، و در نهایت همه اجزا برای بهینهسازی نظارتی باز میشوند.
معماری اصلی مدل شباهت زیادی به مدل LLaVA دارد.
Model repository: link
Try it here: link
BY AI, Python, Cognitive Neuroscience

Share with your friend now:
tgoop.com/ai_python_en/2438