2411.03350v1.pdf
4.2 MB
🔍 بررسی مدلهای زبانی کوچک در عصر مدلهای زبانی بزرگ
● در این مقاله جامع که اخیراً منتشر شده است، به بررسی مدلهای زبانی کوچک (SLM) پرداخته میشود. این مدلها به دلیل اندازه کوچکتر، کارایی بالا و قابلیت تطبیق در محیطهایی با منابع محدود، مورد توجه قرار گرفتهاند.
۱. کاربردها و مزایا
مدلهای SLM در حوزههای خاص مانند سلامت و قانون، برای پردازش دادههای حساس و کاهش زمان پاسخگویی استفاده میشوند.
۲. چالشها و بهبودها
این مدلها نیازمند تکنیکهایی نظیر Knowledge Distillation، کاهش پارامترها و بهینهسازی هستند تا بتوانند کارایی مشابه مدلهای بزرگ را در شرایط خاص ارائه دهند.
۳. آینده مدلهای کوچک
با توجه به کاهش هزینهها و افزایش نیاز به پردازشها، پیشبینی میشود که این مدلها نقشی کلیدی در توسعه هوش مصنوعی ایفا کنند.
#مقاله #مدل_زبانی_کوچک #SLM
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● در این مقاله جامع که اخیراً منتشر شده است، به بررسی مدلهای زبانی کوچک (SLM) پرداخته میشود. این مدلها به دلیل اندازه کوچکتر، کارایی بالا و قابلیت تطبیق در محیطهایی با منابع محدود، مورد توجه قرار گرفتهاند.
۱. کاربردها و مزایا
مدلهای SLM در حوزههای خاص مانند سلامت و قانون، برای پردازش دادههای حساس و کاهش زمان پاسخگویی استفاده میشوند.
۲. چالشها و بهبودها
این مدلها نیازمند تکنیکهایی نظیر Knowledge Distillation، کاهش پارامترها و بهینهسازی هستند تا بتوانند کارایی مشابه مدلهای بزرگ را در شرایط خاص ارائه دهند.
۳. آینده مدلهای کوچک
با توجه به کاهش هزینهها و افزایش نیاز به پردازشها، پیشبینی میشود که این مدلها نقشی کلیدی در توسعه هوش مصنوعی ایفا کنند.
#مقاله #مدل_زبانی_کوچک #SLM
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
🔔 خبر مهم برای کاربران PyTorch
● تیم توسعهدهنده PyTorch اعلام کرده است که از نسخه ۲.۵ به بعد، انتشار بستههای این کتابخانه در کانال رسمی Anaconda (با استفاده از -c pytorch) متوقف خواهد شد.
● این تصمیم به دلیل هزینههای بالای نگهداری و تفاوت قابل توجه در تعداد دانلودها بین PyPI و Anaconda اتخاذ شده است.
● توصیهها برای کاربران:
○ برای نصب PyTorch، از بستههای رسمی موجود در PyPI یا سایت رسمی PyTorch استفاده کنید.
○ کاربرانی که همچنان تمایل به استفاده از Conda دارند، میتوانند از بستههای موجود در conda-forge استفاده کنند.
● این تغییر به منظور بهبود تجربه کاربری و تمرکز بیشتر بر بهینهسازی بستههای PyTorch صورت گرفته است.
🔗 اطلاعات بیشتر
#خبر #PyTorch #Conda
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● تیم توسعهدهنده PyTorch اعلام کرده است که از نسخه ۲.۵ به بعد، انتشار بستههای این کتابخانه در کانال رسمی Anaconda (با استفاده از -c pytorch) متوقف خواهد شد.
● این تصمیم به دلیل هزینههای بالای نگهداری و تفاوت قابل توجه در تعداد دانلودها بین PyPI و Anaconda اتخاذ شده است.
● توصیهها برای کاربران:
○ برای نصب PyTorch، از بستههای رسمی موجود در PyPI یا سایت رسمی PyTorch استفاده کنید.
○ کاربرانی که همچنان تمایل به استفاده از Conda دارند، میتوانند از بستههای موجود در conda-forge استفاده کنند.
● این تغییر به منظور بهبود تجربه کاربری و تمرکز بیشتر بر بهینهسازی بستههای PyTorch صورت گرفته است.
🔗 اطلاعات بیشتر
#خبر #PyTorch #Conda
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
Forwarded from شبکه نخبگان ایران
| https://www.tgoop.com/IranElitesNet/5 |
Please open Telegram to view this post
VIEW IN TELEGRAM
2411.04996v1.pdf
15.9 MB
🔬 تحولی در مدلهای چندرسانهای: همکاری متا و استنفورد با Mixture-of-Transformers (MoT)
● مدلهای بزرگ زبانی (LLMs) از پردازش متن به تحلیل چندرسانهای شامل متن، تصویر و گفتار توسعه یافتهاند. اما چالش اصلی این مدلها، نیاز به منابع محاسباتی عظیم است.
● راهحل چیست؟
معماری Mixture-of-Transformers (MoT) که یک معماری پراکنده و مقیاسپذیر است که هزینههای محاسباتی را کاهش داده و عملکردی همسطح با مدلهای متراکم ارائه میدهد.
● ویژگیهای کلیدی MoT:
○ جداسازی پارامترهای خاص هر مدالیت برای پردازش بهتر
○ دستیابی به کیفیت متنی و تصویری مشابه با صرف ۴۷.۲% زمان محاسباتی کمتر
○ عملکرد عالی در تولید متن، تصویر و گفتار با ۵۵.۸% از FLOPs مورد نیاز مدلهای سنتی
● در نتیجه MoT عملکردی همسطح یا بهتر از مدلهای متراکم نشان داده است. این معماری پتانسیل تحول در مدلهای چندرسانهای را دارد.
#مقاله #MoT
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● مدلهای بزرگ زبانی (LLMs) از پردازش متن به تحلیل چندرسانهای شامل متن، تصویر و گفتار توسعه یافتهاند. اما چالش اصلی این مدلها، نیاز به منابع محاسباتی عظیم است.
● راهحل چیست؟
معماری Mixture-of-Transformers (MoT) که یک معماری پراکنده و مقیاسپذیر است که هزینههای محاسباتی را کاهش داده و عملکردی همسطح با مدلهای متراکم ارائه میدهد.
● ویژگیهای کلیدی MoT:
○ جداسازی پارامترهای خاص هر مدالیت برای پردازش بهتر
○ دستیابی به کیفیت متنی و تصویری مشابه با صرف ۴۷.۲% زمان محاسباتی کمتر
○ عملکرد عالی در تولید متن، تصویر و گفتار با ۵۵.۸% از FLOPs مورد نیاز مدلهای سنتی
● در نتیجه MoT عملکردی همسطح یا بهتر از مدلهای متراکم نشان داده است. این معماری پتانسیل تحول در مدلهای چندرسانهای را دارد.
#مقاله #MoT
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
Forwarded from صدای نخبگان
او در انتهای متن خود این جمله را نقل کردهاست:
چه سودی برای انسان دارد که تمام دنیا را بدست آورد ولی روح خود را از دست بدهد؟
| @ElitesVoice |
Please open Telegram to view this post
VIEW IN TELEGRAM
💬 هوش مصنوعی علیه کلاهبرداران تلفنی!
● در دنیای تکنولوژی، هوش مصنوعی هر روز ابعاد جدیدی از کاربردهای خود را به ما نشان میدهد. یکی از جالبترین پروژههای اخیر، توسعهی سیستمی به نام AI Granny است که بهطور خاص برای مقابله با کلاهبرداران تلفنی طراحی شده است.
● این سیستم نقش یک سالمند پرحرف و خوشمشرب را بازی میکند که میتواند ساعتها با کلاهبرداران تلفنی صحبت کند و آنها را درگیر نگه دارد.
● هدف چیست؟ تلف کردن وقت کلاهبرداران و جلوگیری از تماس آنها با افراد واقعی.
● این پروژه که توسط یک تیم هوش مصنوعی به رهبری یک توسعهدهنده خلاق راهاندازی شده، نشان میدهد که چگونه میتوان از تکنولوژی برای مقابله با تهدیدات اجتماعی استفاده کرد. سیستم AI Granny به صورت طبیعی صحبت میکند، داستانهای جالبی میگوید و حتی میتواند احساسات را شبیهسازی کند تا مکالمه را طولانیتر کند.
● سیستم AI Granny میتواند مکالمات مختلف را مدیریت کند و به سوالات کلاهبرداران پاسخهای نامربوط اما قانعکننده بدهد. همچنین این سیستم بهطور مداوم یاد میگیرد و میتواند خود را برای بهبود مکالمات بعدی بهروزرسانی کند.
🔗 مطالعه بیشتر
#وبلاگ
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● در دنیای تکنولوژی، هوش مصنوعی هر روز ابعاد جدیدی از کاربردهای خود را به ما نشان میدهد. یکی از جالبترین پروژههای اخیر، توسعهی سیستمی به نام AI Granny است که بهطور خاص برای مقابله با کلاهبرداران تلفنی طراحی شده است.
● این سیستم نقش یک سالمند پرحرف و خوشمشرب را بازی میکند که میتواند ساعتها با کلاهبرداران تلفنی صحبت کند و آنها را درگیر نگه دارد.
● هدف چیست؟ تلف کردن وقت کلاهبرداران و جلوگیری از تماس آنها با افراد واقعی.
● این پروژه که توسط یک تیم هوش مصنوعی به رهبری یک توسعهدهنده خلاق راهاندازی شده، نشان میدهد که چگونه میتوان از تکنولوژی برای مقابله با تهدیدات اجتماعی استفاده کرد. سیستم AI Granny به صورت طبیعی صحبت میکند، داستانهای جالبی میگوید و حتی میتواند احساسات را شبیهسازی کند تا مکالمه را طولانیتر کند.
● سیستم AI Granny میتواند مکالمات مختلف را مدیریت کند و به سوالات کلاهبرداران پاسخهای نامربوط اما قانعکننده بدهد. همچنین این سیستم بهطور مداوم یاد میگیرد و میتواند خود را برای بهبود مکالمات بعدی بهروزرسانی کند.
🔗 مطالعه بیشتر
#وبلاگ
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
Sebastian_Raschka_Build_a_Large_Language_Model_From_Scratch_Manning.pdf
11.6 MB
📚 کتاب ارزشمند Build a Large Language Model (From Scratch)
📖 انتشارات: Manning Publications Co | سال: ۲۰۲۴
● این کتاب به شما یاد میدهد چگونه یک مدل زبانی بزرگ از پایه بسازید و آن را بهینه کنید.
● مباحث کلیدی:
○ طراحی و کدنویسی تمام اجزای یک LLM
○ آمادهسازی دیتاست برای آموزش مدل
○ آموزش و بهینهسازی مدل برای طبقهبندی متن و دادههای شخصی
○ استفاده از بازخورد انسانی برای بهبود عملکرد مدل
○ درک عمیق از نحوه کار مدلهای زبان بزرگ مانند ChatGPT و Bard
○ یادگیری فرآیند ساخت مدلهای کوچک که قابل اجرا روی لپتاپهای معمولی هستند
○ مناسب برای توسعه مدلهای شخصی و دستیارهای هوشمند
● این کتاب شما را از سطح مبتدی تا پیشرفته در مسیر ساخت مدلهای زبانی بزرگ همراهی میکند.
#کتاب #مدل_زبانی_بزرگ #LLM
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
📖 انتشارات: Manning Publications Co | سال: ۲۰۲۴
● این کتاب به شما یاد میدهد چگونه یک مدل زبانی بزرگ از پایه بسازید و آن را بهینه کنید.
● مباحث کلیدی:
○ طراحی و کدنویسی تمام اجزای یک LLM
○ آمادهسازی دیتاست برای آموزش مدل
○ آموزش و بهینهسازی مدل برای طبقهبندی متن و دادههای شخصی
○ استفاده از بازخورد انسانی برای بهبود عملکرد مدل
○ درک عمیق از نحوه کار مدلهای زبان بزرگ مانند ChatGPT و Bard
○ یادگیری فرآیند ساخت مدلهای کوچک که قابل اجرا روی لپتاپهای معمولی هستند
○ مناسب برای توسعه مدلهای شخصی و دستیارهای هوشمند
● این کتاب شما را از سطح مبتدی تا پیشرفته در مسیر ساخت مدلهای زبانی بزرگ همراهی میکند.
#کتاب #مدل_زبانی_بزرگ #LLM
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
2410.17251v1.pdf
3.5 MB
🔍 تحولی در image captioning با روش Altogether
● تیمی از محققان Meta FAIR در مقالهای جدید، رویکردی نوین به نام Altogether را برای بهبود image captioning معرفی کردهاند.
● منظور از Image Captioning، تولید متنی است که محتوای یک تصویر را توصیف میکند. این متن باید اطلاعات بصری موجود در تصویر را به طور دقیق و جامع منتقل کند. بهبود عملکرد مدلهای هوش مصنوعی در وظایف مختلف مانند جستجوی تصویری، طبقهبندی، تولید تصویر و... تحت تاثیر این فرآیند است.
● روش Altogether از متنهای جایگزین (Alt-text) موجود که همراه تصاویر در وب یافت میشوند، استفاده میکند و آنها را با محتوای واقعی تصویر تطبیق میدهد. این روش به جای ایجاد یک کپشن کاملاً جدید، متنهای موجود را بهبود میدهد تا دقیقتر و حاوی اطلاعات بیشتری باشند.
● روش Altogether توانسته است در آزمایشهای خود عملکرد بهتری نسبت به مدلهای پیشرفته فعلی مانند GPT-4V و LLaVA نشان دهد.
#مقاله #زیرنویس_گذاری
کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● تیمی از محققان Meta FAIR در مقالهای جدید، رویکردی نوین به نام Altogether را برای بهبود image captioning معرفی کردهاند.
● منظور از Image Captioning، تولید متنی است که محتوای یک تصویر را توصیف میکند. این متن باید اطلاعات بصری موجود در تصویر را به طور دقیق و جامع منتقل کند. بهبود عملکرد مدلهای هوش مصنوعی در وظایف مختلف مانند جستجوی تصویری، طبقهبندی، تولید تصویر و... تحت تاثیر این فرآیند است.
● روش Altogether از متنهای جایگزین (Alt-text) موجود که همراه تصاویر در وب یافت میشوند، استفاده میکند و آنها را با محتوای واقعی تصویر تطبیق میدهد. این روش به جای ایجاد یک کپشن کاملاً جدید، متنهای موجود را بهبود میدهد تا دقیقتر و حاوی اطلاعات بیشتری باشند.
● روش Altogether توانسته است در آزمایشهای خود عملکرد بهتری نسبت به مدلهای پیشرفته فعلی مانند GPT-4V و LLaVA نشان دهد.
#مقاله #زیرنویس_گذاری
کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
2024.emnlp-main.1202.pdf
959 KB
🔍 بهینهسازی حافظه در Fine-Tune کردن ترنسفورمرها با روش Token Selection
● در مقالهای از Meta AI، روشی جدید به نام TOKENTUNE برای بهینهسازی حافظه در آموزش مدلهای ترنسفورمر معرفی شده است. این روش با انتخاب زیرمجموعهای از توکنهای ورودی و ذخیرهسازی حداقلی فعالسازیها، نیاز به حافظه را در فرآیند آموزش به طرز چشمگیری کاهش میدهد.
● ویژگیهای کلیدی:
○ کاهش مصرف حافظه GPU تا ۷۹٪
○ با وجود کاهش حافظه، دقت در وظایف مختلف مانند طبقهبندی متن و پاسخدهی به سؤالات، مشابه روشهای مرسوم است.
○ این روش میتواند با دیگر روشهای بهینهسازی حافظه مانند LoRA و QLoRA ترکیب شود.
#مقاله #مدلهای_زبانی #بهینهسازی_حافظه
کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● در مقالهای از Meta AI، روشی جدید به نام TOKENTUNE برای بهینهسازی حافظه در آموزش مدلهای ترنسفورمر معرفی شده است. این روش با انتخاب زیرمجموعهای از توکنهای ورودی و ذخیرهسازی حداقلی فعالسازیها، نیاز به حافظه را در فرآیند آموزش به طرز چشمگیری کاهش میدهد.
● ویژگیهای کلیدی:
○ کاهش مصرف حافظه GPU تا ۷۹٪
○ با وجود کاهش حافظه، دقت در وظایف مختلف مانند طبقهبندی متن و پاسخدهی به سؤالات، مشابه روشهای مرسوم است.
○ این روش میتواند با دیگر روشهای بهینهسازی حافظه مانند LoRA و QLoRA ترکیب شود.
#مقاله #مدلهای_زبانی #بهینهسازی_حافظه
کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
🔍 مفاهیم RLHF، RLAIF، RLEF، RLCF:
● در دنیای یادگیری تقویتی (RL)، روشهای متعددی برای بهبود عملکرد مدلها با استفاده از بازخوردهای مختلف توسعه یافتهاند. چهار رویکرد اصلی در این زمینه عبارتاند از:
۱. یادگیری تقویتی با بازخورد انسانی (RLHF): در این روش، مدل با استفاده از بازخوردهای انسانی آموزش میبیند تا عملکرد بهتری داشته باشد.
۲. یادگیری تقویتی با بازخورد هوش مصنوعی (RLAIF): در اینجا، به جای انسان، یک مدل هوش مصنوعی دیگر بازخورد را ارائه میدهد.
۳. یادگیری تقویتی با بازخورد محیطی (RLEF): در این روش، مدل از بازخوردهای مستقیم محیط برای بهبود عملکرد خود استفاده میکند.
4. یادگیری تقویتی با بازخورد مشتری (RLCF): در این رویکرد، بازخوردها از سوی کاربران یا مشتریان نهایی ارائه میشود تا مدل به نیازهای واقعی پاسخ دهد.
🔗 مطالعه بیشتر
#آموزش #Reinforcement_Learning
کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● در دنیای یادگیری تقویتی (RL)، روشهای متعددی برای بهبود عملکرد مدلها با استفاده از بازخوردهای مختلف توسعه یافتهاند. چهار رویکرد اصلی در این زمینه عبارتاند از:
۱. یادگیری تقویتی با بازخورد انسانی (RLHF): در این روش، مدل با استفاده از بازخوردهای انسانی آموزش میبیند تا عملکرد بهتری داشته باشد.
۲. یادگیری تقویتی با بازخورد هوش مصنوعی (RLAIF): در اینجا، به جای انسان، یک مدل هوش مصنوعی دیگر بازخورد را ارائه میدهد.
۳. یادگیری تقویتی با بازخورد محیطی (RLEF): در این روش، مدل از بازخوردهای مستقیم محیط برای بهبود عملکرد خود استفاده میکند.
4. یادگیری تقویتی با بازخورد مشتری (RLCF): در این رویکرد، بازخوردها از سوی کاربران یا مشتریان نهایی ارائه میشود تا مدل به نیازهای واقعی پاسخ دهد.
🔗 مطالعه بیشتر
#آموزش #Reinforcement_Learning
کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
🔍 هوش مصنوعی مولد چگونه بازار کار را متحول میکند؟
● هوش مصنوعی مولد (Generative AI) در حال تغییر چشمانداز بازار کار است. بر اساس مقالهای در Harvard Business Review، تاثیرات این فناوری بر مشاغل مختلف بررسی شده است.
● این مطالعه با تحلیل بیش از یک میلیون آگهی شغلی آنلاین، به بررسی تاثیر ابزارهایی مانند ChatGPT و هوش مصنوعی مولد تصویر پرداخته است.
● در این پژوهش تغییرات در تعداد آگهیها، الزامات شغلی و دستمزدها بررسی شده و نشان داده شده کدام حوزهها و مشاغل بیشتر تحت تاثیر قرار گرفتهاند.
○ افزایش بهرهوری: هوش مصنوعی مولد میتواند وظایف تکراری را خودکار کرده و به کارکنان اجازه دهد بر فعالیتهای استراتژیک تمرکز کنند.
○ ایجاد مشاغل جدید: با ظهور این فناوری، نیاز به تخصصهای جدید مانند مهندسی هوش مصنوعی و مدیریت داده افزایش یافته است.
○ تغییر در مهارتهای مورد نیاز: کارفرمایان به دنبال افرادی با مهارتهای ترکیبی در حوزههای فنی و خلاقانه هستند.
○ چالشهای اخلاقی و قانونی: استفاده از هوش مصنوعی مولد مسائل اخلاقی و حقوقی جدیدی را مطرح کرده است که نیازمند توجه ویژه است.
🔗 مطالعه نتایج تحقیق و جزئیات بیشتر
#وبلاگ #بازار_کار
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● هوش مصنوعی مولد (Generative AI) در حال تغییر چشمانداز بازار کار است. بر اساس مقالهای در Harvard Business Review، تاثیرات این فناوری بر مشاغل مختلف بررسی شده است.
● این مطالعه با تحلیل بیش از یک میلیون آگهی شغلی آنلاین، به بررسی تاثیر ابزارهایی مانند ChatGPT و هوش مصنوعی مولد تصویر پرداخته است.
● در این پژوهش تغییرات در تعداد آگهیها، الزامات شغلی و دستمزدها بررسی شده و نشان داده شده کدام حوزهها و مشاغل بیشتر تحت تاثیر قرار گرفتهاند.
○ افزایش بهرهوری: هوش مصنوعی مولد میتواند وظایف تکراری را خودکار کرده و به کارکنان اجازه دهد بر فعالیتهای استراتژیک تمرکز کنند.
○ ایجاد مشاغل جدید: با ظهور این فناوری، نیاز به تخصصهای جدید مانند مهندسی هوش مصنوعی و مدیریت داده افزایش یافته است.
○ تغییر در مهارتهای مورد نیاز: کارفرمایان به دنبال افرادی با مهارتهای ترکیبی در حوزههای فنی و خلاقانه هستند.
○ چالشهای اخلاقی و قانونی: استفاده از هوش مصنوعی مولد مسائل اخلاقی و حقوقی جدیدی را مطرح کرده است که نیازمند توجه ویژه است.
🔗 مطالعه نتایج تحقیق و جزئیات بیشتر
#وبلاگ #بازار_کار
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
2411.02335v1.pdf
2.4 MB
📢 تحولی در بهبود عملکرد مدلهای زبانی بزرگ (LLMs)
● این مقاله بررسی جامعی روی اهمیت و تأثیر کاهش فعالسازیها (Activation Sparsity) در مدلهای زبانی بزرگ انجام داده است.
● نکات کلیدی:
○ فعالسازی پراکنده: به معنای کاهش خروجیهای ضعیف در لایههای شبکه عصبی است که به تسریع پردازش و بهبود درک مدل کمک میکند.
○ متریک جدید PPL-p%: این متریک عملکرد را با میزان پراکندگی ترکیب کرده و بازخورد دقیقتری از تأثیر کاهش فعالسازی ارائه میدهد.
○ مزایای ReLU: عملکرد برتری نسبت به SiLU در افزایش پراکندگی و کاهش مصرف منابع دارد.
● یافتههای اصلی:
○ نسبت فعالسازی با افزایش دادههای آموزشی و استفاده از توابع فعالسازی به صورت قانون توان تغییر میکند.
○ مدلهای کوچکتر سریعتر به پراکندگی مطلوب میرسند، اما مدلهای بزرگتر الگوهای فعالسازی مشابهی ارائه میدهند.
#مقاله #LLM
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● این مقاله بررسی جامعی روی اهمیت و تأثیر کاهش فعالسازیها (Activation Sparsity) در مدلهای زبانی بزرگ انجام داده است.
● نکات کلیدی:
○ فعالسازی پراکنده: به معنای کاهش خروجیهای ضعیف در لایههای شبکه عصبی است که به تسریع پردازش و بهبود درک مدل کمک میکند.
○ متریک جدید PPL-p%: این متریک عملکرد را با میزان پراکندگی ترکیب کرده و بازخورد دقیقتری از تأثیر کاهش فعالسازی ارائه میدهد.
○ مزایای ReLU: عملکرد برتری نسبت به SiLU در افزایش پراکندگی و کاهش مصرف منابع دارد.
● یافتههای اصلی:
○ نسبت فعالسازی با افزایش دادههای آموزشی و استفاده از توابع فعالسازی به صورت قانون توان تغییر میکند.
○ مدلهای کوچکتر سریعتر به پراکندگی مطلوب میرسند، اما مدلهای بزرگتر الگوهای فعالسازی مشابهی ارائه میدهند.
#مقاله #LLM
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
2411.15124v1.pdf
4.1 MB
📢 تحولی جدید در توسعهی مدلهای زبانی منبع باز با TÜLU 3
● این مقاله، روشهای پیشرفتهای را برای بهبود مدلهای زبانی بزرگ (LLMs) با استفاده از رویکردهای منبع باز معرفی میکند.
● ویژگیهای کلیدی TÜLU 3:
○ استفاده از مجموعه دادههای منبع باز و تولید دادههای مصنوعی برای بهبود مهارتهای اصلی مانند ریاضیات، کدنویسی، استدلال و امنیت.
○ بهرهگیری از روشهای نوآورانه مانند یادگیری تقویتی با پاداشهای قابلتأیید (RLVR) برای بهبود نتایج.
○ معرفی ابزارها و معیارهای استاندارد برای ارزیابی عملکرد مدلها و جلوگیری از آلودگی دادهها.
● مدل TÜLU 3 در بسیاری از معیارها، مدلهای پیشرفتهای مانند GPT-3.5-Turbo و Claude 3.5 Haiku را پشت سر گذاشته است.
● این مدل از Llama 3.1 به عنوان پایه استفاده میکند و با ترکیب تنظیمات دقیقی، به عملکردی فراتر از مدلهای مشابه میرسد.
● مدل TÜLU 3 گامی مهم در پیشرفت هوش مصنوعی منبع باز است، که به توسعهدهندگان امکان میدهد مدلهای زبانی خود را با دادهها و روشهای کاملاً باز بهینه کنند.
#مقاله
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● این مقاله، روشهای پیشرفتهای را برای بهبود مدلهای زبانی بزرگ (LLMs) با استفاده از رویکردهای منبع باز معرفی میکند.
● ویژگیهای کلیدی TÜLU 3:
○ استفاده از مجموعه دادههای منبع باز و تولید دادههای مصنوعی برای بهبود مهارتهای اصلی مانند ریاضیات، کدنویسی، استدلال و امنیت.
○ بهرهگیری از روشهای نوآورانه مانند یادگیری تقویتی با پاداشهای قابلتأیید (RLVR) برای بهبود نتایج.
○ معرفی ابزارها و معیارهای استاندارد برای ارزیابی عملکرد مدلها و جلوگیری از آلودگی دادهها.
● مدل TÜLU 3 در بسیاری از معیارها، مدلهای پیشرفتهای مانند GPT-3.5-Turbo و Claude 3.5 Haiku را پشت سر گذاشته است.
● این مدل از Llama 3.1 به عنوان پایه استفاده میکند و با ترکیب تنظیمات دقیقی، به عملکردی فراتر از مدلهای مشابه میرسد.
● مدل TÜLU 3 گامی مهم در پیشرفت هوش مصنوعی منبع باز است، که به توسعهدهندگان امکان میدهد مدلهای زبانی خود را با دادهها و روشهای کاملاً باز بهینه کنند.
#مقاله
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
2411.15466v1.pdf
23.4 MB
📢 نوآوری جدید در مدلهای تولید تصویر از متن
● این مقاله، رویکردی نوآورانه برای تولید تصاویر سفارشی با استفاده از مدلهای تولید متن به تصویر بزرگ (مانند FLUX) ارائه میدهد.
● ویژگیهای کلیدی این روش:
○ با استفاده از یک تصویر مرجع و یک متن توصیفی، این روش تصاویری تولید میکند که بهطور دقیق مشخصات موضوع و محتوای متن را منعکس میکند.
○ برخلاف روشهای پیشین که به تنظیم دقیق (Fine-tuning) نیاز داشتند، این رویکرد با روش inpainting و در قالب diptych (تصاویر دو قسمتی) عمل میکند.
○ برای جلوگیری از نشت محتوای ناخواسته و تمرکز بیشتر بر سوژه، پسزمینه تصویر مرجع حذف میشود.
○ با تقویت توجه متقابل بین دو پنل تصویر، جزئیات دقیقتری از سوژه بازسازی میشوند.
● این روش، دقت بهتری نسبت به روشهای پیشین دارد و تصاویر تولیدی توسط کاربران ترجیح داده شدهاند.
● رویکرد Diptych Prompting نشاندهنده تحولی در تولید تصویر از متن و ابزارهای ویرایشی است که پتانسیل بالایی برای توسعه کاربردهای خلاقانه دارد.
#مقاله #image_generation
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● این مقاله، رویکردی نوآورانه برای تولید تصاویر سفارشی با استفاده از مدلهای تولید متن به تصویر بزرگ (مانند FLUX) ارائه میدهد.
● ویژگیهای کلیدی این روش:
○ با استفاده از یک تصویر مرجع و یک متن توصیفی، این روش تصاویری تولید میکند که بهطور دقیق مشخصات موضوع و محتوای متن را منعکس میکند.
○ برخلاف روشهای پیشین که به تنظیم دقیق (Fine-tuning) نیاز داشتند، این رویکرد با روش inpainting و در قالب diptych (تصاویر دو قسمتی) عمل میکند.
○ برای جلوگیری از نشت محتوای ناخواسته و تمرکز بیشتر بر سوژه، پسزمینه تصویر مرجع حذف میشود.
○ با تقویت توجه متقابل بین دو پنل تصویر، جزئیات دقیقتری از سوژه بازسازی میشوند.
● این روش، دقت بهتری نسبت به روشهای پیشین دارد و تصاویر تولیدی توسط کاربران ترجیح داده شدهاند.
● رویکرد Diptych Prompting نشاندهنده تحولی در تولید تصویر از متن و ابزارهای ویرایشی است که پتانسیل بالایی برای توسعه کاربردهای خلاقانه دارد.
#مقاله #image_generation
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
2411.15138v1.pdf
11.9 MB
📢 روش Material Anything: تولید هر شیء سهبعدی با استفاده از مدلهای Diffusion
●این مقاله، روش جدیدی را برای تولید مواد فیزیکی (PBR) معرفی میکند که بهطور خودکار مواد باکیفیت را برای اشیاء سهبعدی ایجاد میکند.
● ویژگیهای کلیدی این روش:
○ یکپارچگی: امکان تولید مواد برای اشیاء با ویژگیهای مختلف (مانند اشیاء بدون بافت، اشیاء دارای نورپردازی واقعی و اشیاء با بافتهای مصنوعی)
○ استفاده از مدلهای انتشار تصویر: بهرهگیری از معماری Triple-Head U-Net و ماسکهای اطمینان (Confidence Masks) برای بهبود کیفیت و پایداری
○ تولید UV-ready: مواد تولیدشده برای UV Mapping و کاربرد در پروژههای سهبعدی ارائه میشوند.
● کاربردها:
○ تولید مواد واقعی برای بازیهای ویدئویی و فیلمها
○ سفارشیسازی مواد با تغییر پرامپتها
○ ریلایتینگ (Relighting) برای نورپردازیهای مختلف
● این روش با کاهش پیچیدگی و زمان لازم برای تولید مواد، دقت و کیفیت بهتری نسبت به روشهای پیشین دارد.
#مقاله #material_anything
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
●این مقاله، روش جدیدی را برای تولید مواد فیزیکی (PBR) معرفی میکند که بهطور خودکار مواد باکیفیت را برای اشیاء سهبعدی ایجاد میکند.
● ویژگیهای کلیدی این روش:
○ یکپارچگی: امکان تولید مواد برای اشیاء با ویژگیهای مختلف (مانند اشیاء بدون بافت، اشیاء دارای نورپردازی واقعی و اشیاء با بافتهای مصنوعی)
○ استفاده از مدلهای انتشار تصویر: بهرهگیری از معماری Triple-Head U-Net و ماسکهای اطمینان (Confidence Masks) برای بهبود کیفیت و پایداری
○ تولید UV-ready: مواد تولیدشده برای UV Mapping و کاربرد در پروژههای سهبعدی ارائه میشوند.
● کاربردها:
○ تولید مواد واقعی برای بازیهای ویدئویی و فیلمها
○ سفارشیسازی مواد با تغییر پرامپتها
○ ریلایتینگ (Relighting) برای نورپردازیهای مختلف
● این روش با کاهش پیچیدگی و زمان لازم برای تولید مواد، دقت و کیفیت بهتری نسبت به روشهای پیشین دارد.
#مقاله #material_anything
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
This media is not supported in your browser
VIEW IN TELEGRAM
● نمونهای از عملکرد روش Material Anything
#material_anything
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
#material_anything
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
Forwarded from انجمن علمی مهندسی کامپیوتر
| @ComputerEng_Association |
Please open Telegram to view this post
VIEW IN TELEGRAM
2411.14522v1.pdf
1.3 MB
📢 مدل GMAI-VL: تحولی در مدلهای چندرسانهای هوش مصنوعی پزشکی
● این مقاله، روشها و ابزارهایی را معرفی میکند که بهطور خاص برای هوش مصنوعی پزشکی طراحی شدهاند.
● مجموعه داده GMAI-VL-5.5M شامل بیش از ۵.۵ میلیون نمونه متنی-تصویری است که از ۱۳ نوع مدالیته پزشکی و ۱۸ تخصص مختلف گردآوری شده است.
● این مدل توانایی پردازش دادههای تصویری و متنی را ترکیب کرده و از سه مرحله آموزشی برای بهبود عملکرد خود استفاده میکند:
○ تراز سطحی: تنظیم اولیه بین ویژگیهای تصویری و متنی.
○ تراز عمیق: بهبود هماهنگی بین تصاویر پزشکی و زبان.
○ تنظیم با دستورات: تقویت توانایی مدل در درک تعاملات پیچیده و پاسخ به دستورات.
● مدل GMAI-VL در معیارهایی مانند پرسش و پاسخ بصری پزشکی (VQA) و تشخیص تصاویر پزشکی به نتایج بیسابقهای دست یافته است.
● این مدل در معیارهای OmniMedVQA و GMAI-MMBench عملکرد بهتری نسبت به مدلهای مشابه دارد و تواناییهای خود را در تشخیص بیماریها، شناخت ساختارهای آناتومیکی و تحلیل تصاویر پزشکی نشان داده است.
#مقاله #GMAI_VL
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
● این مقاله، روشها و ابزارهایی را معرفی میکند که بهطور خاص برای هوش مصنوعی پزشکی طراحی شدهاند.
● مجموعه داده GMAI-VL-5.5M شامل بیش از ۵.۵ میلیون نمونه متنی-تصویری است که از ۱۳ نوع مدالیته پزشکی و ۱۸ تخصص مختلف گردآوری شده است.
● این مدل توانایی پردازش دادههای تصویری و متنی را ترکیب کرده و از سه مرحله آموزشی برای بهبود عملکرد خود استفاده میکند:
○ تراز سطحی: تنظیم اولیه بین ویژگیهای تصویری و متنی.
○ تراز عمیق: بهبود هماهنگی بین تصاویر پزشکی و زبان.
○ تنظیم با دستورات: تقویت توانایی مدل در درک تعاملات پیچیده و پاسخ به دستورات.
● مدل GMAI-VL در معیارهایی مانند پرسش و پاسخ بصری پزشکی (VQA) و تشخیص تصاویر پزشکی به نتایج بیسابقهای دست یافته است.
● این مدل در معیارهای OmniMedVQA و GMAI-MMBench عملکرد بهتری نسبت به مدلهای مشابه دارد و تواناییهای خود را در تشخیص بیماریها، شناخت ساختارهای آناتومیکی و تحلیل تصاویر پزشکی نشان داده است.
#مقاله #GMAI_VL
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |
Forwarded from شبکه نخبگان ایران
| @FinancialMng_Association |
Please open Telegram to view this post
VIEW IN TELEGRAM