Telegram Web
Forwarded from School of AI
پژوهش‌گرها (و دانشجو‌ها) همیشه دل‌شون می‌خواد که یه نفر باشه که هر مقاله‌ای رو که می‌گن بره بخونه، بیاد خلاصه‌شو بهشون بگه و انقدری خوب مقاله رو فهمیده باشه که پرسش‌هاشون رو هم پاسخ بده و خلاصه یه پارتنری باشه که بشینن در مورد مقاله با هم صحبت کنن.

خوب گوگل زحمت این رو هم کشید ☺️

https://illuminate.withgoogle.com/
Forwarded from School of AI
اگه از خوراک‌های تکراری‌ خسته شدی می‌تونی به کمک هوش مصنوعی جدید گوگل دستور پخت خوراک‌های ترکیبی از دو کشور مختلف رو امتحان کنی!

https://artsandculture.google.com/
ظاهرا شرکت هواوی که خواسته از این هیاهوی هوش مصنوعی سهمی داشته باشه بدجوری ضایع شده!

هواوی اخیراً تولید کننده تصویر یا image generator خود را ارائه کرده و معلوم شد که این شرکت آنقدر در مورد آن نامطمئن بوده که هاردکدی را نوشته بوده که با 6 ثانیه تاخیر، یه تصویر از پیش آماده شده را از یک پوشه بر میداشته و نشون میداده که ارور داده و با متن ارور لو رفتن!!

البته خبرو فقط تو ردیت دیدم، جای معتبری هنوز تایید نکرده!

https://www.reddit.com/r/facepalm/comments/1csuf74/huawei_just_accidentally_revealed_that_their_new/
خبر خوب برای کارکنان مرکز تماس:
تلطیف صدای تماس گیرندگان خشمگین با هوش مصنوعی(😡==>😘)

تیم SoftBank فناوری توسعه داده که خلق و خوی مشتریان را تشخیص داده و در صورت لزوم از شدت خشم و فریاد آنها کاسته و صدای تلطیف شده را برای اپراتور پخش میکند  و به اپراتورها کمک می کند تا استرس نگیره و ناراحت نشه :)
چقدر مهربون!
https://www.reuters.com/technology/softbank-corp-aims-help-call-centre-workers-by-softening-angry-customer-calls-2024-05-16/
این ویدیو یه صحبت با جفری هینتون است:

https://youtu.be/tP-4njhyGvo

خلاصه:

آقای هینتون اول دنبال فهمیدن کارکرد مغز بود ولی از یافته‌های علوم اعصاب ناامید شد.
به یادگیری با الگوریتم بیشتر علاقه پیدا کرد و سراغ هوش مصنوعی رفت.
درباره همکاری با افراد دیگه تو این زمینه صحبت میکنه.
فکر میکنه مدل‌های زبان بزرگ فقط کلمه بعدی رو حدس نمیزنن بلکه معنی کل جمله رو درک میکنن.
به این اشاره میکنه که این مدل‌ها شاید حتی از فهم انسان هم فراتر برن.
روش فعلی آموزش هوش مصنوعی با حجم زیادی از اطلاعات رو تایید میکنه ولی میگه شاید الگوریتم‌های یادگیری دیگری هم باشن که موفق باشن.
در آخر، باحال‌ترین دستاورد پژوهشی خودش رو کارش با Sejnowski میدونه.
Media is too big
VIEW IN TELEGRAM
به نظرتون این دموها واقعیه یا ...؟
Forwarded from School of AI
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهش‌گران دانشگاه میشیگان، یک Diffusion Model معرفی کرده‌اند که با دریافت یک پرامپت متنی برای صوت (در کنار تصویر)، صدا نیز تولید می‌کند.

این مدل در واقع به صدا نیز به شکل تصویر نگاه کرده (spectrograms) و آن را می‌سازد.


مقاله:
arxiv.org/pdf/2405.12221
بلاگ‌پُست:
ificl.github.io/images-that-sound
گیت‌هاب:
github.com/IFICL/images-that-sound
Forwarded from School of AI
شرکت OpenAI محبوب‌ترین صدای ChatGPT موسوم به Sky را که در دموهای چند روز پیش این شرکت وجود داشت، حذف کرد.

این صدا، الهام‌گرفته‌شده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشه‌ی این فیلم) و نارضایتی وی، حذف شد.

https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/
Forwarded from School of AI
همون‌طور که می‌دونید، به‌تازگی مدل‌های چندوجهی (Multimodal Models) و به‌طور خاص مدل‌های بینایی-زبان (Vision-Language Models) بسیار محبوب شده‌اند.

این مدل‌ها معمولا به‌طور همزمان یک تصویر و یک نوشتار را در ورودی دریافت می‌کنند. خروجی این مدل‌ها ممکن‌ست تنها نوشتار باشد، تنها تصویر باشد و یا ترکیبی از هر دو.

از مدل‌های تجاری مثل GPT-4o و Gemini 1.5 Pro که بگذریم، بسیاری از افراد مایل‌اند از مدل‌های اوپن-سورس و رایگان استفاده کنند.

به‌تازگی شاهد انتشار مدل PaliGemma توسط گوگل بودیم که در عین سادگی، عمل‌کرد فوق‌العاده‌ای دارد. با این حال، این مدل ۸ میلیارد پارامتر دارد و ممکن‌ست برای اجرا روی دستگاه‌های ضعیف مناسب نباشد.

گزینه‌ی دیگر Moondream2 است که با اینکه دقت PaliGemma را ندارد اما به‌نسبت سایز بسیار کوچک آن (۱/۸۶ میلیارد پارامتر) دقت قابل قبولی دارد و حتی در آزمون VQAv2 از GPT-4o هم به‌تر عمل می‌کند.

لینک آموزشی زیر، این مدل را برای شمارش مبلغ پول فاین‌تیون می‌کند.

https://blog.roboflow.com/finetuning-moondream2/
📷 ویندوز ۱۱ در به‌روزرسانی جدید خود پشتیبانی کاملی از فایل‌های 7Zip و TAR را بدون نیاز به نصب برنامه فراهم کرده

blogs.windows.com/windows-insider/2024/05/17/announcing-windows-11-insider-preview-build-22635-3640-beta-channel
Forwarded from School of AI
شاید شنیده باشید که در هنگام آموزش شبکه‌های عصبی، وقتی اندازه‌ی batch ها را x برابر می‌کنید، به‌تر‌ست نرخ آموزش را نیز x برابر (اگر الگوریتم آموزش SGD است) و یا x√ برابر (اگر الگوریتم آموزش Adam است) کنید.

مثلا در LLM ها که بیش‌تر از الگوریتم آموزشی Adam استفاده می‌شود، اندازه‌ی batch ها را تا حدی که GPU شما خطای Out_Of_Memory نمی‌دهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر می‌کنید، نرخ آموزش را ۱/۴ برابر کنید.

این مقاله‌ی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه می‌دهد.

https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/

پی‌نوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را به‌صورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آن‌جا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش به‌صورت کسینوسی کم می‌شود.
Forwarded from School of AI
یکی دیگه از VLM ها که به‌تازگی توسط HuggingFace معرفی شده، Idefics2 است.

این مدل نیز مانند PaliGemma هشت میلیارد پارامتر دارد.

قابلیت دریافت دنباله‌ای از تصاویر (مثلا تکه‌ای از یک ویدئو) را دارد.

تصاویر با رزولوشن و aspect ratio خودشان پردازش می‌شوند.

قابلیت OCR بسیار خوبی دارد.

تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانع‌ست.


بلاگ‌پست معرفی:
https://huggingface.co/blog/idefics2

مقاله:
https://arxiv.org/pdf/2405.02246

مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2

فاین‌تیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
مدل YOLOv10 منتشر شد!🔥
مقاله :
https://arxiv.org/pdf/2405.14458
گیت‌هاب :
https://github.com/THU-MIG/yolov10/
📢500.000 تومان تخفیف ویژه تا 18 خرداد برای دوره‌ی جامع یادگیری عمیق:🎉

کد تخفیف:
jame_feugy

——
https://www.tgoop.com/class_vision/665
Forwarded from School of AI
واژه‌ی AI Agent (عامل هوش‌مصنوعی) واژه‌ای‌ست که علاقه‌مندان به AI این روزها زیاد باهاش روبه‌رو می‌شن. بنابراین در این پست به توضیح این مفهوم می‌پردازیم.

این مفهوم جدید نیست و پیش‌تر با عنوان Intelligent Agent در هوش مصنوعی بررسی می‌شد. اخیرا این مفهوم شکل و شمایل مدرن‌تری به خود گرفته و تحت نام AI Agent پوست‌اندازی کرده‌ست.

در تعریف قدیمی، Intelligent Agent سامانه‌ای (نرم‌افزاری یا سخت‌افزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حس‌گرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامه‌ی تصمیم‌گیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عمل‌گرهای خود (Actuators) آن عمل را در محیط انجام می‌دهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار می‌شوند تا درنهایت عامل به هدف خود برسد.

این مفهوم، از ابتدا یک ایده‌ی مناسب برای مدل‌کردن سامانه‌های هوشمند مثل انواع روبات‌ها، اتومبیل‌های خودران، برنامه‌های هوش مصنوعی و … بود.

با پیدایش مدل‌های بنیادین مثل LLM ها، دنیای نرم‌افزار هم دچار انقلاب شده و علاقه به توسعه‌ی نرم‌افزارها، سرویس‌ها و دستیارهای هوشمند و خودمختار افزایش یافته‌ست.

در توسعه‌ی نرم‌افزار کلاسیک، همه‌ی‌کار‌ها روی دوش توسعه‌دهنده است، توسعه‌دهنده، هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند، خروجی هر task را مشخص می‌کند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد.

با همه‌گیرشدن LLMها، خیلی از برنامه‌ها LLM-powered شدند، در این برنامه‌ها همچنان توسعه‌دهنده هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست می‌آید.

این سبک طراحی و توسعه‌ی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشن‌های RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیده‌ست بسنده نمی‌شود و دانش به‌روزتر و کامل‌تری همراه با پرامپت به LLM داده می‌شود تا با توجه به آن دانش، خروجی task را مشخص کند.

با افزایش توان استدلال LLM ها، منطق اجرایی برنامه‌ها نیز به LLM ها سپرده شد (توسعه نرم‌افزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعه‌دهنده، هدف برنامه رو مشخص می‌کند و این هدف رو به تعدادی task کوچک‌تر می‌شکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام می‌شود.

و اما ترند این روزها در توسعه‌ی سرویس‌های نرم‌افزاری ظاهرا به سمت AI Agent ها در حرکت‌ست. در این نرم‌افزارها، توسعه‌دهنده، فقط هدف برنامه رو مشخص می‌کند، یک LLM سعی می‌کند آن هدف را بررسی و درک کرده، آن را به دنباله‌ای از task های کوچک و قابل دست‌رسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاه‌های داده‌ای، RAG، فایل‌ها، سرچ، APIها و …) دریافت می‌کند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را می‌دهد. این عمل در یک حلقه،‌ تکرار شده تا AI Agent به هدف خود برسد.

مثلا یک چت‌بات خدمات مشتریان را در نظر بگیرید که intent ها و action ها از قبل برای آن مشخص نشده و این عامل، طی تعامل با مشتری، با چرخیدن در پایگاه‌های داده و مستندات و به‌صورت خودمختار اقدام به رفع مشکل می‌کند.
Forwarded from School of AI
مدل YOLOv10 توسط THU-MIG منتشر شد!

این مدل در ۶ سایز معرفی شده‌ست:
نانو (n): ۲/۳ میلیون پارامتر
کوچک (s): ۷/۲ میلیون پارامتر
متوسط (m): ۱۵/۴ میلیون پارامتر
بزرگ (b): ۱۹/۱ میلیون پارامتر
بزرگ (l): ۲۴/۴ میلیون پارامتر
خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر

این مدل دقت (mAP) به‌تری روی مجموعه‌داده‌ی COCO داشته و به‌خاطر عدم استفاده از NMS به مراتب سریع‌ترست. طوری که کوچک‌ترین سایز، هر تصویر را در ۱ میلی‌ثانیه پردازش می‌کند (1000fps) و به راحتی می‌توان گفت به‌ترین مدل برای پردازش بلادرنگ ویدئو‌ها روی دستگاه‌های لبه (edge devices) است.

کد این مدل روی فریم‌ورک Ultralytics زده شده و بنابراین به کمک پکیج ultralytics به‌سادگی قابل استفاده است.

نکته‌ی قابل توجه این که، این مدل تحت مجوز GNU GPL v3.0 منتشر شده، یعنی فقط در پروژه‌های اوپن-سورس قابل استفاده‌ست و نمی‌توان از آن در محصولات close-source استفاده کرد.


مقاله
https://arxiv.org/pdf/2405.14458

گیت‌هاب
https://github.com/THU-MIG/yolov10/

فاین‌تیون کردن مدل
https://blog.roboflow.com/yolov10-how-to-train/

دمو
https://huggingface.co/spaces/kadirnar/Yolov10
ماجرای چت جی پی تی و ماشین ۱ دلاری!!
بنگاه‌های فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده می‌کردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع می‌کند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه می‌دهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید می‌کند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی می‌گیرد؛
البته بنگاه معاملات خودرو چنین معامله‌ای را قبول نمی‌کند؛
اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه

autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html
2024/05/28 15:42:31
Back to Top
HTML Embed Code:


Fatal error: Uncaught Error: Call to undefined function pop() in /var/www/tgoop/chat.php:243 Stack trace: #0 /var/www/tgoop/route.php(43): include_once() #1 {main} thrown in /var/www/tgoop/chat.php on line 243