Tensorflow(@CVision)

🎉 دوره جدید منتشر شد:
آموزش مدل‌های زبانی-تصویری (VLM): از درک تصویر و ویدیو تا فاین‌تیون پیشرفته
از درک تصویر و ویدیو تا فاین‌تیون پیشرفته 🚀

📚 در 4 فصل:
1️⃣ آشنایی با مدل‌های مولتی‌مدال (CLIP تا SigLIP)
2️⃣ کاربرد VLM در درک تصویر و ویدیو
3️⃣ فاین‌تیون و پروژه‌های تخصصی
4️⃣ آموزش پیشرفته با DPO، GRPO و MPO

🔑 ویژگی‌های کلیدی:
✔️ معرفی روش‌ها و مدل‌های جدید مثل MPO و FASTVLM اپل
✔️ استفاده از HuggingFace و Unsloth
✔️ بیش از 15 کد عملی همراه توضیح کامل

🎁 تخفیف ویژه 70٪ با کد زیر:

COUPON-c4cd3

🔗 تهیه دوره:
https://mktb.me/e3gx/

کانال تلگرامی دوره | کانال تلگرام کلاس‌ویژن | کدهای دوره
اسلایدهای دوره | کوئیزهای دوره | تمرین+پروژه

مکتب‌خونه

آموزش مدل‌های زبانی-تصویری (VLM): از درک تصویر و ویدیو تا فاین‌تیون پیشرفته

هدف دوره این است که شما نه تنها مفاهیم را یاد بگیرید، بلکه بتوانید بلافاصله آن‌ها را در پروژه‌های واقعی پیاده‌سازی کنید. دوره شامل 15 نوت‌بوک عملی (Jupyter Notebook) آماده اجراست – بدون نیاز به نصب پیچیده است.

❤11👍3

2.73K views15:21

Tensorflow(@CVision)

https://academy.openai.com/public/tags/prompt-packs-6849a0f98c613939acef841c?tagSlug=prompt-packs-6849a0f98c613939acef841c

❤5

2.62K views07:56

Tensorflow(@CVision)

Yolo26 و Edge device

به‌تازگی پیش‌نمایش YOLO26 توسط Ultralytics منتشر شد — و به‌نظر می‌رسه یک نقطه عطف در بینایی real-time باشه...
مدل‌های فعلی معمولاً:
❌ سنگین
❌ وابسته به GPU
❌ سخت برای اجرا روی دستگاه‌های edge

🔑 چی باعث تفاوت YOLO26 میشه؟
1️⃣ End-to-End، بدون NMS → دیگه خبری از Non-Maximum Suppression نیست. پیش‌بینی‌ها مستقیم از شبکه میان.
2️⃣ استقرار ساده‌تر → حذف Distribution Focal Loss (DFL). خروجی راحت به ONNX، TensorRT، CoreML، TFLite و OpenVINO.
3️⃣ بهینه‌ساز MuSGD → ترکیبی از SGD + Muon (الهام‌گرفته از آموزش LLMها). پایدارتر، همگرا سریع‌تر.
4️⃣ تشخیص بهتر اجسام کوچک → با ProgLoss + STAL عملکرد قوی‌تر برای پهپادها، IoT، رباتیک و نظارت.
5️⃣ تا ۴۳٪ سریع‌تر در inference روی CPUها.

📦 یک فریم‌ورک، وظایف متعدد
YOLO26 از Detection، Segmentation، Pose، Classification و Oriented Object Detection (OBB) پشتیبانی می‌کنه.

🏁 جمع‌بندی

✅ پیچیدگی کمتر
✅ قابلیت استقرار بیشتر
✅ سرعت بالاتر روی CPU
✅ الهام‌گرفته از دستاوردهای LLM

🔗https://docs.ultralytics.com/models/yolo26/

#yolo #yolo26 #edge #ultralytics

🔥15❤2👍1

2.9K viewsedited 08:02

Tensorflow(@CVision)

Forwarded from آموزش LLM و VLM

0:44

Media is too big

VIEW IN TELEGRAM

🎉 دوره جدید منتشر شد:

آموزش مدل‌های زبانی-تصویری (VLM):
از درک تصویر و ویدیو تا فاین‌تیون پیشرفته 🚀

🎁 تخفیف ویژه 70٪ با کد زیر:

COUPON-c4cd3

🔗 تهیه دوره:
https://mktb.me/e3gx/
~~~~~~~
اطلاعات بیشتر
~~~~~~~
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

❤6👍2

2.56K views08:23

Tensorflow(@CVision)

Forwarded from آموزش LLM و VLM

1:31

Media is too big

VIEW IN TELEGRAM

🌟 آموزش مدل‌های زبانی-تصویری (VLM) با تدریس علیرضا اخوان‌پور منتشر شد🎉

مردادماه دوره‌ی مدل‌های زبانی بزرگ (LLM) در مکتب‌خونه منتشر شد؛ دوره‌ای که توش یاد می‌گرفتید مدل‌هایی مثل ChatGPT یا Gemini چطور آموزش می‌بینن، چطور کار می‌کنن و چطور می‌تونن به زبان‌های مختلف – حتی فارسی – پاسخ بدن و ...

♨️حالا نوبت یکی از داغ‌ترین موضوعات دنیای AI رسیده:
🔹 مدل‌های زبانی-تصویری (VLM)

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

👨‍🏫 تدریس هر دو دوره توسط مهندس علیرضا اخوان‌پور انجام شده

🔗 مشاهده دوره:
https://mktb.me/e3gx/

👍3❤‍🔥1❤1

2.83K viewsClass Vision Support, 14:21

Tensorflow(@CVision)

Forwarded from آموزش LLM و VLM

کد تخفیف 70 درصدی تست شده

فقط موقع استفاده حتما تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.

COUPON-c4cd3

https://mktb.me/e3gx/

🤔6❤3❤‍🔥1

3.57K viewsClass Vision Support, 14:21

Tensorflow(@CVision)

▪️ اشنایی با مقالات و منابع هوش مصنوعی و علوم پزشکی

✅ @AI_DeepMind

❤3❤‍🔥1

3.5K views17:52

Tensorflow(@CVision)

Please open Telegram to view this post

VIEW IN TELEGRAM

19:36

Tensorflow(@CVision)

Forwarded from DLeX: AI Python (NaviD DariYa)

مقایسه کوتاه Google A2A با MCP :

👉

@ai_python

✍️

https://youtube.com/shorts/Dxn1ku9nkRc?si=QOI1fBFdAmdS0ZrK

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

A2A vs MCP for AI Agents: Which One to Choose? (60 Sec Guide)|A2A vs MCP: The AI Agent Showdown

❤4❤‍🔥1

2.66K views07:34

🌟 آموزش مدل‌های زبانی-تصویری (VLM) منتشر شد🎉

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🎁 تخفیف ویژه 70٪ با کد زیر:

COUPON-c4cd3

🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

🔗 مشاهده دوره:
https://mktb.me/e3gx/

❤5❤‍🔥1👍1

3.35K viewsedited 11:15

Tensorflow(@CVision)

دنیایی از منابع برنامه‌نویسی توی این کانال بصورت دسته‌بندی شده با هشتگ بصورت روزانه قرار داده میشه.

@pythony

❤7❤‍🔥1

3.29K views17:58

Tensorflow(@CVision)

Forwarded from آموزش LLM و VLM

امروز نسخه سبکتر Qwen3-VL رو منتشر شد!

امروز، ۴ اکتبر ۲۰۲۵، تیم Qwen دو مدل جدید از خانواده Qwen3-VL رو منتشر کرد:
مدل Qwen3-VL-30B-A3B-Instruct
و Qwen3-VL-30B-A3B-Thinking
به‌همراه نسخه‌ی FP8 برای هر دو مدل که حجم و مصرف حافظه رو به‌طور قابل‌توجهی پایین میاره.

تا قبل از این، Qwen3-VL فقط مدل‌های خیلی سنگین داشت و عملاً نسخه‌ای سبک یا بهینه برای استفاده عمومی نداشت. حالا با این نسخه FP8 و تنظیمات جدید، بالاخره میشه مدل‌های Qwen3-VL رو راحت‌تر روی GPUهای معمولی هم بالا آورد.

🔹 نسخه Instruct بیشتر برای کارهای گفت‌وگومحور و دستورمحور طراحی شده.
🔹 نسخه Thinking روی استدلال پیچیده و فهم عمیق‌تر تصویر و ویدیو تمرکز داره.

هر دو مدل از فهم متن و تصویر پشتیبانی می‌کنن، OCR قوی دارن (تا ۳۲ زبان)، و حتی می‌تونن از روی تصویر کد HTML یا JS بسازن!
پشتیبانی از context طولانی (تا ۱ میلیون توکن) هم داره — چیزی که برای پروژه‌های چندرسانه‌ای واقعاً غنیمته.

📦 https://github.com/QwenLM/Qwen3-VL

👍12❤1❤‍🔥1

3.18K views10:17

Tensorflow(@CVision)

https://github.com/StanfordBDHG/OpenTSLM

GitHub

GitHub - StanfordBDHG/OpenTSLM: OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series…

OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series Data - StanfordBDHG/OpenTSLM

❤‍🔥7

3.37K views18:34

Tensorflow(@CVision)

https://www.linkedin.com/posts/alirezaakhavanpour_%DB%8C%DA%A9%DB%8C-%D8%A7%D8%B2-%D8%AC%D8%B0%D8%A7%D8%A8%D8%AA%D8%B1%DB%8C%D9%86-%D8%A8%D8%AE%D8%B4%D9%87%D8%A7%DB%8C-%DA%A9%D8%A7%D8%B1-%D8%AF%D8%B1-%D8%AD%D9%88%D8%B2%D9%87-%D9%87%D9%88%D8%B4-activity-7380861110184345601-9tF5?utm_source=share&utm_medium=member_desktop&rcm=ACoAABrJlh8Bhcs8apGwDrwXmZwGi2SACKYyIO4

کد تخفیف 5 میلیون تومانی ثبت نام بوت کمپ

GenAI5 | Alireza Akhavanpour

❤4❤‍🔥1🙏1

3.16K views07:07

Tensorflow(@CVision)

بابا منظورم به زبان فارسی بوده. وقتی کد میفرستم چرا از ادبیات آزمون باید طرح کنه😐😩

👀11🤯3❤2❤‍🔥1⚡1🤔1

3.16K views09:29

Tensorflow(@CVision)

دیاگرام بکشید، هوش مصنوعی کدش رو بزنه:

AgentKit

thenewstack.io/openai-launches-a-no-code-agent-builder

محصول جدید OpenAI، یعنی AgentKit، یک ابزار سازنده ایجنت بدون کد است که به توسعه‌دهندگان و شرکت‌ها امکان ساخت و استقرار سریع سیستم‌های چند ایجنتی را می‌دهد.
همچنین، Apps in ChatGPT به کاربران اجازه می‌دهد تا برنامه‌های شخص ثالث، مانند Zillow، را مستقیماً از طریق رابط چت‌جی‌پی‌تی فراخوانی و با آنها تعامل داشته باشند.

The New Stack

OpenAI Launches a No-Code Agent Builder

At its developer conference in San Francisco, OpenAI beta launched AgentKit, a no-code agent builder, and the ability to invoke third-party apps in ChatGPT.

⚡7❤‍🔥2👍2

3.29K viewsedited 07:44

Tensorflow(@CVision)

انقلاب سامسونگ در هوش مصنوعی: مدل ۷ میلیونی که غول‌ها را شکست داد

فرانسیس شوله اینجا، این رو بازنشر کرده بود:

https://fixupx.com/jacksonatkinsx/status/1975556245617512460?s=12

وقتی این مقاله را خواندم مغزم هنگ کرد.

یک مدل خیلی کوچک با تنها ۷ میلیون پارامتر همین الان در آزمون‌های استدلال روی هر دو مجموعه ARG-AGI 1 و ARC-AGI 2، از DeepSeek-R1، Gemini 2.5 pro و o3-mini جلو زد.

اسمش Tiny Recursive Model (TRM) از سامسونگ است.

چطور مدلی که ۱۰٬۰۰۰ برابر کوچکتر است می‌تواند باهوش‌تر باشد؟

نحوه کارش این‌طور است:

نوشتن یک پاسخ اولیه: برخلاف یک مدل زبان بزرگ (LLM) که کلمه‌به‌کلمه تولید می‌کند، TRM ابتدا یک «پیش‌نویس» سریع و کامل از راه‌حل تولید می‌کند. این را می‌توان اولین حدس خام آن دانست.

خلق یک «اسکراچ‌پد (scratchpad)»: سپس فضایی جداگانه برای افکار درونی‌اش می‌سازد — یک «اسکراچ‌پد» استدلال نهفته. اینجا است که جادوی واقعی رخ می‌دهد.

خودانتقادی شدید: مدل وارد یک حلقهٔ درونی شدید می‌شود. پیش‌نویسش را با مسئلهٔ اصلی مقایسه می‌کند و بارها و بارها (۶ بار پشت‌سرِ هم) استدلالش را در اسکرچ‌پد تصحیح می‌کند و از خودش می‌پرسد «آیا منطق من درست است؟ خطاها کجا هستند؟»

بازنویسی پاسخ: پس از این «تفکر» متمرکز، از منطق بهبود یافتهٔ موجود در اسکرچ‌پد استفاده می‌کند تا یک پیش‌نویس کاملاً جدید و بسیار بهتر از پاسخ نهایی بسازد.

تکرار تا رسیدن به اطمینان: کل فرایند — پیش‌نویس، تفکر، اصلاح — تا ۱۶ بار تکرار می‌شود. هر چرخه مدل را به حلِ مسئله‌ای صحیح‌تر و منطقی‌تر نزدیک‌تر می‌کند.

چرا این مهم است:

رهبران کسب‌وکار: این همان چیزی است که برتری الگوریتمی (algorithmic advantage) به نظر می‌رسد. در حالی که رقبا برای مقیاس‌بندی خام هزینه‌های عظیمی در فرایند inference می‌پردازند، یک مدل هوشمندتر و کارآمدتر می‌تواند عملکرد بهتر را با کسری از هزینه ارائه دهد.

پژوهشگران: این تأیید مهمی برای ایده‌های نوروسیمبولیک (neuro-symbolic) است. توانایی مدل در «تفکر» بازگشتی (recursively) پیش از «عمل»، نشان می‌دهد که معماری، نه صرفاً مقیاس، می‌تواند محرک اصلی قابلیت استدلال باشد.

عملی‌کنندگان: استدلال در سطح SOTA (state-of-the-art) دیگر پشت خوشه‌های GPU میلیارد دلاری قفل‌شده نیست. این مقاله یک نقشه‌راه بسیار کارآمد و کم‌پارامتر برای ساخت سامانه‌های استدلالی (reasoners) تخصصی فراهم می‌کند که می‌توانند در هر جا اجرا شوند.

این فقط کوچک‌سازیِ مقیاس نیست؛ این یک روش کاملاً متفاوت و هدفمندتر برای حل مسائل است.

@cvision
@llm_huggingface

🧵 Thread • FixupX

Jackson Atkins (@JacksonAtkinsX)

My brain broke when I read this paper.

A tiny 7 Million parameter model just beat DeepSeek-R1, Gemini 2.5 pro, and o3-mini at reasoning on both ARG-AGI 1 and ARC-AGI 2.

It's called Tiny Recursive Model (TRM) from Samsung.

How can a model 10,000x smaller…

🤯26❤17👍4👌3❤‍🔥2

4.11K views05:10

Tensorflow(@CVision)

Forwarded from آموزش LLM و VLM

1:31

Media is too big

VIEW IN TELEGRAM

🌟 مدل‌های زبانی-تصویری (VLM)| مدرس: علیرضا اخوان‌پور

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🔗 مشاهده دوره:
https://mktb.me/e3gx/

کد تخفیف 70 درصدی دوره جدید VLM

COUPON-c4cd3

——————————————

🎁همچنین به عنوان پیش نیاز با 70 درصد تخفیف ویژه به مدت محدود دوره محبوب و پرفروش LLM را نیز میتوانید با کد زیر تهیه کنید.

COUPON-c2e42

https://mktb.me/04dr/

❌ حتما موقع استفاده تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.

~~~
کانال تلگرامی دوره
@llm_huggingface

❤6❤‍🔥1👍1

2.08K views15:33

Tensorflow(@CVision)

Forwarded from 🚀 کلاس‌ویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته

تخفیف 70 درصدی دوره "آموزش پردازش تصویر و بینایی ماشین با OpenCV" برای 200 نفر

COUPON-cd4f3

https://mktb.me/81nt/

❌برای استفاده کد تخفیف، باید قبل اضافه کردن دوره به سبد خرید، تیک دسترسی کامل را بردارید

مکتب‌خونه

آموزش پردازش تصویر و بینایی ماشین با OpenCV

دوره آموزش پردازش تصویر و بینایی ماشین با opencv برای ایجاد یک پایه قوی در بینایی کامپیوتر طراحی شده است. در این دوره شما درک کاملی از تقریبا تمام ابزارهای OpenCV برای پردازش تصویر، بینایی کامپیوتری، پردازش ویدئو و اصول اولیه هوش مصنوعی خواهید داشت.

❤4❤‍🔥1

1.92K views07:53

Tensorflow(@CVision)

امروزه LLMها دیگر فقط متن نمی‌فهمند؛ آن‌ها می‌توانند داده‌های چندرسانه‌ای مثل صدا، تصویر و متن را پردازش کنند و عملکردی فراتر از مدل‌های تخصصی ارائه دهند. ولی هنوز مشکل بزرگشان این است که نمی‌توانند سری‌های زمانی (Time Series) را به‌خوبی تحلیل کنند.

حالا OpenTSLM این محدودیت را رفع می‌کند: این مدل زبان بزرگ، سری‌های زمانی پزشکی چندمتغیره را به‌عنوان ورودی می‌پذیرد و می‌تواند روی آن‌ها استدلال کند، توضیح بدهد و نتایج را به زبانخوشح طبیعی ارائه کند، برای مثال در تشخیص فعالیت انسانی، تحلیل خواب، پاسخ به سؤالات ECG و تولید توضیحات سری‌های زمانی.

خلاصه: OpenTSLM، LLM مخصوص سری‌های زمانی پزشکی است که همزمان چند سری را پردازش و نتایج قابل فهم برای انسان تولید می‌کند. قاعدتا توقع میره روی داده های بورس و کریپتو و ... هم بشه فاین تیون کرد

این مدل توسط تیمی بین‌رشته‌ای از دانشگاه استنفورد، ETH زوریخ، گوگل ریسرچ توسعه داده شده است.

https://github.com/StanfordBDHG/OpenTSLM

❤17👍4🤯3❤‍🔥1

1.96K viewsedited 15:47

2025/10/15 11:15:00
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>