Telegram Web
بلاگ پست "AI agentها یا عامل‌های هوش مصنوعی چیستند؟" که در سایت کلاس ویژن منتشر شده رو من با NotebookLM تبدیل به پادکست کردم که خروجی شو در ادامه میبینم که چقدر کیفیت خروجی بالاست ! 🔥🔥

🔹🔹🔹🔹🔹
🔹 @cvision 🔹
🔹🔹🔹🔹🔹
Audio
پادکست "AI agentها یا عامل‌های هوش مصنوعی چیستند؟"

🔹🔹🔹🔹🔹
🔹 @cvision 🔹
🔹🔹🔹🔹🔹
🧠 DeepSeek trains math proof model without human data
مدلی که بدون اتکا به داده انسانی، یاد گرفت چگونه ریاضیات را اثبات کند!
تیم DeepSeek از نسخه دوم مدل اثبات‌گر ریاضی خود رونمایی کرده:
DeepSeek-Prover-V2
نکته‌ی شگفت‌انگیز؟ این مدل بدون استفاده از داده‌های انسانی آموزش دیده است!
چه‌طور ممکنه؟
با استفاده از یک مدل زبانی قدرتمند (DeepSeek-V3)، ابتدا مسائل پیچیده ریاضی به زیرمسئله‌های ساده‌تر شکسته می‌شوند.
سپس این زیرمسئله‌ها به‌صورت خودکار اثبات می‌شوند و از این فرایند، داده‌های آموزشی مصنوعی تولید می‌شود.
در نهایت، مدل اصلی با یادگیری تقویتی آموزش می‌بیند تا خودش بتواند کل مسئله را اثبات کند — بدون نیاز به برچسب‌گذاری یا داده‌ی انسانی!
دستاوردها:
۸۸.۹٪ دقت در MiniF2F
حل ۴۹ مسئله از دیتاست چالش‌برانگیز PutnamBench
این پروژه یکی از ملموس‌ترین نمونه‌ها از ترکیب خلاقانه یادگیری زبانی، استدلال منطقی و RL است — و گامی مهم در مسیر خودآموزی ماشین‌ها برای حل مسائل پیشرفته ریاضی.

🔗لینک پروژه در گیت‌هاب:
github.com/deepseek-ai/DeepSeek-Prover-V2
جفری هینتون : خوشحالم ۷۷ سالمه، چون احتمالا تا من زنده ام دنیا دست هوش مصنوعی نمیفته!

جفری هینتون، که لقب Godfather هوش مصنوعی هم داره ، گفته از اینکه ۷۷ سالشه نفس راحتی می‌کشه! دلیلش هم اینه که فکر می‌کنه دیگه اونقدر عمر نمی‌کنه که شاهد روزی باشه که هوش مصنوعی از هوش انسان‌ها بزنه جلو و عواقب خطرناکش رو به چشم ببینه!

اون تو یه مصاحبه جدید هشدار داده که هوش مصنوعی داره خیلی سریع‌تر از چیزی که فکر می‌کردیم پیشرفت می‌کنه و حتی ممکنه آخرش کار به جایی برسه که بتونه ما انسان‌ها رو کنترل و بازی بده.

هینتون، توسعه هوش مصنوعی رو مثل بزرگ کردن یه بچه ببر دونسته؛ اولش شاید جالب باشه، اما وقتی بزرگ و قوی شد، می‌تونه خیلی خطرناک بشه!

جالبه بدونید هینتون قبلاً از گوگل استعفا داد تا بتونه آزادانه درباره این نگرانی‌هاش حرف بزنه...

https://www.yahoo.com/news/godfather-ai-says-hes-glad-110151161.html
Forwarded from DeepMind AI Expert (Farzad 🦅)
https://huggingface.co/Qwen/Qwen2.5-Omni-3B
مدل متن باز speech to speech
Forwarded from Shenasa-ai.ir
https://www.linkedin.com/posts/shenasa-ai_shenasaenglish-persian-parallel-dataset-activity-7324707430267801600-h-Yf


🔹 مجموعه‌داده‌ای شامل ۴ میلیون جمله موازی انگلیسی-فارسی برای ارتقاء سیستم‌های ترجمه ماشینی منتشر شد.


در این پروژه، علاوه بر ارائه یک دیتاست بزرگ‌مقیاس، از نمایش موقعیت نسبی (Relative Position Representations) در مدل‌های ترجمه عصبی استفاده شده که منجر به بهبود عملکرد شده است.


📦 دسترسی به دیتاست در Hugging Face:

🔗 https://huggingface.co/datasets/shenasa/English-Persian-Parallel-Dataset


📄 مقاله:
Enhancing English-Persian Neural Machine Translation with a Large-Scale Parallel Dataset and Relative Position Representations
🔗 https://ieeexplore.ieee.org/abstract/document/10967409


#NLP #MachineTranslation #PersianNLP #AI #DeepLearning #HuggingFace #DataScience
ارائه آنلاین چالش‌های مدل‌های زبانی و بینایی ماشین🔥

با حضور مجتبی کمیلی، مهندس تحقیقاتی در فیسبوک
شنبه ۲۰ اردیبهشت | ساعت ۱۸ تا ۱۹ 🕕

منتظر شما هستیم تا با هم وارد عمق مفاهیم هوش مصنوعی بشیم!

برگزاری + پرسش و پاسخ آنلاین در بستر تلگرام


@podcast3o14
در اپلیکیشن BoldVoice، لهجه به‌ عنوان یه پدیده زبانی پیچیده مورد بررسی قرار می‌گیره که شامل الگوهای صوتی مثل شکل‌ گیری مصوت‌ ها، زیر و بم صدا و ریتم گفتاره. هدف این پلتفرم، تحلیل و آموزش لهجه نه از منظر انسانی (زبان‌شناسی سنتی)، بلکه از طریق الگوریتم‌ های یادگیری ماشینه. به بیان دیگه، کامپیوتر باید بتونه بدون درک زبانی انسان‌ محور، تفاوت‌ ها و شدت لهجه رو تشخیص بده.

برای رسیدن به این هدف، تیم BoldVoice مفهومی به نام accent fingerprint معرفی کرده. این اثر انگشت در واقع یک بردار عددیه (embedding) که با پردازش  صدای کاربر توسط یه مدل هوش مصنوعی تولید میشه.

 این بردار، ویژگی‌های عمیق و نهفته گفتار رو در فضای نهان (latent space) نمایش میده که در اون فاصله‌ ها نشان‌ دهنده میزان شباهت یا تفاوت لهجه‌ها و جهت‌ ها نشان‌ دهنده مسیرهای احتمالی تغییر یا پیشرفت لهجه هستن.

از این رو، تحلیل لهجه از سطح توصیف کیفی به سطح عددی و قابل محاسبه ارتقا پیدا می‌کنه. در مثالی کاربردی، این فناوری برای کمک به ویکتور (کارآموزی با لهجه غیر بومی) به‌کار گرفته شد تا بتونه لهجه خودش رو به لهجه آمریکایی مربی متخصص، الیزا، نزدیک‌ تر کنه. این مقاله نشان میده که چطور میشه با تحلیل داده‌ های صوتی و بردارهای نهان، آموزش لهجه رو از یه فرآیند ذهنی و کیفی به فرآیندی کمی، هد فمند و شخصی‌ سازی‌ شده تبدیل کرد.

https://accent-strength.boldvoice.com/
Ace-step

مدل تولید موسیقی متن باز چند زبانه با 3.5 میلیارد پارامتر منتشر شد.

این مدل از 19 زبان، سبک‌ های ساز، تکنیک‌های آوازی و موارد دیگه پشتیبانی می‌کنه و ادعا می‌کنه که بهترین مدل متن باز تولید موسیقی هست.

https://github.com/ace-step/ACE-Step
Tensorflow(@CVision)
Ace-step مدل تولید موسیقی متن باز چند زبانه با 3.5 میلیارد پارامتر منتشر شد. این مدل از 19 زبان، سبک‌ های ساز، تکنیک‌های آوازی و موارد دیگه پشتیبانی می‌کنه و ادعا می‌کنه که بهترین مدل متن باز تولید موسیقی هست. https://github.com/ace-step/ACE-Step
Audio
با یه آهنگ در مورد کانال تست کنیم(سبک country )

(Verse 1)
On Telegram, there's a channel we know,
"Tensorflow" it's called, putting on quite a show.
Every day, the latest AI news they impart,
In Persian language, a source of pride in our heart.

(Chorus)
Tensorflow, Tensorflow, a channel so cool,
Artificial intelligence news, following every rule.
About deep learning and neural networks they speak,
Of everything related to this world so unique.

(Verse 2)
Articles and tutorials, everything you can find,
Whatever your question, the answer is aligned.
Iranians created it, a hearty "well done" we say,
The power of AI, they showcase every day.

(Chorus)
Tensorflow, Tensorflow, a channel so cool,
Artificial intelligence news, following every rule.
About deep learning and neural networks they speak,
Of everything related to this world so unique.
audio.wav
914.9 KB
A TTS model capable of generating ultra-realistic dialogue in one pass.

[S1] I love TensorFlow channel on telegram(coughs)
[S2] I love TensorFlow channel on telegram
[S1] I love TensorFlow channel on telegram(laughs)


https://github.com/nari-labs/dia?tab=readme-ov-file
Chatgpt 4o Prompt:
A black and white photograph shows the blurred silhouette of a [SUBJECT] behind a frosted or translucent surface. The [PART] is sharply defined and pressed against the surface, creating a stark contrast with the rest of the hazy, indistinct figure. The background is a soft gradient of gray tones, enhancing the mysterious and artistic atmosphere
افزایش وضوح تصویر ورودی برای بهبود عملکرد مدل‌های زبانی دیداری (VLMs)، به‌ویژه در درک تصاویر دارای متن، بسیار مهمه. اما مدل‌های تصویری معروف مثل ViT در وضوح‌ های بالا با مشکل کندی و حجم زیاد داده مواجه هستن.

اپل مدلی به نام FastVLM معرفی کرده که با حفظ دقت، سرعت پردازش رو بالا می‌بره و اندازه مدل رو کوچک‌ تر نگه می‌داره. این مدل از یک رمزگذار تصویری جدید به نام FastViTHD استفاده می‌کنه که برای تصاویر با وضوح بالا، تعداد کمتری توکن تولید و سریع‌ تر عمل می‌کنه.

در آزمایش‌ها، FastVLM سرعت پاسخ‌ دهی اولیه رو بیش از ۳ برابر بهتر کرده و عملکردی مشابه مدل‌ های قوی قبلی داره، در حالی که بسیار سریع‌تر و سبک‌تره، و مستقیما روی iPhone به صورت لوکال قابلیت اجرایی رو داره.

https://www.arxiv.org/abs/2412.13303
This media is not supported in your browser
VIEW IN TELEGRAM
تشخیص اشیا به صورت ریل تایم با مدل ۵۰۰ میلیون پارامتری
SmolVLM

https://github.com/ngxson/smolvlm-realtime-webcam
دیپ‌ مایند از «AlphaEvolve» که یه عامل برنامه‌ نویسی مبتنی بر Gemini برای کشف الگوریتم‌ ها هست رونمایی کرد.

میگه ما از AlphaEvolve برای حل بیش از ۵۰ مسئله باز در زمینه‌های تحلیل، هندسه، ترکیبیات و نظریه اعداد استفاده کردیم.

در ۷۵٪ از موارد، این سیستم تونست بهترین راه‌ حل‌های شناخته‌ شده قبلی رو دوباره کشف کنه. در ۲۰٪ از موارد، راه‌حل‌ های بهتری نسبت به بهترین راه‌ حل‌های قبلی ارائه داد و در نتیجه، به کشفیات جدیدی منجر شد.

به عنوان یه مورد کاربردی در هوش مصنوعی این سیستم تونسته یکی از عملیات‌های سنگین و مهم در معماری مدل‌های بزرگ (یعنی ضرب ماتریس) رو بهینه کنه، که این از مهم‌ترین گلوگاه‌های سرعت و مصرف منابع در مدل‌های هوش مصنوعیه. 

میگه این سیستم با پیدا کردن روش‌های هوشمندانه‌ تر برای تقسیم عملیات بزرگ ضرب ماتریس به زیر مسئله‌های کوچک‌ تر و قابل‌مدیریت‌ تر، AlphaEvolve تونسته این بخش حیاتی از معماری Gemini رو ۲۳٪ سریع‌ تر کنه!

بهینه‌سازی کرنل نه‌ تنها یکی از کاربردی‌ ترین زمینه‌ ها برای مدل‌های هوش مصنوعیه، بلکه به‌ نوعی نشون دهنده بلوغ اونها در درک عملکرد سیستم‌ های واقعی و تعامل با کد سطح پایینه. آینده‌ ای که مدل‌های هوش مصنوعی طراحی سخت‌ افزار یا compiler-level optimization انجام بدن، چندان دور نیست!

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf
Tensorflow(@CVision)
تشخیص اشیا به صورت ریل تایم با مدل ۵۰۰ میلیون پارامتری SmolVLM https://github.com/ngxson/smolvlm-realtime-webcam
This media is not supported in your browser
VIEW IN TELEGRAM
این نمونه که یکی از کاربران امروز منتشر کرد صد درصد به‌ صورت محلی در مرورگر و با استفاده از WebGPU اجرا میشه، و از کتابخانه Transformers.js بهره می‌بره.  این یعنی شما فقط کافیه وارد لینک شید و دمو رو اجرا کنید، بدون اینکه نیازی به نصب چیزی روی سیستم داشته باشین


کد منبع به صورت یک فایل  index.html هست که میتونید اون رو در بخش "Files" در صفحه دمو پیدا کنید.

https://huggingface.co/spaces/webml-community/smolvlm-realtime-webgpu
آموزش معماری DeepSeek از صفر تا صد، مجموعه‌ای شامل ۲۰ ویدئوی آموزشی

این مجموعه شامل ۲۰ جلسه آموزشی هست که مفاهیمی مثل Multi-Head Latent Attention و Mixture of Experts رو با جزئیات کامل بررسی می‌کنه.

1️⃣ DeepSeek Series Introduction
https://youtu.be/QWNxQIq0hMo

2️⃣ DeepSeek Basics
https://youtu.be/WjhDDeZ7DvM

3️⃣ Journey of a Token into the LLM Architecture
https://youtu.be/rkEYwH4UGa4

4️⃣ Attention Mechanism Explained in 1 Hour
https://youtu.be/K45ze9Yd5UE

5️⃣ Self Attention Mechanism - Handwritten from Scratch
https://youtu.be/s8mskq-nzec

6️⃣ Causal Attention Explained: Don't Peek into the Future
https://youtu.be/c6Kkj6iLeBg

7️⃣ Multi-Head Attention Visually Explained
https://youtu.be/qbN4ulK-bZA

8️⃣ Multi-Head Attention Handwritten from Scratch
https://youtu.be/rvsEW-EsD-Y

9️⃣ Key Value Cache from Scratch
https://youtu.be/IDwTiS4_bKo

🔟 Multi-Query Attention Explained
https://youtu.be/Z6B51Odtn-Y

1️⃣1️⃣ Understand Grouped Query Attention (GQA)
https://youtu.be/kx3rETIxo4Q

1️⃣2️⃣ Multi-Head Latent Attention From Scratch
https://youtu.be/NlDQUj1olXM

1️⃣3️⃣ Multi-Head Latent Attention Coded from Scratch in Python
https://youtu.be/mIaWmJVrMpc

1️⃣4️⃣ Integer and Binary Positional Encodings
https://youtu.be/rP0CoTxe5gU

1️⃣5️⃣ All About Sinusoidal Positional Encodings
https://youtu.be/bQCQ7VO-TWU

1️⃣6️⃣ Rotary Positional Encodings
https://youtu.be/a17DlNxkv2k

1️⃣7️⃣ How DeepSeek Implemented Latent Attention | MLA + RoPE
https://youtu.be/m1x8vA_Tscc

1️⃣8️⃣ Mixture of Experts (MoE) Introduction
https://youtu.be/v7U21meXd6Y

1️⃣9️⃣ Mixture of Experts Hands-on Demonstration
https://youtu.be/yw6fpYPJ7PI

2️⃣0️⃣ Mixture of Experts Balancing Techniques
https://youtu.be/nRadcspta_8
2025/06/27 16:31:32
Back to Top
HTML Embed Code: