بلاگ پست "AI agentها یا عاملهای هوش مصنوعی چیستند؟" که در سایت کلاس ویژن منتشر شده رو من با NotebookLM تبدیل به پادکست کردم که خروجی شو در ادامه میبینم که چقدر کیفیت خروجی بالاست ! 🔥🔥
🔹🔹🔹🔹🔹
🔹 @cvision 🔹
🔹🔹🔹🔹🔹
🔹🔹🔹🔹🔹
🔹 @cvision 🔹
🔹🔹🔹🔹🔹
🧠 DeepSeek trains math proof model without human data
مدلی که بدون اتکا به داده انسانی، یاد گرفت چگونه ریاضیات را اثبات کند!
تیم DeepSeek از نسخه دوم مدل اثباتگر ریاضی خود رونمایی کرده:
DeepSeek-Prover-V2
نکتهی شگفتانگیز؟ این مدل بدون استفاده از دادههای انسانی آموزش دیده است!
چهطور ممکنه؟
با استفاده از یک مدل زبانی قدرتمند (DeepSeek-V3)، ابتدا مسائل پیچیده ریاضی به زیرمسئلههای سادهتر شکسته میشوند.
سپس این زیرمسئلهها بهصورت خودکار اثبات میشوند و از این فرایند، دادههای آموزشی مصنوعی تولید میشود.
در نهایت، مدل اصلی با یادگیری تقویتی آموزش میبیند تا خودش بتواند کل مسئله را اثبات کند — بدون نیاز به برچسبگذاری یا دادهی انسانی!
دستاوردها:
۸۸.۹٪ دقت در MiniF2F
حل ۴۹ مسئله از دیتاست چالشبرانگیز PutnamBench
این پروژه یکی از ملموسترین نمونهها از ترکیب خلاقانه یادگیری زبانی، استدلال منطقی و RL است — و گامی مهم در مسیر خودآموزی ماشینها برای حل مسائل پیشرفته ریاضی.
🔗لینک پروژه در گیتهاب:
github.com/deepseek-ai/DeepSeek-Prover-V2
مدلی که بدون اتکا به داده انسانی، یاد گرفت چگونه ریاضیات را اثبات کند!
تیم DeepSeek از نسخه دوم مدل اثباتگر ریاضی خود رونمایی کرده:
DeepSeek-Prover-V2
نکتهی شگفتانگیز؟ این مدل بدون استفاده از دادههای انسانی آموزش دیده است!
چهطور ممکنه؟
با استفاده از یک مدل زبانی قدرتمند (DeepSeek-V3)، ابتدا مسائل پیچیده ریاضی به زیرمسئلههای سادهتر شکسته میشوند.
سپس این زیرمسئلهها بهصورت خودکار اثبات میشوند و از این فرایند، دادههای آموزشی مصنوعی تولید میشود.
در نهایت، مدل اصلی با یادگیری تقویتی آموزش میبیند تا خودش بتواند کل مسئله را اثبات کند — بدون نیاز به برچسبگذاری یا دادهی انسانی!
دستاوردها:
۸۸.۹٪ دقت در MiniF2F
حل ۴۹ مسئله از دیتاست چالشبرانگیز PutnamBench
این پروژه یکی از ملموسترین نمونهها از ترکیب خلاقانه یادگیری زبانی، استدلال منطقی و RL است — و گامی مهم در مسیر خودآموزی ماشینها برای حل مسائل پیشرفته ریاضی.
🔗لینک پروژه در گیتهاب:
github.com/deepseek-ai/DeepSeek-Prover-V2
GitHub
GitHub - deepseek-ai/DeepSeek-Prover-V2
Contribute to deepseek-ai/DeepSeek-Prover-V2 development by creating an account on GitHub.
✨جفری هینتون : خوشحالم ۷۷ سالمه، چون احتمالا تا من زنده ام دنیا دست هوش مصنوعی نمیفته!
جفری هینتون، که لقب Godfather هوش مصنوعی هم داره ، گفته از اینکه ۷۷ سالشه نفس راحتی میکشه! دلیلش هم اینه که فکر میکنه دیگه اونقدر عمر نمیکنه که شاهد روزی باشه که هوش مصنوعی از هوش انسانها بزنه جلو و عواقب خطرناکش رو به چشم ببینه!
اون تو یه مصاحبه جدید هشدار داده که هوش مصنوعی داره خیلی سریعتر از چیزی که فکر میکردیم پیشرفت میکنه و حتی ممکنه آخرش کار به جایی برسه که بتونه ما انسانها رو کنترل و بازی بده.
هینتون، توسعه هوش مصنوعی رو مثل بزرگ کردن یه بچه ببر دونسته؛ اولش شاید جالب باشه، اما وقتی بزرگ و قوی شد، میتونه خیلی خطرناک بشه!
جالبه بدونید هینتون قبلاً از گوگل استعفا داد تا بتونه آزادانه درباره این نگرانیهاش حرف بزنه...
https://www.yahoo.com/news/godfather-ai-says-hes-glad-110151161.html
جفری هینتون، که لقب Godfather هوش مصنوعی هم داره ، گفته از اینکه ۷۷ سالشه نفس راحتی میکشه! دلیلش هم اینه که فکر میکنه دیگه اونقدر عمر نمیکنه که شاهد روزی باشه که هوش مصنوعی از هوش انسانها بزنه جلو و عواقب خطرناکش رو به چشم ببینه!
اون تو یه مصاحبه جدید هشدار داده که هوش مصنوعی داره خیلی سریعتر از چیزی که فکر میکردیم پیشرفت میکنه و حتی ممکنه آخرش کار به جایی برسه که بتونه ما انسانها رو کنترل و بازی بده.
هینتون، توسعه هوش مصنوعی رو مثل بزرگ کردن یه بچه ببر دونسته؛ اولش شاید جالب باشه، اما وقتی بزرگ و قوی شد، میتونه خیلی خطرناک بشه!
جالبه بدونید هینتون قبلاً از گوگل استعفا داد تا بتونه آزادانه درباره این نگرانیهاش حرف بزنه...
https://www.yahoo.com/news/godfather-ai-says-hes-glad-110151161.html
Forwarded from DeepMind AI Expert (Farzad 🦅)
https://huggingface.co/Qwen/Qwen2.5-Omni-3B
مدل متن باز speech to speech
مدل متن باز speech to speech
Forwarded from Shenasa-ai.ir
https://www.linkedin.com/posts/shenasa-ai_shenasaenglish-persian-parallel-dataset-activity-7324707430267801600-h-Yf
🔹 مجموعهدادهای شامل ۴ میلیون جمله موازی انگلیسی-فارسی برای ارتقاء سیستمهای ترجمه ماشینی منتشر شد.
در این پروژه، علاوه بر ارائه یک دیتاست بزرگمقیاس، از نمایش موقعیت نسبی (Relative Position Representations) در مدلهای ترجمه عصبی استفاده شده که منجر به بهبود عملکرد شده است.
📦 دسترسی به دیتاست در Hugging Face:
🔗 https://huggingface.co/datasets/shenasa/English-Persian-Parallel-Dataset
📄 مقاله:
Enhancing English-Persian Neural Machine Translation with a Large-Scale Parallel Dataset and Relative Position Representations
🔗 https://ieeexplore.ieee.org/abstract/document/10967409
#NLP #MachineTranslation #PersianNLP #AI #DeepLearning #HuggingFace #DataScience
🔹 مجموعهدادهای شامل ۴ میلیون جمله موازی انگلیسی-فارسی برای ارتقاء سیستمهای ترجمه ماشینی منتشر شد.
در این پروژه، علاوه بر ارائه یک دیتاست بزرگمقیاس، از نمایش موقعیت نسبی (Relative Position Representations) در مدلهای ترجمه عصبی استفاده شده که منجر به بهبود عملکرد شده است.
📦 دسترسی به دیتاست در Hugging Face:
🔗 https://huggingface.co/datasets/shenasa/English-Persian-Parallel-Dataset
📄 مقاله:
Enhancing English-Persian Neural Machine Translation with a Large-Scale Parallel Dataset and Relative Position Representations
🔗 https://ieeexplore.ieee.org/abstract/document/10967409
#NLP #MachineTranslation #PersianNLP #AI #DeepLearning #HuggingFace #DataScience
Linkedin
shenasa/English-Persian-Parallel-Dataset · Datasets at Hugging Face | shenasa ai
🔹 مجموعهدادهای شامل ۴ میلیون جمله موازی انگلیسی-فارسی برای ارتقاء سیستمهای ترجمه ماشینی منتشر شد.
در این پروژه، علاوه بر ارائه یک دیتاست بزرگمقیاس، از نمایش موقعیت نسبی (Relative Position Representations) در مدلهای ترجمه عصبی استفاده شده که منجر به…
در این پروژه، علاوه بر ارائه یک دیتاست بزرگمقیاس، از نمایش موقعیت نسبی (Relative Position Representations) در مدلهای ترجمه عصبی استفاده شده که منجر به…
MedSAM2 Explained: One Prompt to Segment Anything in Medical Imaging
https://learnopencv.com/medsam2-explained/
https://learnopencv.com/medsam2-explained/
LearnOpenCV – Learn OpenCV, PyTorch, Keras, Tensorflow with code, & tutorials
MedSAM2 Explained: One Prompt to Segment Anything in Medical Imaging
MedSAM2 brings “segment anything” power to healthcare, carving organs, tumours, and even moving heart chambers from CT, MRI, PET, and live ultrasound with a single prompt. Running in < 1 second per slice and slashing annotation time by 90 %, it’s your shortcut…
ارائه آنلاین چالشهای مدلهای زبانی و بینایی ماشین🔥
با حضور مجتبی کمیلی، مهندس تحقیقاتی در فیسبوک
شنبه ۲۰ اردیبهشت | ساعت ۱۸ تا ۱۹ 🕕
منتظر شما هستیم تا با هم وارد عمق مفاهیم هوش مصنوعی بشیم! ✨
برگزاری + پرسش و پاسخ آنلاین در بستر تلگرام
@podcast3o14
با حضور مجتبی کمیلی، مهندس تحقیقاتی در فیسبوک
شنبه ۲۰ اردیبهشت | ساعت ۱۸ تا ۱۹ 🕕
منتظر شما هستیم تا با هم وارد عمق مفاهیم هوش مصنوعی بشیم! ✨
برگزاری + پرسش و پاسخ آنلاین در بستر تلگرام
@podcast3o14
در اپلیکیشن BoldVoice، لهجه به عنوان یه پدیده زبانی پیچیده مورد بررسی قرار میگیره که شامل الگوهای صوتی مثل شکل گیری مصوت ها، زیر و بم صدا و ریتم گفتاره. هدف این پلتفرم، تحلیل و آموزش لهجه نه از منظر انسانی (زبانشناسی سنتی)، بلکه از طریق الگوریتم های یادگیری ماشینه. به بیان دیگه، کامپیوتر باید بتونه بدون درک زبانی انسان محور، تفاوت ها و شدت لهجه رو تشخیص بده.
برای رسیدن به این هدف، تیم BoldVoice مفهومی به نام accent fingerprint معرفی کرده. این اثر انگشت در واقع یک بردار عددیه (embedding) که با پردازش صدای کاربر توسط یه مدل هوش مصنوعی تولید میشه.
این بردار، ویژگیهای عمیق و نهفته گفتار رو در فضای نهان (latent space) نمایش میده که در اون فاصله ها نشان دهنده میزان شباهت یا تفاوت لهجهها و جهت ها نشان دهنده مسیرهای احتمالی تغییر یا پیشرفت لهجه هستن.
از این رو، تحلیل لهجه از سطح توصیف کیفی به سطح عددی و قابل محاسبه ارتقا پیدا میکنه. در مثالی کاربردی، این فناوری برای کمک به ویکتور (کارآموزی با لهجه غیر بومی) بهکار گرفته شد تا بتونه لهجه خودش رو به لهجه آمریکایی مربی متخصص، الیزا، نزدیک تر کنه. این مقاله نشان میده که چطور میشه با تحلیل داده های صوتی و بردارهای نهان، آموزش لهجه رو از یه فرآیند ذهنی و کیفی به فرآیندی کمی، هد فمند و شخصی سازی شده تبدیل کرد.
https://accent-strength.boldvoice.com/
برای رسیدن به این هدف، تیم BoldVoice مفهومی به نام accent fingerprint معرفی کرده. این اثر انگشت در واقع یک بردار عددیه (embedding) که با پردازش صدای کاربر توسط یه مدل هوش مصنوعی تولید میشه.
این بردار، ویژگیهای عمیق و نهفته گفتار رو در فضای نهان (latent space) نمایش میده که در اون فاصله ها نشان دهنده میزان شباهت یا تفاوت لهجهها و جهت ها نشان دهنده مسیرهای احتمالی تغییر یا پیشرفت لهجه هستن.
از این رو، تحلیل لهجه از سطح توصیف کیفی به سطح عددی و قابل محاسبه ارتقا پیدا میکنه. در مثالی کاربردی، این فناوری برای کمک به ویکتور (کارآموزی با لهجه غیر بومی) بهکار گرفته شد تا بتونه لهجه خودش رو به لهجه آمریکایی مربی متخصص، الیزا، نزدیک تر کنه. این مقاله نشان میده که چطور میشه با تحلیل داده های صوتی و بردارهای نهان، آموزش لهجه رو از یه فرآیند ذهنی و کیفی به فرآیندی کمی، هد فمند و شخصی سازی شده تبدیل کرد.
https://accent-strength.boldvoice.com/
Ace-step
مدل تولید موسیقی متن باز چند زبانه با 3.5 میلیارد پارامتر منتشر شد.
این مدل از 19 زبان، سبک های ساز، تکنیکهای آوازی و موارد دیگه پشتیبانی میکنه و ادعا میکنه که بهترین مدل متن باز تولید موسیقی هست.
https://github.com/ace-step/ACE-Step
مدل تولید موسیقی متن باز چند زبانه با 3.5 میلیارد پارامتر منتشر شد.
این مدل از 19 زبان، سبک های ساز، تکنیکهای آوازی و موارد دیگه پشتیبانی میکنه و ادعا میکنه که بهترین مدل متن باز تولید موسیقی هست.
https://github.com/ace-step/ACE-Step
GitHub
GitHub - ace-step/ACE-Step: ACE-Step: A Step Towards Music Generation Foundation Model
ACE-Step: A Step Towards Music Generation Foundation Model - ace-step/ACE-Step
Tensorflow(@CVision)
Ace-step مدل تولید موسیقی متن باز چند زبانه با 3.5 میلیارد پارامتر منتشر شد. این مدل از 19 زبان، سبک های ساز، تکنیکهای آوازی و موارد دیگه پشتیبانی میکنه و ادعا میکنه که بهترین مدل متن باز تولید موسیقی هست. https://github.com/ace-step/ACE-Step
Audio
با یه آهنگ در مورد کانال تست کنیم(سبک country )
(Verse 1)
On Telegram, there's a channel we know,
"Tensorflow" it's called, putting on quite a show.
Every day, the latest AI news they impart,
In Persian language, a source of pride in our heart.
(Chorus)
Tensorflow, Tensorflow, a channel so cool,
Artificial intelligence news, following every rule.
About deep learning and neural networks they speak,
Of everything related to this world so unique.
(Verse 2)
Articles and tutorials, everything you can find,
Whatever your question, the answer is aligned.
Iranians created it, a hearty "well done" we say,
The power of AI, they showcase every day.
(Chorus)
Tensorflow, Tensorflow, a channel so cool,
Artificial intelligence news, following every rule.
About deep learning and neural networks they speak,
Of everything related to this world so unique.
(Verse 1)
On Telegram, there's a channel we know,
"Tensorflow" it's called, putting on quite a show.
Every day, the latest AI news they impart,
In Persian language, a source of pride in our heart.
(Chorus)
Tensorflow, Tensorflow, a channel so cool,
Artificial intelligence news, following every rule.
About deep learning and neural networks they speak,
Of everything related to this world so unique.
(Verse 2)
Articles and tutorials, everything you can find,
Whatever your question, the answer is aligned.
Iranians created it, a hearty "well done" we say,
The power of AI, they showcase every day.
(Chorus)
Tensorflow, Tensorflow, a channel so cool,
Artificial intelligence news, following every rule.
About deep learning and neural networks they speak,
Of everything related to this world so unique.
audio.wav
914.9 KB
A TTS model capable of generating ultra-realistic dialogue in one pass.
https://github.com/nari-labs/dia?tab=readme-ov-file
[S1] I love TensorFlow channel on telegram(coughs)
[S2] I love TensorFlow channel on telegram
[S1] I love TensorFlow channel on telegram(laughs)
https://github.com/nari-labs/dia?tab=readme-ov-file
Chatgpt 4o Prompt:
A black and white photograph shows the blurred silhouette of a [SUBJECT] behind a frosted or translucent surface. The [PART] is sharply defined and pressed against the surface, creating a stark contrast with the rest of the hazy, indistinct figure. The background is a soft gradient of gray tones, enhancing the mysterious and artistic atmosphere
افزایش وضوح تصویر ورودی برای بهبود عملکرد مدلهای زبانی دیداری (VLMs)، بهویژه در درک تصاویر دارای متن، بسیار مهمه. اما مدلهای تصویری معروف مثل ViT در وضوح های بالا با مشکل کندی و حجم زیاد داده مواجه هستن.
اپل مدلی به نام FastVLM معرفی کرده که با حفظ دقت، سرعت پردازش رو بالا میبره و اندازه مدل رو کوچک تر نگه میداره. این مدل از یک رمزگذار تصویری جدید به نام FastViTHD استفاده میکنه که برای تصاویر با وضوح بالا، تعداد کمتری توکن تولید و سریع تر عمل میکنه.
در آزمایشها، FastVLM سرعت پاسخ دهی اولیه رو بیش از ۳ برابر بهتر کرده و عملکردی مشابه مدل های قوی قبلی داره، در حالی که بسیار سریعتر و سبکتره، و مستقیما روی iPhone به صورت لوکال قابلیت اجرایی رو داره.
https://www.arxiv.org/abs/2412.13303
اپل مدلی به نام FastVLM معرفی کرده که با حفظ دقت، سرعت پردازش رو بالا میبره و اندازه مدل رو کوچک تر نگه میداره. این مدل از یک رمزگذار تصویری جدید به نام FastViTHD استفاده میکنه که برای تصاویر با وضوح بالا، تعداد کمتری توکن تولید و سریع تر عمل میکنه.
در آزمایشها، FastVLM سرعت پاسخ دهی اولیه رو بیش از ۳ برابر بهتر کرده و عملکردی مشابه مدل های قوی قبلی داره، در حالی که بسیار سریعتر و سبکتره، و مستقیما روی iPhone به صورت لوکال قابلیت اجرایی رو داره.
https://www.arxiv.org/abs/2412.13303
Tensorflow(@CVision)
افزایش وضوح تصویر ورودی برای بهبود عملکرد مدلهای زبانی دیداری (VLMs)، بهویژه در درک تصاویر دارای متن، بسیار مهمه. اما مدلهای تصویری معروف مثل ViT در وضوح های بالا با مشکل کندی و حجم زیاد داده مواجه هستن. اپل مدلی به نام FastVLM معرفی کرده که با حفظ دقت،…
This media is not supported in your browser
VIEW IN TELEGRAM
دمو
This media is not supported in your browser
VIEW IN TELEGRAM
تشخیص اشیا به صورت ریل تایم با مدل ۵۰۰ میلیون پارامتری
SmolVLM
https://github.com/ngxson/smolvlm-realtime-webcam
SmolVLM
https://github.com/ngxson/smolvlm-realtime-webcam
دیپ مایند از «AlphaEvolve» که یه عامل برنامه نویسی مبتنی بر Gemini برای کشف الگوریتم ها هست رونمایی کرد.
میگه ما از AlphaEvolve برای حل بیش از ۵۰ مسئله باز در زمینههای تحلیل، هندسه، ترکیبیات و نظریه اعداد استفاده کردیم.
در ۷۵٪ از موارد، این سیستم تونست بهترین راه حلهای شناخته شده قبلی رو دوباره کشف کنه. در ۲۰٪ از موارد، راهحل های بهتری نسبت به بهترین راه حلهای قبلی ارائه داد و در نتیجه، به کشفیات جدیدی منجر شد.
به عنوان یه مورد کاربردی در هوش مصنوعی این سیستم تونسته یکی از عملیاتهای سنگین و مهم در معماری مدلهای بزرگ (یعنی ضرب ماتریس) رو بهینه کنه، که این از مهمترین گلوگاههای سرعت و مصرف منابع در مدلهای هوش مصنوعیه.
میگه این سیستم با پیدا کردن روشهای هوشمندانه تر برای تقسیم عملیات بزرگ ضرب ماتریس به زیر مسئلههای کوچک تر و قابلمدیریت تر، AlphaEvolve تونسته این بخش حیاتی از معماری Gemini رو ۲۳٪ سریع تر کنه!
بهینهسازی کرنل نه تنها یکی از کاربردی ترین زمینه ها برای مدلهای هوش مصنوعیه، بلکه به نوعی نشون دهنده بلوغ اونها در درک عملکرد سیستم های واقعی و تعامل با کد سطح پایینه. آینده ای که مدلهای هوش مصنوعی طراحی سخت افزار یا compiler-level optimization انجام بدن، چندان دور نیست!
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf
میگه ما از AlphaEvolve برای حل بیش از ۵۰ مسئله باز در زمینههای تحلیل، هندسه، ترکیبیات و نظریه اعداد استفاده کردیم.
در ۷۵٪ از موارد، این سیستم تونست بهترین راه حلهای شناخته شده قبلی رو دوباره کشف کنه. در ۲۰٪ از موارد، راهحل های بهتری نسبت به بهترین راه حلهای قبلی ارائه داد و در نتیجه، به کشفیات جدیدی منجر شد.
به عنوان یه مورد کاربردی در هوش مصنوعی این سیستم تونسته یکی از عملیاتهای سنگین و مهم در معماری مدلهای بزرگ (یعنی ضرب ماتریس) رو بهینه کنه، که این از مهمترین گلوگاههای سرعت و مصرف منابع در مدلهای هوش مصنوعیه.
میگه این سیستم با پیدا کردن روشهای هوشمندانه تر برای تقسیم عملیات بزرگ ضرب ماتریس به زیر مسئلههای کوچک تر و قابلمدیریت تر، AlphaEvolve تونسته این بخش حیاتی از معماری Gemini رو ۲۳٪ سریع تر کنه!
بهینهسازی کرنل نه تنها یکی از کاربردی ترین زمینه ها برای مدلهای هوش مصنوعیه، بلکه به نوعی نشون دهنده بلوغ اونها در درک عملکرد سیستم های واقعی و تعامل با کد سطح پایینه. آینده ای که مدلهای هوش مصنوعی طراحی سخت افزار یا compiler-level optimization انجام بدن، چندان دور نیست!
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf
Tensorflow(@CVision)
تشخیص اشیا به صورت ریل تایم با مدل ۵۰۰ میلیون پارامتری SmolVLM https://github.com/ngxson/smolvlm-realtime-webcam
This media is not supported in your browser
VIEW IN TELEGRAM
این نمونه که یکی از کاربران امروز منتشر کرد صد درصد به صورت محلی در مرورگر و با استفاده از WebGPU اجرا میشه، و از کتابخانه Transformers.js بهره میبره. این یعنی شما فقط کافیه وارد لینک شید و دمو رو اجرا کنید، بدون اینکه نیازی به نصب چیزی روی سیستم داشته باشین
کد منبع به صورت یک فایل index.html هست که میتونید اون رو در بخش "Files" در صفحه دمو پیدا کنید.
https://huggingface.co/spaces/webml-community/smolvlm-realtime-webgpu
کد منبع به صورت یک فایل index.html هست که میتونید اون رو در بخش "Files" در صفحه دمو پیدا کنید.
https://huggingface.co/spaces/webml-community/smolvlm-realtime-webgpu
آموزش معماری DeepSeek از صفر تا صد، مجموعهای شامل ۲۰ ویدئوی آموزشی
این مجموعه شامل ۲۰ جلسه آموزشی هست که مفاهیمی مثل Multi-Head Latent Attention و Mixture of Experts رو با جزئیات کامل بررسی میکنه.
1️⃣ DeepSeek Series Introduction
https://youtu.be/QWNxQIq0hMo
2️⃣ DeepSeek Basics
https://youtu.be/WjhDDeZ7DvM
3️⃣ Journey of a Token into the LLM Architecture
https://youtu.be/rkEYwH4UGa4
4️⃣ Attention Mechanism Explained in 1 Hour
https://youtu.be/K45ze9Yd5UE
5️⃣ Self Attention Mechanism - Handwritten from Scratch
https://youtu.be/s8mskq-nzec
6️⃣ Causal Attention Explained: Don't Peek into the Future
https://youtu.be/c6Kkj6iLeBg
7️⃣ Multi-Head Attention Visually Explained
https://youtu.be/qbN4ulK-bZA
8️⃣ Multi-Head Attention Handwritten from Scratch
https://youtu.be/rvsEW-EsD-Y
9️⃣ Key Value Cache from Scratch
https://youtu.be/IDwTiS4_bKo
🔟 Multi-Query Attention Explained
https://youtu.be/Z6B51Odtn-Y
1️⃣1️⃣ Understand Grouped Query Attention (GQA)
https://youtu.be/kx3rETIxo4Q
1️⃣2️⃣ Multi-Head Latent Attention From Scratch
https://youtu.be/NlDQUj1olXM
1️⃣3️⃣ Multi-Head Latent Attention Coded from Scratch in Python
https://youtu.be/mIaWmJVrMpc
1️⃣4️⃣ Integer and Binary Positional Encodings
https://youtu.be/rP0CoTxe5gU
1️⃣5️⃣ All About Sinusoidal Positional Encodings
https://youtu.be/bQCQ7VO-TWU
1️⃣6️⃣ Rotary Positional Encodings
https://youtu.be/a17DlNxkv2k
1️⃣7️⃣ How DeepSeek Implemented Latent Attention | MLA + RoPE
https://youtu.be/m1x8vA_Tscc
1️⃣8️⃣ Mixture of Experts (MoE) Introduction
https://youtu.be/v7U21meXd6Y
1️⃣9️⃣ Mixture of Experts Hands-on Demonstration
https://youtu.be/yw6fpYPJ7PI
2️⃣0️⃣ Mixture of Experts Balancing Techniques
https://youtu.be/nRadcspta_8
این مجموعه شامل ۲۰ جلسه آموزشی هست که مفاهیمی مثل Multi-Head Latent Attention و Mixture of Experts رو با جزئیات کامل بررسی میکنه.
1️⃣ DeepSeek Series Introduction
https://youtu.be/QWNxQIq0hMo
2️⃣ DeepSeek Basics
https://youtu.be/WjhDDeZ7DvM
3️⃣ Journey of a Token into the LLM Architecture
https://youtu.be/rkEYwH4UGa4
4️⃣ Attention Mechanism Explained in 1 Hour
https://youtu.be/K45ze9Yd5UE
5️⃣ Self Attention Mechanism - Handwritten from Scratch
https://youtu.be/s8mskq-nzec
6️⃣ Causal Attention Explained: Don't Peek into the Future
https://youtu.be/c6Kkj6iLeBg
7️⃣ Multi-Head Attention Visually Explained
https://youtu.be/qbN4ulK-bZA
8️⃣ Multi-Head Attention Handwritten from Scratch
https://youtu.be/rvsEW-EsD-Y
9️⃣ Key Value Cache from Scratch
https://youtu.be/IDwTiS4_bKo
🔟 Multi-Query Attention Explained
https://youtu.be/Z6B51Odtn-Y
1️⃣1️⃣ Understand Grouped Query Attention (GQA)
https://youtu.be/kx3rETIxo4Q
1️⃣2️⃣ Multi-Head Latent Attention From Scratch
https://youtu.be/NlDQUj1olXM
1️⃣3️⃣ Multi-Head Latent Attention Coded from Scratch in Python
https://youtu.be/mIaWmJVrMpc
1️⃣4️⃣ Integer and Binary Positional Encodings
https://youtu.be/rP0CoTxe5gU
1️⃣5️⃣ All About Sinusoidal Positional Encodings
https://youtu.be/bQCQ7VO-TWU
1️⃣6️⃣ Rotary Positional Encodings
https://youtu.be/a17DlNxkv2k
1️⃣7️⃣ How DeepSeek Implemented Latent Attention | MLA + RoPE
https://youtu.be/m1x8vA_Tscc
1️⃣8️⃣ Mixture of Experts (MoE) Introduction
https://youtu.be/v7U21meXd6Y
1️⃣9️⃣ Mixture of Experts Hands-on Demonstration
https://youtu.be/yw6fpYPJ7PI
2️⃣0️⃣ Mixture of Experts Balancing Techniques
https://youtu.be/nRadcspta_8
YouTube
Build DeepSeek from Scratch: Series Introduction
Welcome to Lecture 1 of Build DeepSeek from Scratch series.
In this lecture, we discuss about the introduction to this playlist, why we are creating this playlist, and what you will learn from it.
=================================================
Build…
In this lecture, we discuss about the introduction to this playlist, why we are creating this playlist, and what you will learn from it.
=================================================
Build…