چرا در مدلهای نیاز به بیز داریم ؟ چرا باید
Role of Bias Terms in Dot-Product Attention
https://arxiv.org/abs/2302.08626
Role of Bias Terms in Dot-Product Attention
https://arxiv.org/abs/2302.08626
arXiv.org
Role of Bias Terms in Dot-Product Attention
Dot-product attention is a core module in the present generation of neural network models, particularly transformers, and is being leveraged across numerous areas such as natural language...
❤4
به بهانه روز جهانی مرد یاد کنیم از دوستایی که افتخار رفاقت باهاشون دارم روزتون مبارک❤️🌻
یک روز آخرین کسى که مرا به یاد میآورد، خواهد مُرد و خاطره ى من برای همیشه فراموش خواهد شد.
نقلقول از یالوم است. در منابع انگلیسی به شکلی دیگر و البته شاید بهتر آمده:
"یک روز [بعد از مرگم]، شاید چهل سال بعد، شاید کسی زنده نباشد که مرا بشناسد. آن وقت من حقیقتا میمیرم. وقتی در حافظهی هیچکس وجود ندارم. اغلب به این فکر میکنم که چگونه یک فرد خیلی پیر، آخرين انسان زندهای است که فرد یا دستهای از آدمها را بیاد میآورد. زمانی که او بمیرد کل آن دسته (خوشه) محو خواهد شد. آن شخص برای من چه کسی خواهد بود؟ با مرگ چه کسی من حقیقتا خواهم مرد؟"
به امید روزی که آگاهی بیشتر شود.
یک روز آخرین کسى که مرا به یاد میآورد، خواهد مُرد و خاطره ى من برای همیشه فراموش خواهد شد.
نقلقول از یالوم است. در منابع انگلیسی به شکلی دیگر و البته شاید بهتر آمده:
"یک روز [بعد از مرگم]، شاید چهل سال بعد، شاید کسی زنده نباشد که مرا بشناسد. آن وقت من حقیقتا میمیرم. وقتی در حافظهی هیچکس وجود ندارم. اغلب به این فکر میکنم که چگونه یک فرد خیلی پیر، آخرين انسان زندهای است که فرد یا دستهای از آدمها را بیاد میآورد. زمانی که او بمیرد کل آن دسته (خوشه) محو خواهد شد. آن شخص برای من چه کسی خواهد بود؟ با مرگ چه کسی من حقیقتا خواهم مرد؟"
به امید روزی که آگاهی بیشتر شود.
❤35🕊2🆒1
اندرو کارپثی گفته بود:
Can you take my 2h13m tokenizer video and translate [into] a book chapter.
We've done it! It includes prose, code & key images. It's a great way to learn this key piece of how LLMs work.
https://www.fast.ai/posts/2025-10-16-karpathy-tokenizers
https://solve.it
Can you take my 2h13m tokenizer video and translate [into] a book chapter.
We've done it! It includes prose, code & key images. It's a great way to learn this key piece of how LLMs work.
https://www.fast.ai/posts/2025-10-16-karpathy-tokenizers
https://solve.it
fast.ai
Let’s Build the GPT Tokenizer: A Complete Guide to Tokenization in LLMs – fast.ai
A text and code version of Karpathy’s famous tokenizer video.
❤5
Forwarded from Ali's Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
adversarial-ml-tutorial.org
Adversarial Robustness - Theory and Practice
This web page contains materials to accompany the NeurIPS 2018 tutorial, "Adversarial Robustness: Theory and Practice", by Zico Kolter and Aleksander Madry. The notes are in **very early draft form**, and we will be updating them (organizing material more…
❤2🔥1
هفته کتاب و کتابخوانی به کتاب خوان های کانال تبریک میگم
یک کتاب به من هدیه بدید
یک کتاب به من هدیه بدید
❤24
This media is not supported in your browser
VIEW IN TELEGRAM
تعریف KNN در یادگیری ماشین چیه؟!
#الگوریتمها #یادگیری_ماشین #lمنابع
💢 مطالب بیشتر ⬇️ ⬇️
🎙 @AI_DeepMind
🎙 @AI_Person
#الگوریتمها #یادگیری_ماشین #lمنابع
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤3👍2👌1
این مقاله یه چارچوب جدید مدل های زبانی خود بازگشتی پیوسته (CALM) رو ارائه میده که با تغییر از پیشبینی گسسته توکن به پیشبینی بردارهای پیوسته، کارایی مدلهای زبانی بزرگ رو بهتر میکنه. تو رویکرد عادی، مدلها یکی یکی و با پیشبینی هر توکن عمل میکنن که فرایندی کند و محاسباتی سنگین داره. CALM با فشردهسازی هر K توکن (مثلا ۴ کلمه) به یه بردار پیوسته، تعداد مراحل تولید رو K برابر کمتر میکنه و هزینه محاسباتی رو به شدت میاره پایین.
برای این کار، اول یه Autoencoder قوی و مقاوم آموزش داده میشه که بتونه با دقت بالایی توکن هارو از روی بردار بازسازی بکنه. این اتو انکودر با تکنیکهایی مثل dropout و جلوگیری از فروپاشی پسین یا همون Posterior Collapse ، یه فضای مخفی منظم و مقاوم درس میکنه که برای مدلسازی تولیدی مناسبه. بعد مدل زبانی به جای پیشبینی توکن، بردار بعدی را پیشبینی میکنه اما چون دیگه احتمال صریح وجود نداره، یه چارچوب «Likelihood-Free Framework » توسعه داده میشه.
تو این چارچوب، از تابع خطای انرژی برای آموزش مدل استفاده میشه که فقط به نمونه برداری نیاز داره و مستقل از توزیع احتماله. برای ارزیابی مدل ها، معیار جدید BrierLM معرفی میشه که مبتنی بر امتیاز بریره و بدون نیاز به محاسبه احتمال، کیفیت مدلو ارزیابی میکنه. این معیار با معیار سنتی Perplexity همخوانی بالایی داره و برای مقایسه درست بین مدلهای مختلف مناسبه. همچنین، یه الگوریتم جدید برای نمونهبرداری با دما (temperature sampling) ارایه میشه که میتونه بدون دسترسی به احتمالات، دقیقا همون رفتار کنترل شده رو تولید رو شبیهسازی بکنه.
آزمایش ها نشون میده که CALM با K=4 عملکرد خیلی نزدیک به مدلهای پایه بزرگ داره، اما (((با هزینه محاسباتی خیلی کمتر))). این پیپر نشون میده که افزایش «ظرفیت معنایی» هر مرحله تولید، یه راهکار قدرتمند برای بهبود کارایی مدلهای زبانیه و مسیر جدیدی رو برای توسعه مدل های کارامد باز میکنه.
🔔 Continuous Autoregressive Language Models
🫂 Project
#یادگیری_عمیق #یادگیری_ماشین #مقاله
🔹 مطالب بیشتر 👇 👇
✅ @AI_DeepMind
✅ @AI_Person
برای این کار، اول یه Autoencoder قوی و مقاوم آموزش داده میشه که بتونه با دقت بالایی توکن هارو از روی بردار بازسازی بکنه. این اتو انکودر با تکنیکهایی مثل dropout و جلوگیری از فروپاشی پسین یا همون Posterior Collapse ، یه فضای مخفی منظم و مقاوم درس میکنه که برای مدلسازی تولیدی مناسبه. بعد مدل زبانی به جای پیشبینی توکن، بردار بعدی را پیشبینی میکنه اما چون دیگه احتمال صریح وجود نداره، یه چارچوب «Likelihood-Free Framework » توسعه داده میشه.
تو این چارچوب، از تابع خطای انرژی برای آموزش مدل استفاده میشه که فقط به نمونه برداری نیاز داره و مستقل از توزیع احتماله. برای ارزیابی مدل ها، معیار جدید BrierLM معرفی میشه که مبتنی بر امتیاز بریره و بدون نیاز به محاسبه احتمال، کیفیت مدلو ارزیابی میکنه. این معیار با معیار سنتی Perplexity همخوانی بالایی داره و برای مقایسه درست بین مدلهای مختلف مناسبه. همچنین، یه الگوریتم جدید برای نمونهبرداری با دما (temperature sampling) ارایه میشه که میتونه بدون دسترسی به احتمالات، دقیقا همون رفتار کنترل شده رو تولید رو شبیهسازی بکنه.
آزمایش ها نشون میده که CALM با K=4 عملکرد خیلی نزدیک به مدلهای پایه بزرگ داره، اما (((با هزینه محاسباتی خیلی کمتر))). این پیپر نشون میده که افزایش «ظرفیت معنایی» هر مرحله تولید، یه راهکار قدرتمند برای بهبود کارایی مدلهای زبانیه و مسیر جدیدی رو برای توسعه مدل های کارامد باز میکنه.
#یادگیری_عمیق #یادگیری_ماشین #مقاله
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤4👍2
Forwarded from F14 News
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🔥1👌1
Forwarded from شبکه داستانی عصبی (Blue Phoenix)
این راهنما رو امروز تیم فنی اپنایآی منتشر کرده.
«راهنمای تیمهای مهندسی AI-Native»
- این که ایجنتهای کدنویسی در هر مرحله از توسعه، از برنامهریزی تا طراحی و نگهداری، چه نقشی دارند
- چکلیستها و الگوهای پیادهسازی
- روشهای معرفی ایجنتها به سازمان و اعتمادسازی
https://cdn.openai.com/business-guides-and-resources/building-an-ai-native-engineering-team.pdf
«راهنمای تیمهای مهندسی AI-Native»
- این که ایجنتهای کدنویسی در هر مرحله از توسعه، از برنامهریزی تا طراحی و نگهداری، چه نقشی دارند
- چکلیستها و الگوهای پیادهسازی
- روشهای معرفی ایجنتها به سازمان و اعتمادسازی
https://cdn.openai.com/business-guides-and-resources/building-an-ai-native-engineering-team.pdf
❤3
This media is not supported in your browser
VIEW IN TELEGRAM
بعد از عرضه ازمایشی قابلیت چتهای گروهی برای ChatGPT در چندین کشور، حالا OpenAI این قابلیت رو به صورت جهانی عرضه کرده و با اون کاربر میتونه یک گروه بسازه و تا 20 نفر رو به اون دعوت کنه. در این گروه کاربران میتونن باهم مکالمه عادی داشته باشن و مثلا برنامه خاصی بچینن و ChatGPT هر وقت تشخیص بده نیازه که به پیام خاصی جواب بده، جوابشو میفرسته. علاوه بر این میشه ChatGPT رو تگ کرد تا سوال خاصی رو جواب بده یا عکسی بسازه.
#هوش_مصنوعی
💰 مطالب بیشتر 👇👇
🔵 @AI_DeepMind
🔸 @AI_Person
#هوش_مصنوعی
🔸 @AI_Person
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍1
Forwarded from Daily Laily
سلام
من برای گُفتا دنبال یک Founding Product Engineer هستم؛
کسی که علاوه بر توان فنی، تو تصمیمات محصول و تصمیمات مهم هم مشارکت داشته باشه.
اگه کار استارتاپی دوست دارید منتظر شماییم 😌
@leilasadatalavi
من برای گُفتا دنبال یک Founding Product Engineer هستم؛
کسی که علاوه بر توان فنی، تو تصمیمات محصول و تصمیمات مهم هم مشارکت داشته باشه.
اگه کار استارتاپی دوست دارید منتظر شماییم 😌
@leilasadatalavi
❤4☃2
Forwarded from Ali's Notes
Andrej Karpathy: Software Is Changing (Again)
@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Andrej Karpathy: Software Is Changing (Again)
Andrej Karpathy's keynote on June 17, 2025 at AI Startup School in San Francisco. Slides provided by Andrej: https://drive.google.com/file/d/1a0h1mkwfmV2PlekxDN8isMrDA5evc4wW/view?usp=sharing
Chapters:
00:00 - Intro
01:25 - Software evolution: From 1.0 to…
Chapters:
00:00 - Intro
01:25 - Software evolution: From 1.0 to…
❤3👍1
یکی از دوره های یادگیری زبان R و پایتون برای هوش مصنوعی که پیشنهاد شخصی خودم هست که یک دوره با کیفیت و خوبی از مدرس دورههای علم داده و آمار و اپیدمیولوژی از استاد دکتر مهدی اکبرزاده استاد دانشگاه شهیدبهشتی هست این روزا با توجه به روند تحلیل دیتا و زبانهای برنامه نویسی گزینه R همیشه یکی از گزینههای مدنظر برای تحلیل دیتا هست اگر آشنایی به اینزبان ندارید و قصد ورود به حوزه تحلیل دیتا دارید این دوره رو به شما علاقمندان توصیه میکنم.
@rwithme2025
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1🔥1👌1
🔥 بزرگترین تخفیف سال کوئرا به مناسبت بلکفرایدی
🎁 همه دورههای برنامهنویسی کوئرا نصف قیمت شد!
💳 امکان پرداخت قسطی
‼️ الان با تخفیف ثبتنام کن و هر زمان که خواستی دورهها رو ببین!
🔗 https://quera.org/r/9je1v
🎁 همه دورههای برنامهنویسی کوئرا نصف قیمت شد!
💳 امکان پرداخت قسطی
‼️ الان با تخفیف ثبتنام کن و هر زمان که خواستی دورهها رو ببین!
🔗 https://quera.org/r/9je1v
❤2👍1
Hunyuan OCR, Tencent's new document-understanding model, is now on huggingface
🚀
- SOTA in document parsing, visual Q&A and Translation
- 1B-parameter, end-to-end
- Interactive demo available
- Tech report released
https://huggingface.co/spaces/tencent/HunyuanOCR
https://huggingface.co/tencent/HunyuanOCR
#مقاله
🔹 مطالب بیشتر 👇 👇
✅ @AI_DeepMind
✅ @AI_Person
- SOTA in document parsing, visual Q&A and Translation
- 1B-parameter, end-to-end
- Interactive demo available
- Tech report released
https://huggingface.co/spaces/tencent/HunyuanOCR
https://huggingface.co/tencent/HunyuanOCR
#مقاله
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Forwarded from کانال اطلاعرسانی کارگاههای دکتر اکبرزاده
دوره جامع تحلیل داده با هدف ارتقای مهارتهای پژوهشی و حرفهای، از مبانی آمار تا مدلسازی پیشرفته و یادگیری ماشین طراحی شده است. شرکتکنندگان در این برنامه، بهصورت گامبهگام با مفاهیم آماری، اجرای تحلیلها در محیطهای R و Python، روشهای مدلسازی، تحلیل دادههای واقعی و استفاده کاربردی از هوش مصنوعی آشنا میشوند.
خیر! همه مباحث از ابتدا توضیح داده میشود. با روش vibe codeing نیازی به پیشزمینه برنامه نویسی نیز ندارید. کافیست نحوه کار با این شیوه را یاد بگیرید.
این دوره برای اساتید، پژوهشگران، دانشجویان، متخصصان علوم داده، مهندسان نرمافزار و داده، پزشکان و پژوهشگران حوزه سلامت، فعالان کسبوکار، دیجیتال مارکترها و تمامی علاقهمندان به تحلیل داده مناسب است.
برای دریافت سرفصل کامل دورهها به ادمین پیام دهید.
برای دریافت اطلاعات تکمیلی، شرایط ثبتنام، و بررسی ظرفیت، میتوانید به اکانت پشتیبانی زیر، کلمهٔ «دوره» را ارسال نمایید:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2❤1
