Telegram Web
Tensorflow(@CVision)
سوال اینجاست که چرا OpenAI به قسمت موتور های جستجو ورود کرده ؟ شاید بهتر باشه آخرین صورتهای مالی گوگل رو بررسی کنیم در تاریخ ۲۴ جولای، شرکت مادر گوگل یعنی آلفابت گزارش مالی سه ماهه دوم سال ۲۰۲۴ خود را منتشر کرد. بخش اعظم درآمد گوگل از موتور جستجو هست. در…
نمی‌دونم چقدر به موضوع انرژی‌ های نامحدود علاقه مندین، اما از اونجا که این موضوع ارتباط مستقیمی با هوش مصنوعی داره و یکی از چالش های بزرگ این حوزه هست امشب کمی دربارش می‌ نویسم.

پیشرفت های روزافزون هوش مصنوعی نیاز ما رو به منبع انرژی بیش از پیش افزایش داده، و انرژی به عنوان یکی از گلوگاه های مهم این حوزه و سایر حوزه ها همواره مطرح بوده، مخصوصا انرژی های پاک و ارزان قیمت که قبلاً اینجا کمی بهش پرداختیم و آه....

شرکت های بزرگی مثل گوگل سرمایه گذاری عظیمی روی این حوزه انجام دادن، مثل توافق انرژی هسته‌ای پاک اون با شرکت Kairos Power.

https://blog.google/outreach-initiatives/sustainability/google-kairos-power-nuclear-energy-agreement/

راهکارهای هسته‌ ای، منبعی پاک و شبانه‌ روزی از انرژی هستن که میتونن به ما در تامین مطمئن تقاضای برق با انرژی بدون کربن در هر ساعت از هر روز کمک کنن. در آینده نزدیک پیشبرد این منابع انرژی در مشارکت نزدیک با جوامع محلی، به سرعت کربن‌ زدایی شبکه‌های برق در سراسر جهان رو تسریع خواهد داد.

ادامه دارد...
Tensorflow(@CVision)
نمی‌دونم چقدر به موضوع انرژی‌ های نامحدود علاقه مندین، اما از اونجا که این موضوع ارتباط مستقیمی با هوش مصنوعی داره و یکی از چالش های بزرگ این حوزه هست امشب کمی دربارش می‌ نویسم. پیشرفت های روزافزون هوش مصنوعی نیاز ما رو به منبع انرژی بیش از پیش افزایش داده،…
همجوشی هسته‌ای به عنوان دروازه‌ای به سوی دستیابی به منبعی تقریبا نامحدود از انرژی محسوب میشه،  انرژی‌ که اگر بشه اون رو کنترل کرد، میتونه پاسخگوی نیازهای رو به رشد ما در حوزه هوش مصنوعی باشه.

اما مشکل اساسی در این مسیر، توانایی ایجاد و حفظ یک حالت پلاسما با دماهای بسیار بالا هست. پلاسما طبیعتی آشوبناک و ناپایدار داره.

دانشمندان سالها در تلاش برای مهار پلاسما و استخراج انرژی از دل اون وقت گذاشتن، اما این تلاش ما آدما ریشه تاریخی داره.

این ماجرا از داستان پرومتئوس از دزدیدن آتش از خدایان شروع میشه تا تلاش امروزی ما برای کنترل نیرو هایی که در قلب ستارگان می‌سوزن، ادامه داره، که نشون دهنده اشتیاق بی‌ پایان به کشف، تسخیر و بهره‌ برداری از رازهای طبیعته.

پلاسما ذاتا یه محیط آشوبناک و ناپایداره، به دلیل حرکت سریع یون‌ ها و الکترون‌ ها، پلاسما تمایل داره به سرعت از میدان مغناطیسی فرار کنه.

ادامه دارد...
Tensorflow(@CVision)
همجوشی هسته‌ای به عنوان دروازه‌ای به سوی دستیابی به منبعی تقریبا نامحدود از انرژی محسوب میشه،  انرژی‌ که اگر بشه اون رو کنترل کرد، میتونه پاسخگوی نیازهای رو به رشد ما در حوزه هوش مصنوعی باشه. اما مشکل اساسی در این مسیر، توانایی ایجاد و حفظ یک حالت پلاسما…
وارد جزییات نشیم مخلص کلام اینه که اگه پلاسما مدت زیادی حفظ نشه، انرژی وارد شده قبل از اینکه واکنش همجوشی به اندازه کافی رخ بده، از دست میره پس افزایش زمان نگهداری پلاسما یه مسئله کلیدی در دستیابی به همجوشی هسته‌ای پایداره.

آزمایشگاه EAST در چین به عنوان یکی از پیشگامان در زمینه‌ی همجوشی هسته‌ ای شناخته میشه. این آزمایشگاه توانسته بود زمان‌ قابل توجهی رو برای نگهداری پلاسما ثبت کنه.

اما خبر مهم اینه که حالا آزمایشگاه CEA در فرانسه، دستگاه WEST با بهره‌گیری از فناوری‌ های نوین و استفاده از مغناطیس‌های ابر رسانا، موفق به افزایش زمان نگهداری پلاسما به حدود ۲۲ دقیقه شدن!

این ماجرا نه تنها گامی بزرگ در علم همجوشی هسته‌ ای، بلکه تاثیرات گسترده‌ای بر سایر حوزه‌های علمی از جمله مدل‌های زبانی و هوش مصنوعی در آینده خواهد داشت

https://m.youtube.com/watch?v=nAJN1CrJsVE

https://newatlas.com/energy/france-tokamak-cea-west-fusion-reactor-record-plasma-duration/
همینطور که داشتیم درباره انرژی پاک و ارزان بحث میکردیم و اهمیت این موضوع که انرژی ارزان قیمت چطور صنعت و به خصوص هوش مصنوعی رو در آینده متحول خواهد کرد مایکروسافت چیپ کوانتومی جدیدی به نام Majorana 1 رو معرفی کرد!

Majorana 1

اولین چیپ کوانتومی جهانه که بر پایه یه معماری نوین به نام «هسته توپوگرافیک» (Topological Core) طراحی شده.

این چیپ با بهره‌ گیری از ماده‌ای به نام topoconductor عمل می‌ کنه که به تولید کوبیت‌ های (واحدهای محاسباتی کوانتومی) پایدار تر و مقیاس‌ پذیرتر کمک می‌ کنه.

هدف اصلی، ساخت سیستم‌ های کوانتومیه که بتونن تا یه میلیون کوبیت رو در یک چیپ جمع‌ آوری کنن، سطحی که برای حل مسائل صنعتی و علمی پیچیده ضروری به حساب میاد.

مایکروسافت میخواد از طریق پلتفرم Azure Quantum، امکاناتی رو فراهم کنه که به مشتریان اجازه بده محاسبات کوانتومی رو در کنار هوش مصنوعی و پردازش‌ های با عملکرد بالا (HPC) برای پیشبرد کشفیات علمی به کار بگیرن.

ادغام محاسبات کوانتومی با ابزارهای هوش مصنوعی می‌ تونه انقلابی در حل مسائل پیچیده ایجاد کنه. به عنوان مثال، گفته شده که کامپیوتر کوانتومی به هوش مصنوعی زبان طبیعت رو می‌آموزه تا بتونه به‌ طور مستقیم دستورالعمل‌ های لازم برای طراحی مواد یا مولکول‌ها رو ارائه بده!

https://m.youtube.com/watch?v=wSHmygPQukQ
Media is too big
VIEW IN TELEGRAM
آزمایشگاه Pika، ابزار جدیدی بنام PIKASWAPS رو توسعه داده که به شما این امکان رو میده با استفاده از متن، یه قلم مو و عکس، مشخص کنید چی رو تو فیلم می‌خواین با چی جایگزینش کنید.

البته هنوز کیفیتش در حد هالیوود نیست اما صنعت جلوه های ویژه رو می‌تونه متحول کنه

https://freddychavezolmos.com/artifcialintelligence
شرکت Anthropic (رقیب OpenAI) یه هوش مصنوعی جدید به اسم Claude 3.7 Sonnet رونمایی کرده که میگن باهوش‌ترین مدلشون تا الانه! 🚀

نکات مهم:

تمرکز اصلیش روی برنامه‌نویسی و کدنویسیه
یه ابزار جدید به اسم Claude Code هم معرفی کردن که مخصوص برنامه‌نویساست
میتونه کد بخونه، ویرایش کنه و تست کنه 💻

جالبه بدونید که آمازون پشت این شرکته


نگرانی اصلی اینه که با این همه سرمایه‌گذاری، چطور میخوان سود کنن؟ 🤔


https://www.nzherald.co.nz/business/anthropic-releases-its-smartest-ai-model/XBZ42MOKERHNVHYC2VBX2DQTBQ/
This media is not supported in your browser
VIEW IN TELEGRAM
این ربات رو در بازی تیمی تصور کنیم، یه چیزی مثل فوتبال، اما بدون خطا و کارت قرمز.

این ربات‌ ها احتمالا در قالب تیم‌ ها با این مهارت‌ های بدنی شگفت‌ انگیز و تاکتیک‌ ها هر کاری برای گل زدن انجام میدن!

حالا به کل تعمیم بدیم. در این میدان نبرد، مرز بین انسان و ماشین، بین خالق و مخلوق، بین اخلاق و غریزه، محو میشه. تنها یک سوال باقی میمونه: آیا این نبرد، آغاز یک انقلابه یا پایان یک تمدن؟
This media is not supported in your browser
VIEW IN TELEGRAM
درخواست ساخت بازی Flappy Bird با پرامپت یکسان (One-Shot)، Claude 3.7 در مقابل o3 Mini-High
Misguided Attention
 مجموعه‌ای از سوالات و چالش‌ هایی هستن که برای سنجش توانایی استدلال مدل‌ های زبانی بزرگ در شرایطی که اطلاعات گمراه‌ کننده وجود داره، طراحی شده.

این مجموعه (لینک زیر) شامل نسخه‌ های کمی تغییر‌ یافته از معماها و مسائل منطقی معروفه. بسیاری از مدل‌ های زبانی در مواجه با اطلاعات گمراه‌ کننده، همچنان به نسخه‌ی اصلی مسائل پایبندن و قادر به تشخیص تغییرات کوچیک در سوالات نیستن. این موضوع نشان‌ دهنده‌ مشکل overfitting برخی مدل‌ ها به داده‌ های آموزشی‌ هست.

مدل Claude-3.7-Sonnet در حالتی که بدون فرآیند استدلال (non-thinking mode) اجرا میشه، در یک آزمون طولانی شامل ۵۲ پرسش مورد ارزیابی قرار گرفت. با وجود اینکه از حالت استدلال استفاده نکرد، تقریبا توانست مدل o3-mini رو شکست بده.

https://github.com/cpldcpu/MisguidedAttention
This media is not supported in your browser
VIEW IN TELEGRAM
علی‌بابا با معرفی مدل هوش مصنوعی جدیدش، QwQ-Max-Preview، حسابی سر و صدا به پا کرده! این مدل قراره با غول‌هایی مثل o1 از OpenAI و R1 از DeepSeek رقابت کنه. جالبه بدونید که علی‌بابا تو سه سال آینده قراره ۵۳ میلیارد دلار روی زیرساخت‌های ابری و هوش مصنوعی سرمایه‌گذاری کنه. این یعنی چینی‌ها دارن با سرعت نور تو دنیای تکنولوژی پیش میرن!

مدل QwQ-Max-Preview بر پایه مدل Qwen 2.5-Max ساخته شده و قراره تو استدلال و حل مسائل پیچیده بهتر عمل کنه. اگه کنجکاوید، می‌تونید همین الان به‌صورت رایگان از طریق وب‌سایت چت‌بات Qwen امتحانش کنید.

https://chat.qwen.ai/

بلاگ پست علی بابا مرتبط با انتشار این ویژگی:

https://qwenlm.github.io/blog/qwq-max-preview/
امروز OpenAI مدل جدید GPT-4.5 رو معرفی کرده! این مدل قراره سریع‌تر، دقیق‌تر و هوشمندتر باشه. بهبودهایی توی فهم زبان، تولید متن و حتی کدنویسی داره.

مدل GPT-4.5 یه سری بهبود مهم داره که کار باهاش رو راحت‌تر و قوی‌تر می‌کنه:

سرعت بیشتر – جواب‌ها رو سریع‌تر می‌ده و عملکرد بهتری داره.
دقت بالاتر – متن‌هاش منطقی‌تر و کم‌اشتباه‌تر شدن.
بهبود فهم کد – بهتر کدنویسی می‌کنه و اشکال‌یابی دقیق‌تری داره.
پشتیبانی از متن‌های پیچیده‌تر – محتوای علمی و فنی رو بهتر می‌فهمه.
تعامل طبیعی‌تر – جواب‌هاش روان‌تر و شبیه مکالمه انسانی شده.

برای جزئیات بیشتر، این سند رو ببینید:

📄
https://cdn.openai.com/gpt-4-5-system-card.pdf
This media is not supported in your browser
VIEW IN TELEGRAM
Mercury
 اولین مدل زبانی بزرگ defusion large language model (dLLM) با کیفیت تجاری معرفی شد!

 نکته جالب اینجاست که این مدل، همه توکن‌ ها (کلمات یا بخش‌ های کلمات) رو یکجا تولید و سپس بهینه می‌کنه، برخلاف مدل‌های مبتنی بر ترنسفورمر که هر توکن رو یکی یکی تولید می‌ کنن.

 مدل منتشر شده در حالی که تا ۱۰ برابر سریع‌ تر از مدل‌های پیشرفته و بهینه‌شده برای سرعت مانند "GPT-4o Mini" و "Claude 3.5 Haiku" اجرا میشه که عملکردی کاملا مشابه اونها داره. این بدان معناست که شما میتونید از همان سطح کیفیت و دقت، اما با سرعتی بسیار بالاتر بهره‌مند شین.

علاوه بر این، این مدل به سرعتی بیش از ۱۰۰۰ توکن در ثانیه بر روی پردازنده‌ های گرافیکی "NVIDIA H100" دست پیدا کرده. این سرعت فوق‌العاده، امکان تولید متن‌های طولانی و پیچیده رو در کمترین زمان ممکن فراهم میکنن. 

نکته قابل توجه اینه که این سرعت بالا، بدون نیاز به استفاده از تراشه‌ های تخصصی بدست اومده. به عبارت دیگه، شما میتونید با استفاده از سخت‌ افزارهای استاندارد، از قدرت و سرعت بی‌نظیر مدل‌های "Mercury Coder" بهره‌مند شین.

https://www.inceptionlabs.ai/news
Tensorflow(@CVision)
Mercury  اولین مدل زبانی بزرگ defusion large language model (dLLM) با کیفیت تجاری معرفی شد!  نکته جالب اینجاست که این مدل، همه توکن‌ ها (کلمات یا بخش‌ های کلمات) رو یکجا تولید و سپس بهینه می‌کنه، برخلاف مدل‌های مبتنی بر ترنسفورمر که هر توکن رو یکی یکی تولید…
بیشتر مدل‌های زبانی بزرگی که تا کنون دیدیم (LLMs)، از نظر روش مدل‌ سازی اصلی، تقریباً شبیه به هم هستن و همشون به صورت Autoregression آموزش داده میشن، یعنی کلمات رو از چپ به راست پیش‌ بینی میکنن.

روش Diffusion متفاوته، از چپ به راست حرکت نمی‌کنه، بلکه همه چیز رو یکجا تولید میکنه. شما با نویز شروع و به تدریج نویز رو حذف میکنین تا به یک جریان از کلمات برسین.

بیشتر ابزارهای هوش مصنوعی تولید تصویر و ویدیو، در واقع با همین روش کار میکنن و از روش Diffusion استفاده میکنن، نه Autoregression.

به عنوان مثال، مدل‌هایی مانند DALL-E، Stable Diffusion و Midjourney از این روش برای تولید تصاویر واقع‌ گرایانه و خلاقانه استفاده میکنن.

قبلاً تلاش هایی برای استفاده از این متد برای تولید متن شده بود اما به شکل تجاری هیچ کدوم مورد استفاده قرار نگرفته بودن، این اولین استفاده تجاری هست و موفقیت اون تاثیر بسزایی در آینده مدل های زبانی خواهد داشت
This media is not supported in your browser
VIEW IN TELEGRAM
یکی از دلایل موفقیت DeepSeek، به غیر از بهینه سازی و کارهای نوآورانه ای که انجام داد تصمیم این شرکت در انتشار کد این معماری بود.

حالا علی‌ بابا با استفاده از همین رویکرد (اوپن سورس کردن) در زمینه‌ی نرم‌ افزارهای هوش مصنوعی، سعی داره که با ارائه‌ سرویس تبدیل متن به ویدئو به نام Wan 2.1، رقبای بزرگی مثل Sora از OpenAI رو به چالش بکشه.

این شرکت مدل هوش مصنوعی تبدیل متن به ویدئو به نام Wan 2.1 را معرفی کرده که به صورت اوپن سورس عرضه شده. این مدل به کاربران امکان میده تا با استفاده از ورودی‌های متنی، تصویری و حتی ویدئویی، ویدئوهایی با کیفیت سینمایی ایجاد کنن و نسبت به مدل های متن بسته عملکرد قابل توجهی داره.
این مدل قادره حرکات پیچیده‌ای مانند چرخش‌های دینامیک، تغییرات سریع صحنه و حرکات نرم دوربین رو تولید کنه. علاوه بر این، توانایی شبیه‌سازی فیزیک واقعی و تعاملات طبیعی اشیا رو داراست و از ویرایش دقیق با استفاده از تصاویر و ویدئوهای مرجع پشتیبانی می‌کنه. همچنین Wan 2.1 امکان تولید افکت‌های سینمایی، جلوه‌های متنوع و حتی افزودن متن به ویدئوها به زبان‌های چینی و انگلیسی رو نیز فراهم میکنه.

یکی از مزیت‌های برجسته این مدل، دسترسی رایگان و امکان اجرا بر روی سخت‌افزارهای مصرفی با استفاده از نسخه‌های کوچکتر آن هست که نیاز به منابع گران‌قیمت رو برطرف می‌کنه

https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
قدرت‌های کلیدی Claude 3.7 در دنیای کدنویسی 💻

مدل جدید Claude 3.7 Sonnet به performance فوق‌العاده‌ای در SWE-bench Verified دست پیدا کرده که توانایی مدل‌های هوش مصنوعی رو در حل مشکلات نرم‌افزاری دنیای واقعی ارزیابی می‌کنه.

نقاط قوت:

کار با codebase‌های پیچیده و درک عمیق ساختار پروژه‌ها
دستیابی به performance فوق‌العاده در SWE-bench Verified (حل مشکلات واقعی نرم‌افزاری)
برنامه‌ریزی تغییرات کد و مدیریت update‌ها
تولید کد production-ready با خطای کمتر
قابلیت‌های test-driven development

ابزار Claude Code:

جستجو و خواندن کد
ویرایش فایل‌ها
نوشتن و اجرای test‌ها
کار با GitHub (commit و push)
استفاده از command line
شناسایی و رفع build error‌ها


البته برای کد نویسی و استفاده در محیط پروژه رایگان نیست...
https://www.anthropic.com/news/claude-3-7-sonnet
Tensorflow(@CVision)
قدرت‌های کلیدی Claude 3.7 در دنیای کدنویسی 💻 مدل جدید Claude 3.7 Sonnet به performance فوق‌العاده‌ای در SWE-bench Verified دست پیدا کرده که توانایی مدل‌های هوش مصنوعی رو در حل مشکلات نرم‌افزاری دنیای واقعی ارزیابی می‌کنه. نقاط قوت: کار با codebase‌های…
This media is not supported in your browser
VIEW IN TELEGRAM
این ویدیوی یوتیوب از کانال فایرشیپ، مدل جدید Claude 3.7 Sonnet از شرکت آنتروپیک رو بررسی میکنه و قابلیت‌های پیشرفته برنامه‌نویسی و ابزار جدید Claude Code CLI رو نشون میده.

این بررسی به پتانسیل این مدل برای خودکارسازی کارهای کدنویسی و حتی جایگزینی برنامه‌نویس‌ها اشاره میکنه،
در حالی که به مشکلات احتمالی مثل هزینه، احتمال کپی‌برداری و خرابی‌های غیرمنتظره در سناریوهای پیچیده هم اشاره داره.

ویدیو عملکرد Claude 3.7 رو در چالش‌های مختلف کدنویسی نشون میده و اون رو با مدل‌های هوش مصنوعی دیگه مقایسه میکنه و در نهایت نقاط قوت و ضعفش رو در کاربردهای دنیای واقعی نشون میده.
Audio
مدل‌های تبدیل متن به گفتار (TTS) امروزی معمولاً صدایی خنثی و بدون احساس تولید میکنن که پس از گذشت زمان جذابیت خودشون رو از دست میدن. این موضوع باعث میشه تعامل با اونها خسته‌کننده شه.

برای رفع این مشکل، تیم Sesame مدل «Conversational Speech Model» یا CSM را معرفی کرده که به‌صورت یک مدل چند وجهی، هم متن و هم اطلاعات صوتی (از طریق توکن‌های صوتی) رو همزمان پردازش می‌کنه.

توکن‌ های معنایی برای درک کلی محتوا و ویژگی‌های زبانی

توکن‌ های صوتی برای بازسازی جزئیات دقیق صدا مانند لحن و هویت گوینده

کیفت خروجی تولیدی به جرات میشه گفت از advanced voice چت جی پی تی بالاتره!

امیدواریم این مدل به زودی بصورت متن باز منتشر شه تا بتونیم با دیتای فارسی آموزشش بدیم!(در فایل نمونه کمی با طرفداران استقلال شوخی کردیم)

لینک دمو:

https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Great set of new lectures on all things LLMs, reasoning, and advanced LLM-based agents and techniques.

https://www.youtube.com/playlist?list=PLS01nW3RtgorL3AW8REU9nGkzhvtn6Egn
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 1 از 4

سلام به زنجیره پیش‌نویس (Chain-of-Draft)

برای حل مشکل تأخیر در استدلال مدل‌های زبانی بزرگ، این پژوهش زنجیره پیش‌نویس (CoD) را معرفی می‌کند.

زنجیره پیش‌نویس (CoD) یک راهبرد prompt دهی جدید است که استدلال‌های میانی طولانی را به شدت کاهش می‌دهد در حالی که عملکرد قوی را حفظ می‌کند.

https://x.com/omarsar0/status/1895135560634900762/photo/1
2025/06/29 06:38:11
Back to Top
HTML Embed Code: