COMPUTATIONALLINGUISTICSNLP Telegram 67
این هم از مدل چینی هوش مصنوعی😅


🔹 استارتاپ چینی DeepSeek با معرفی مدل هوش مصنوعی جدید خود، R1، تحولی در بازار هوش مصنوعی ایجاد کرده است. این مدل با عملکردی مشابه مدل‌های پیشرفته غربی، اما با هزینه‌ای به‌مراتب کمتر توسعه یافته است. این دستاورد باعث کاهش ۱۲ درصدی ارزش سهام انویدیا و افت ۳۸۴ میلیارد دلاری ارزش بازار آن شده است.

🔸 مدل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر، از معماری «ترکیب متخصصان» (Mixture of Experts) بهره می‌برد که در آن تنها ۳۷ میلیارد پارامتر در هر پردازش فعال می‌شوند. این رویکرد منجر به کاهش قابل‌توجهی در مصرف منابع محاسباتی و افزایش کارایی مدل شده است.
این مدل با استفاده از تنها ۲,۰۰۰ واحد پردازش گرافیکی (GPU) انویدیا، مدل خود را آموزش داده است؛ در حالی که مدل‌های مشابه به حدود ۱۶,۰۰۰ GPU نیاز دارند. این کارایی بالا و هزینه پایین، نگرانی‌هایی را در مورد آینده سرمایه‌گذاری‌های شرکت‌هایی مانند مایکروسافت و گوگل در حوزه هوش مصنوعی برانگیخته است.

🔹 مدل DeepSeek-R1 با استفاده از یادگیری تقویتی (Reinforcement Learning) و بدون نیاز به تنظیمات نظارت‌شده (Supervised Fine-Tuning)، توانسته است در بنچمارک‌های مختلفی مانند AIME و MATH-500 عملکردی بهتر یا مشابه با مدل o1 از OpenAI ارائه دهد. این مدل در تست‌های ریاضی AIME امتیاز ۷۹.۸ درصد و در MATH-500 امتیاز ۹۷.۳ درصد را کسب کرده است.
@computationallinguisticsNLP

GIT
Source: barrons - theverge - wikipedia



tgoop.com/ComputationallinguisticsNLP/67
Create:
Last Update:

این هم از مدل چینی هوش مصنوعی😅


🔹 استارتاپ چینی DeepSeek با معرفی مدل هوش مصنوعی جدید خود، R1، تحولی در بازار هوش مصنوعی ایجاد کرده است. این مدل با عملکردی مشابه مدل‌های پیشرفته غربی، اما با هزینه‌ای به‌مراتب کمتر توسعه یافته است. این دستاورد باعث کاهش ۱۲ درصدی ارزش سهام انویدیا و افت ۳۸۴ میلیارد دلاری ارزش بازار آن شده است.

🔸 مدل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر، از معماری «ترکیب متخصصان» (Mixture of Experts) بهره می‌برد که در آن تنها ۳۷ میلیارد پارامتر در هر پردازش فعال می‌شوند. این رویکرد منجر به کاهش قابل‌توجهی در مصرف منابع محاسباتی و افزایش کارایی مدل شده است.
این مدل با استفاده از تنها ۲,۰۰۰ واحد پردازش گرافیکی (GPU) انویدیا، مدل خود را آموزش داده است؛ در حالی که مدل‌های مشابه به حدود ۱۶,۰۰۰ GPU نیاز دارند. این کارایی بالا و هزینه پایین، نگرانی‌هایی را در مورد آینده سرمایه‌گذاری‌های شرکت‌هایی مانند مایکروسافت و گوگل در حوزه هوش مصنوعی برانگیخته است.

🔹 مدل DeepSeek-R1 با استفاده از یادگیری تقویتی (Reinforcement Learning) و بدون نیاز به تنظیمات نظارت‌شده (Supervised Fine-Tuning)، توانسته است در بنچمارک‌های مختلفی مانند AIME و MATH-500 عملکردی بهتر یا مشابه با مدل o1 از OpenAI ارائه دهد. این مدل در تست‌های ریاضی AIME امتیاز ۷۹.۸ درصد و در MATH-500 امتیاز ۹۷.۳ درصد را کسب کرده است.
@computationallinguisticsNLP

GIT
Source: barrons - theverge - wikipedia

BY CL & NLP Enthusiasts




Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/67

View MORE
Open in Telegram


Telegram News

Date: |

Activate up to 20 bots Telegram users themselves will be able to flag and report potentially false content. A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”.
from us


Telegram CL & NLP Enthusiasts
FROM American