Telegram Web
Media is too big
VIEW IN TELEGRAM
ایجنت دیتاساینس در گوگل کولب

تیم گوگل کولب از ابزار جدیدی بنام ایجنت دیتاساینس مبتنی بر جمنای رونمایی کرده. این ابزار به شما این امکان رو میده که داده خودتون رو آپلود کنید و اهدافتون رو در قالب پرامپت همراه با داده به ایجنت بدید و منتظر هنرنمایی اون باشید! ویدئوی بالا، کارکرد این ایجنت رو نشون میده.

این حرکت جدیدی نیست. مثلا، OpenAI هم در ChatGPT ابزاری بنام Data Analyst داره که داده رو آنالیز میکنه. اما، این روند جالب هست؛ به نظر من، ما از کدنویسی با هوش مصنوعی گذر کردیم و به مرحله انجام پروژه با هوش مصنوعی رسیدیم. این مجموعه تحلیل‌هایی که ایجنت هوش مصنوعی انجام داده (حتی اگر ناقص باشه)، برای انسان خیلی طول میکشه. آیا این نگران‌کننده هست؟ ترجیح میدم به فرصت‌های ایجاد شده فکر کنم. این روزها من پیشنهادهای زیادی برای ساختن ایجنت و اجرای پروژه‌های هوش مصنوعی می‌گیرم.
This media is not supported in your browser
VIEW IN TELEGRAM
این هفته توی کورس یادگیری ماشین که برای یه شرکت برگزار می‌کنیم، قراره درباره یادگیری بدون ناظر (کاهش بُعد و خوشه‌بندی) صحبت کنیم. گفتم یه توضیح ساده درباره خوشه‌بندی اینجا بدم.

روش‌های مختلفی برای خوشه‌بندی وجود داره؛ مثلا K-Means که احتمالا خیلیا باهاش آشنا هستن. ولی این روش اصلا به شکل و توزیع داده‌ها کاری نداره و فقط بر اساس فاصله داده‌ها رو خوشه‌بندی می‌کنه.

در عوض، یه روش دیگه به اسم DBSCAN داریم که خوشه‌بندی رو بر اساس چگالی داده‌ها انجام میده و برخلاف K-Means، به شکل و پخش شدن داده‌ها هم توجه می‌کنه.

انیمیشنی که بالا گذاشتم، خیلی خوب نشون میده که DBSCAN چطوری داده‌ها رو خوشه‌بندی می‌کنه. کاری که K-Means نمی‌تونه انجام بده.
یک مقاله مهم منتشر شده! بین نویسندگان مقاله، نام Yann Lecun و Kaiming He دیده میشه! 😳

عنوان مقاله این هست:
Transformers without Normalization


توی این مقاله پیشنهاد شده که بجای لایه نرمالیزیشن از تابع تانژانت مقیاس‌یافته استفاده بشه. تصویری پیوستی رو ببینید.

این ایده روی مدل‌های مختلف ترنسفورمر در ویژن، nlp، صوت و غیره تست شده.

نکته مهم این هست که این ایده باعث بهبود سرعت مدل در آموزش و اینفرنس میشه. مثلا، اینفرنس مدل Llama 7B حدودا 7.8% بهبود سرعت داشته.

احتمالا این ایده به زودی در بسیاری از مدل‌ها استفاده بشه. باید بخونیمش امیررضا! :)

مقاله | کد | رشتو
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
یکی از دوستان در لینکدین این ویدئو رو گذاشته بود! لینک
اگه در یک سال گذشته مطالب کانال رو دنبال کرده باشید، حتما دیدید که مطالب زیادی درباره مدل‌های زبانی بزرگ (LLM) گذاشتم؛ از مطالعه مقاله‌ها و کتاب‌ها در این کانال نوشتم. همچنین، با دستیارم توی آکادمی هوسم کلی وقت گذاشتیم، تحقیق کردیم و کد زدیم.

خیلی دوست داشتم در این راستا در هوسم محتوای آموزشی خوب و باکیفیت تولید کنیم. دوره‌های زیادی برای LLM با رویکردهای مختلف طراحی کردیم. یکی از این دوره‌ها به انسجام خوبی رسیده و می‌خوایم در هفته دوم عید برگزار کنیم.

دوره آموزش ساخت ChatGPT از صفر با پایتورچ


ساخت ChatGPT از صفر با پایتورچ، دوره‌ای هست که به شما یاد میده چطوری به کمک پایتورچ یک مدل LLM بسازید، روی یک دیتاست خوب آموزش بدید و فاین-تیون کنید. همه بخش‌ها رو به صورت گام به گام در ویدئوها کد می‌زنم و شما هم می‌تونید همراه من کد بزنید. با مطالبی که جمع‌آوری و آماده شده معتقدم آموزش خوبی خواهد شد.

این دوره حدودا 15 ساعت آموزش عملی هست و در هفته دوم عید شروع میشه. اگه دوست دارید به صورت عملی یک LLM رو از صفر بسازید و آموزش بدید، این دوره برای شما مناسب هست. این دوره، یکسری بخش‌های پریمیوم هم داره که درصورت استقبال از دوره ضبط میشن.

در لینک زیر اطلاعات جامعی درباره دوره قرار دادیم. ویدئوی معرفی دوره رو ببینید و توضیحات رو با دقت بخونید. اگه دوست داشتید، ثبت‌نام کنید. 🙂

صفحه دوره ساخت ChatGPT از صفر با پایتورچ

ارادتمند،
اشرفی
Please open Telegram to view this post
VIEW IN TELEGRAM
دوره ChatGPT رو می‌خوام با کولب پیش ببرم که همه بتونن ازش استفاده کنن. اما، می‌خوام برای یک قسمت سخت‌افزار اجاره کنم که بشه برای طولانی‌مدت مدل رو آموزش داد. شایدم سایز مدل و دیتا رو افزایش بدم. از طرفی این پروسه هم آموزنده هست. گوگل کردم runpod، بعد یک نکته جالب دیدم! سایت runpod.io سخت‌افزار GPU اجاره میده ولی یه سایت دیگه هم بنام runpod.ie وجود داره که لوازم و لباس ورزشی میفروشه! 😄

از این نکته که بگذریم؛ GPU-های رده بالایی که توی runpod در دسترس هستن واقعا هیجان‌انگیزن! H200 H100 A100. هر سه اینها آپشن‌های خوبی برای آموزش مدل هستن. ولی H100 و H200 برای کار یادگیری ماشین و ترنسفورمرها بهینه شدن. عملکرد بهتری نسبت به A100 دارن. نمودار بالا سمت چپ هم عملکرد دو GPU روی GPT-3 175B پارامتری رو نشون میده. VRAM بالایی هم دارن! توی runpod هزینه اجارشون ساعتی 2 تا 3 دلار هست.
Please open Telegram to view this post
VIEW IN TELEGRAM
1742505397632.pdf
650.3 KB
پیام زیر برگرفته از امیررضا در لینکدین:

دوستان سلام ، سال نو مبارک 🌼🌻🌿🌱
خوش حالم اعلام کنم که اخیراً یک هندبوک ساده و جمع و جور درباره استفاده از معماری‌های ترنسفورمر برای پیش‌بینی سری‌های زمانی رو آماده کردم.

این کتابچه راهنما اصول اولیه مدل‌های ترنسفورمر برای داده‌های سری زمانی، رویکردهای معماری مختلف، و پیاده‌سازی‌های عملی در PyTorch رو پوشش می‌ده. محتوای این کتابچه به گونه‌ای طراحی شده که هم برای پژوهشگران و هم متخصصان حوزه‌های مختلف که با داده‌های سری زمانی کار می‌کنند، مفید باشه‌.

از آنجایی که این نسخه اولیه 0.0.1 هست، از هرگونه بازخورد یا پیشنهاد برای بهبود نسخه‌های آینده استقبال می‌کنم.
توی لینک زیر، می‌تونید عملکرد GPU-ها برای اجرای LLM-ها رو باهم مقایسه کنید:
https://www.runpod.io/compare/h100sxm-vs-4090

به درد زمانی میخوره که بخواید GPU اجاره کنید. بنچ‌مارک هم توسط runpod ارائه شده که خودش GPU اجاره میده.
PyTorch Howsam
اگه در یک سال گذشته مطالب کانال رو دنبال کرده باشید، حتما دیدید که مطالب زیادی درباره مدل‌های زبانی بزرگ (LLM) گذاشتم؛ از مطالعه مقاله‌ها و کتاب‌ها در این کانال نوشتم. همچنین، با دستیارم توی آکادمی هوسم کلی وقت گذاشتیم، تحقیق کردیم و کد زدیم. خیلی دوست…
امروز، یک بخش از دوره ChatGPT منتشر شد. دوست داشتم کاری کنم افرادی که در دوره ثبت‌نام نکردن هم با سناریوی دوره همراه بشن. به همین خاطر، از بخش معرفی دوره، چهار ویدئوی مهم رو رایگان منتشر کردیم. این چهار ویدئو شامل معرفی دوره، سناریوی دوره، بررسی دیتاست در هاگینگ‌فیس و کار با دیتاست هست.

اگه نمی‌خواید دوره رو تهیه کنید، ولی محتوای دوره رو دوست دارید، این ویدئوها رو ببینید و تلاش کنید خودتون این سناریو رو تا آخر برید. رفرنس‌ها مشخص هست و کدهای دوره هم به مرور در گیتهاب قرار میگیره و در دسترس همه هست. اگه هم دوره رو تهیه نکردید، به این دلیل که مطمئن نبودید، دیدن این ویدئوها ممکن هست کمکتون کنه که تصمیم مطمئن‌تری بگیرید.

برای دیدن این چهار ویدئو به بخش فهرست مطالب لینک زیر مراجعه کنید:
لینک صفحه دوره

برای دیدن ریپوی دوره که فعلا یک نوتبوک ازش منتشر شده به لینک زیر مراجعه کنید:
لینک ریپوی دوره
مقایسه زمانی BPE Tokenizer روی دو کتابخونه Hugging Face Tokenizers و OpenAI TikToken روی ولیدیشن دیتاست تاینی‌استوریز:

dataset = load_dataset("roneneldan/TinyStories")
texts = dataset["validation"]["text"]

# Load the GPT-2 tokenizer for both libraries
tiktokenizer = tiktoken.get_encoding("gpt2") # tiktoken
hf_tokenizer = Tokenizer.from_pretrained("gpt2") # Hugging Face tokenizers

# Measure tiktoken speed
start_time = time.time()
tiktoken_results = [tiktokenizer.encode(text) for text in texts]
tiktoken_time = time.time() - start_time

# Measure tokenizers speed
start_time = time.time()
hf_results = [hf_tokenizer.encode(text).ids for text in texts]
hf_time = time.time() - start_time

# Print results
print(f"tiktoken Time: {tiktoken_time:.4f} seconds")
print(f"tokenizers Time: {hf_time:.4f} seconds")

tiktoken Time: 2.6481 seconds
tokenizers Time: 16.7744 seconds
آقای دکتر Christof Henkel پژوهشگر ارشد در شرکت NVIDIA و یکی از معدود افرادی در دنیاست که موفق به کسب عنوان Triple Grandmaster در پلتفرم Kaggle شده؛ یعنی، او هم در بخش رقابت‌ها، هم نوت‌بوک‌ها و هم بحث‌های فنی، جزو برترین‌هاست. او هم‌اکنون رتبه یک Kaggle هست.

او در توییتی، بخشی از تجربه شخصیش از مسیر سخت و طولانی تبدیل شدن به یکی از برترین‌های Kaggle رو به اشتراک گذاشته؛ متنی الهام‌بخش برای هر کسی که در مسیر رشد و یادگیری هست. در ادامه، این نوشته رو براتون نقل می‌کنم:

چرا فقط ۳۶۲ نفر در دنیا عنوان Grandmaster رقابت‌های Kaggle رو دارن؟
دلیلش ساده هست: چون رسیدن به این سطح، نیاز به تجربه‌ای دیوانه‌وار و تلاشی بی‌پایان داره. حتی با داشتن دکترای ریاضی، من بیش از ۴۰۰۰ ساعت وقت صرف کردم تا Grandmaster بشم. برای بردن اولین رقابت، ۲۰۰۰ ساعت دیگه لازم بود؛ و برای رسیدن به رتبه اول کلی در Kaggle، باید بیش از 10000 ساعت تلاش می‌کردم.

وقتی اولین بار در Kaggle شروع کردم، فکر می‌کردم مدرک دکترایم یک مزیت بزرگ هست. اما واقعیت رو خیلی زود فهمیدم: تجربه بر تئوری برتری داره. فقط برای رسیدن به سطح گرندمستر، ۴۰۰۰ ساعت وقت گذاشتم.

اولین برد در یک رقابت؟
باید ۲۰۰۰ ساعت دیگه تلاش می‌کردم. موفقیت از دل کتاب‌ها بیرون نمیاد، از دل تمرین مستمر، آزمون و خطا، و یاد گرفتن از ریزترین اشتباهات به دست میاد.

رسیدن به رتبه اول جدول کلی Kaggle؟
بیش از ۱۰000 ساعت زمان برد. سال‌ها رقابت، شب‌های بی‌خوابی، ایده‌هایی که شکست می‌خوردند و تکرار و تکرار. نه میان‌بری بود، نه راز خاصی. فقط زمان و استمرار (Consistency).

اگه آرزو داری در هر زمینه‌ای پیشرفت کنی (چه علم داده، چه Kaggle یا حتی زندگی) این رو فراموش نکن:
🧠 استعداد خوبه.
📚 دانش خوبه.
اما هیچ چیز جای تجربه و استمرار بی‌وقفه رو نمی‌گیرد.

اگر تازه وارد دنیای Kaggle شدی:
🔍 تمرکزت رو روی یادگیری بگذار، نه صرفا بردن.
🧠 راه‌حل‌های برتر رو عمیق بررسی کن.
🤝 با دیگران همکاری کن.

نتایج خواهند اومد، به شرطی که اونقدر بمونی که شاهدشون باشی.
PyTorch Howsam
آقای دکتر Christof Henkel پژوهشگر ارشد در شرکت NVIDIA و یکی از معدود افرادی در دنیاست که موفق به کسب عنوان Triple Grandmaster در پلتفرم Kaggle شده؛ یعنی، او هم در بخش رقابت‌ها، هم نوت‌بوک‌ها و هم بحث‌های فنی، جزو برترین‌هاست. او هم‌اکنون رتبه یک Kaggle هست.…
این ده هزار ساعتی که آقای هنکل گفت، من رو یاد مصاحبه لکس فریدمن و آندره کارپاتی انداخت؛ آقای کارپاتی به ده هزار ساعت برای متخصص شدن در هوش مصنوعی اشاره کرده بود.

اون موقع که این ده هزار ساعت رو شنیدم، یکمی راجع بهش فکر و سرچ کردم. قانون کار میگه، ساعت موظفی کارگری 44 ساعت در هفته معادل 5.5 روز هست. اگه 40 ساعت در نظر بگیریم، ده هزار ساعت معادل با 250 هفته میشه. یک سال معادل با 56 هفته هست که فرض کنیم، فرد 50 هفته در سال کار کنه. بنابراین، ده هزار ساعت معادل با 5 سال میشه! عدد کمی نیست و میتونه معادل با دوره فشرده‌ای شامل مطالب کارشناسی+ارشد+دکترا باشه! عدد بزرگیه، ولی باید در نظر داشت که نتایج بعد از 5 سال ظاهر نمیشه. به نظرم، نتایج درخور توجه از پایان سال دوم شروع میشه.

وقتی درمورد ده هزار ساعت سرچ کردم، با وبلاگی مواجه شدم که می‌گفت ما آمریکایی‌ها قانونی بنام قانون ده هزار ساعت داریم. معتقدیم که با این میزان از زمان، میشه در هر زمینه‌ای متخصص شد. البته، این عدد قطعی نیست ولی ما آمریکایی‌ها عاشق تلاش کردیم و دوست داریم به این عدد فکر کنیم.

یادمه، صادق گودرزی که کشتی‌گیر خیلی خوبی هم بود، توی یک برنامه تلوزیونی مربوط به کشتی می‌گفت مقاله‌ای خونده که در اون نوشته با صرف 10 یا 12 هزار ساعت (دقیق یادم نمیاد)، میشه قهرمان المپیک شد.

خلاصه اینکه، درسته که تنظیم هایپرپارامترهای XGBoost مهمه، ولی این سخنان و دیدگاه بزرگان خیلی مهم‌تره.

150 کیلومتر طول کشید تا این دو تا پیام رو آماده کنم! 🫠
Mellum Goes Open Source (Focal Models)

Mellum doesn’t try to know everything.
It’s designed to do one thing really well: code completion.
We call it a focal model – built with purposeful depth and not concerned with chasing breadth.

But code completion is just the start.
Mellum will grow into a family of focal models, each specialized for different coding tasks – from code completion to diff prediction and beyond.

Mellum supports code completion for Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust, Ruby.

Focal models return to that original principle: build models to excel in one area.

HuggingFace
Fast API 🔥
We take care of the rest 😎
You code. We cloud.

Join the waiting list ☕️

Blog Fastapicloud
برگی از تاریخ ... ۵۲ سال پیش
دانشگاه آریامهر (شریف)

درس هوش مصنوعی
نظریه اتوماتا (ماشین ها)
تیم ElevenLabs تا الان چند بار پکیج تخفیف برای سرویس‌های مختلف ارائه کرده که به تازگی نسخه چهارم هم منتشر شده. ابزارهای زیادی شامل تخفیف عالی شدن. مثل 50 دلار کردیت برای استفاده از modal (سرویس اجاره GPU) یا تخفیف 50 درصدی روی همه پلن‌های n8n و ...
https://www.aiengineerpack.com/

با تشکر از دوست خوبم، آرتین، برای اطلاع‌رسانی این جشنواره ❤️
PyTorch Howsam
تیم ElevenLabs تا الان چند بار پکیج تخفیف برای سرویس‌های مختلف ارائه کرده که به تازگی نسخه چهارم هم منتشر شده. ابزارهای زیادی شامل تخفیف عالی شدن. مثل 50 دلار کردیت برای استفاده از modal (سرویس اجاره GPU) یا تخفیف 50 درصدی روی همه پلن‌های n8n و ... https…
فکر می‌کنم پیام بالایی جدی گرفته نشده! :)

دقت کنید که شما می‌تونید با یک ایمیل، 80 دلار کردیت توی modal بگیرید و از GPU-های جذابش لذت ببرید! GPU-هایی مثل H100 و A100... ضمن اینکه، هر ماه اکانت شما 30 دلار شارژ میشه.

حدودا یک روز طول کشید که قلق کار کردن با Modal دستم بیاد و بتونم کد و مدل دوره ChatGPT رو روی GPU-هاش اجرا کنم. با تنظیمات یکسان، روی سیستم شخصی در هر ثانیه حدود 6 بچ پردازش میشد، روی H100 حدود 36 بچ! یک Epoch روی سیستم شخصی 50 دقیقه طول می‌کشید، ولی الان سه Epoch حدود 25 دقیقه طول میکشه! :)

البته که می‌تونم بچ‌سایز رو بسیار بزرگ کنم و همچنین از تکنولوژی‌های جدید توی GPU-های رده بالا استفاده کنم. فعلا این کارها رو نکردم...
کامل نیست، ولی اثر سایز مدل رو ببینید؛

دو تا فاکتور تعداد لایه (nL) و هیدن سایز (nE) رو تغییر دادم و سه تا مدل بدست اومد.

مدل آبی حدودا 3 میلیون پارامتر داره. خیلی کوچیکه. با اینکه خیلی بیشتر از دو مدل دیگه آموزش دیده (حدود 1.4 بیلیون توکن)، اما اختلاف زیادی باهاشون داره.

دو مدل دیگه به‌هم نزدیک هستن. فرقشون در تعداد لایه‌هاست. یکی 4 لایه و دیگری 8 لایه. مشخص هست که مدل 8 لایه عملکرد بهتری داره. مدل 4 لایه به 400 میلیون توکن نیاز داشته تا به لاس زیر 1.5 برسه. اما به نظر میرسه که مدل 8 لایه با تعداد توکن‌های کمتری میتونه این رکورد رو بزنه.

خوبه که یک نمونه جنریشن با پرامپت مشابه از دو مدل آبی و قهوه‌ای ببینیم. اون مدل فیروزه‌ای که هیچ، به اندازه کافی ترین نشده...
لایو گوگل با 4 کست ، هم زمان شروع شد :

https://www.youtube.com/@GoogleDevelopers/streams
قبلا، لرنینگ کرو رو براساس تعداد ایپاک رسم می‌کردیم. مثلا می‌گفتیم، مدل رزنت برای 30 ایپاک روی دیتاست x ترین شده و نمودار لاس به ایپاک رو رسم می‌کردیم. میشه گفت، شبیه این بود که یک فرد بگه من این کتاب رو 30 دور خوندم. نگاه جالبیه...

اما، الان توی بحث LLM-ها که دیتاست‌ها خیلی بزرگه، لرنینگ کرو رو براساس تعداد توکن‌ها رسم میکنن. مثلا، میگیم که مدل Llama روی 50 میلیارد توکن آموزش دیده. حالا ممکنه این 50 میلیارد توکن حتی یک ایپاک از دیتاست هم نباشه! ولی نگاه جالبیه که میگیم این مدل روی n تا توکن (تقریبا کلمه) آموزش دیده.

حالا، با فرض ثابت بودن سخت‌افزار، می‌تونیم لرنینگ کرو رو براساس مدت زمان آموزش رسم کنیم. مثلا بگیم که این مدل 30 ساعت آموزش دیده. نگاه قشنگی هست. انگار که بگیم 30 ساعت درس خوندم. یا مثلا، مدلی که 90 روز درس خونده. :)

توی نمودار بالا، لرنینگ کرو دو اجرا رو براساس تعداد توکن (محور افقی پایین) و مدت زمان (محور افقی بالا) نشون دادم.
2025/07/09 04:50:14
Back to Top
HTML Embed Code: