Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
62 - Telegram Web
Telegram Web
Media is too big
VIEW IN TELEGRAM
سخنرانی آقای دکتر محمد بحرانی در هفتمین همایش زبانشناسی رایانشی، با عنوان مدل های بزرگ زبانی: ساختار و عملکرد. پارت ۱
#همایش #زبانشناسی_رایانشی
@ComputationallinguisticsNLP
دیتاست دیوان بزرگترین دیتاست متن باز شامل شبکه‌های اجتماعی

▪️دیتاست‌هایی که در پردازش زبان طبیعی (NLP) یا پردازش متن استفاده می‌شوند، شامل مجموعه‌ای از متون هستند که برای آموزش و ارزیابی مدل‌های یادگیری ماشین به کار می‌روند.

هدف اصلی استفاده از این دیتاست‌ها در پردازش متن، بهبود و توسعه مدل‌هایی است که قادر به درک، تحلیل و پردازش زبان انسانی باشند.

▫️لایف‌وب پس از تجربه موفق توسعه مدل‌های زبانی تهران و شیراز در صدد است تا دیتاست دیوان را به عنوان عامل موثر در بهبود کیفیت این مدل‌ها نسبت به رقبا در جهت اعتلای کیفیت عملکرد در حوزه پردازش زبان فارسی معرفی کند تا نقش اجتماعی خود را در این راستا ایفا سازد.

▪️مهم‌ترین ویژگی دیوان به عنوان گامی نو در پردازش زبان طبیعی فارسی، وجود حجم انبوهی از داده‌های شبکه‌های اجتماعی است که شامل متن‌های تکراری نیست. از نظر اندازه، ۱۰۰ میلیون رکورد داده از بسترهای مختلف جمع‌آوری شده است که در مجموع شامل بیش از ۸ میلیارد توکن است.

▫️در حال حاضر بسترهایی که در این دیتاست پوشش داده می‌شوند به شرح زیر هستند:
اخبار خبرگزاری‌ها
انواع بلاگ‌ها
توییر
اینستاگرام ( پست و کامنت)
تلگرام ( کانال و گروه)
دیجی کالا ( کامنت)
ایتا ( پست )
دیوار

هم‌اکنون افرادی که در حوزه پردازش زبان طبیعی مشغول به فعالیت هستند میتوانند اطلاعات این دیتاست را در صفحات لایف‌وب به آدرس
https://huggingface.co/datasets/lifeweb-ai/Divan و https://github.com/lifeweb-ir/Divan مشاهده کنند.

@ComputationallinguisticsNLP
‏یک کتابخانه ویروسی در مخزن #پایتون وجود دارد!

▪️بسته‌ی مخرب Python با نام ‘fabrice’، که به‌صورت جعلی به‌عنوان کتابخانه محبوب ‘fabric’ معرفی شده است، اقدام به سرقت اطلاعات کاربری AWS می‌کند. این کشف نشان‌دهنده‌ی تهدیدات ناشی از کتابخانه‌های جعلی متن‌باز در مخازن رسمی است.
کد اسپلور
https://thehackernews.com/2024/11/malicious-pypi-package-fabrice-found.html?m=1

@ComputationallinguisticNLP
🔴 سیستم ارزیابی مدل‌های زبانی فارسی
مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر، با سرپرستی یکی از اساتید برجسته هوش مصنوعی کشور، سرکار خانم دکتر سعیده ممتازی، سیستم ارزیابی مدل‌های زبانی ایرانی را توسعه داده‌اند. این سیستم جامع شامل پایپلاین‌ها، بنچ‌مارک‌ها و بیش از 40 هزار نمونه است که به زبان فارسی بومی‌سازی شده‌اند. بخشی از این سیستم به صورت متن‌باز در دسترس عموم قرار گرفته است تا کاربران بتوانند مدل‌های زبانی خود یا دیگران را در آن ارزیابی کنند:
https://partdp.ai/blog/benchmark/?utm_source=channels&utm_medium=telegram&utm_campaign=llm&utm_id=aban1403
https://www.tgoop.com/Comp_Linguistics
@ComputationallinguisticsNLP
https://towardsdatascience.com/document-embedding-techniques-fed3e7a6a25d

امبدینگ (بردارسازی کلمات، جملات و پاراگراف) یکی از موضوعات کاربردی، اساسی و ضروری در پردازش زبان طبیعی است. این پست به خوبی تکنیک های امبدینگ رو به طور خلاصه مرور میکنه و ارزش خواندن داره. 🙃
@ComputationallinguisticsNLP
This media is not supported in your browser
VIEW IN TELEGRAM
رگرسیون لجستیک یکی از تکنیک‌های محبوب در علم داده برای پیش‌بینی نتایج باینری (مانند بله/خیر یا موفقیت/شکست) است. 

هدف: پیش‌بینی احتمال وقوع یک رویداد. 
چگونه؟ با استفاده از تابع سیگموئید، احتمال پیش‌بینی می‌شود و براساس آن «بله» یا «نه» تصمیم‌گیری می‌شود. 
مزایا: ساده، سریع و مناسب برای طبقه‌بندی‌های باینری. 
محدودیت‌ها: فرض رابطه خطی بین ویژگی‌ها و نتیجه، و ضعف در داده‌های پیچیده. 

کاربردها: بازاریابی، مراقبت‌های بهداشتی، و پیش‌بینی ریسک‌های مالی...
@ComputationallinguisticsNLP
لایبرری LLM یکی از ابزارهای قدرتمند پایتون برای کار با مدل‌های زبانی (Language Models) است. با استفاده از این لایبرری، می‌توانید به راحتی مدل‌های زبانی را فراخوانی کرده، از آن‌ها برای کاربردهای مختلف بهره ببرید، پرامپت‌های دلخواه بنویسید، مدل‌ها را آموزش دهید و بسیاری امکانات پیشرفته دیگر را کشف کنید.

این ابزار برای توسعه‌دهندگان و علاقه‌مندان به پردازش زبان طبیعی و هوش مصنوعی، یک گزینه ایده‌آل است تا به‌طور کارآمد از مدل‌های زبانی بهره‌مند شوند. 🌟

Link:https://llm.datasette.io/en/stable/

#ComputationallinguisticsNLP
هایپرپارامترهای یادگیری ماشین
هایپرپارامترها پارامترهایی در مدل‌های یادگیری ماشین هستند که از داده‌های آموزشی یاد گرفته نمی‌شوند و قبل از شروع فرآیند یادگیری تنظیم می‌شوند. این پارامترها رفتار کلی، ساختار و عملکرد الگوریتم یادگیری ماشین را کنترل می‌کنند
- رگرسیون خطی و لجستیک: کنترل پیچیدگی با منظم‌سازی (مجازات L1/L2)، انتخاب حل‌کننده‌های بهینه‌سازی و تنظیم وزن‌های کلاس.
- بیز ساده: استفاده از هموارسازی (آلفا) ، کنترل پیش‌فرض‌ها و باینری کردن داده‌ها.
- درخت تصمیم و جنگل تصادفی: مدیریت رشد درخت با معیار، عمق حداکثر و آستانه‌های تقسیم. جنگل تصادفی پارامترهای خاص خود را اضافه می‌کند.
- درختان تقویت‌شده گرادیان: ترکیب پارامترهای خاص درخت با نرخ یادگیری.
- تحلیل مولفه‌های اصلی (PCA): تعریف تعداد مولفه‌ها و انتخاب روش‌های محاسباتی.
-نزدیک‌ترین همسایگان (KNN): K- تنظیم تعداد همسایگان و تأثیر آن‌ها بر پیش‌بینی‌ها.
- اK-Meansتعیین تعداد خوشه‌ها، روش اولیه‌سازی و محدودیت‌های تکرار.
- شبکه‌های عصبی متراکم: تنظیم دقیق با اندازه لایه‌های پنهان، توابع فعال‌سازی، Dropout برای منظم‌سازی و تنظیمات خاص آموزش.
تفاوت APIو SDK
روش API ها (رابط‌های برنامه‌نویسی کاربردی) و SDKها (مجموعه‌های توسعه نرم‌افزار) ابزارهای ضروری برای توسعه نرم‌افزار هستند، اما اهداف متفاوتی دارند:
شرح 𝗔𝗣𝗜
تعریف :API مجموعه‌ای از قوانین و پروتکل‌هاست که به برنامه‌های نرم‌افزاری و خدمات مختلف اجازه می‌دهد با یکدیگر ارتباط برقرار کرده و داده‌ها را به اشتراک بگذارند.
1- رابط استانداردی برای تعامل اجزا تعریف می‌کند.
2- امکان یکپارچه‌سازی بین نرم‌افزارهای نوشته‌شده در زبان‌ها و چارچوب‌های مختلف را فراهم می‌آورد.
3-معمولاً نقاط انتهایی برای درخواست و ارائه داده‌ها فراهم می‌کند.

شرح 𝗦𝗗𝗞
تعریف :SDK یک بسته جامع از ابزارها، کتابخانه‌ها، کد نمونه و مستندات است که ساخت برنامه‌ها را بر روی یک پلتفرم خاص ساده‌تر می‌کند.
1-  انتزاعات سطح بالاتری را برای تسهیل توسعه ارائه می‌دهد.
2-  برای یکپارچگی با پلتفرم زیرین طراحی شده است.
3- به قابلیت‌ها و ویژگی‌های خاص پلتفرم دسترسی می‌دهد که پیاده‌سازی آن‌ها از صفر ممکن است پیچیده باشد.

@ComputationallinguisticsNLP
به به ببینید چی پیدا کردم، 😅
لیستی از الگوریتم های یادگیری ماشین که باید در موردشان و کاربردهاشون در تسک ها رو بدونید.
@computationallinguisticsNLP
This media is not supported in your browser
VIEW IN TELEGRAM
یکی از استادای دانشگاه کارنگی ملون (Carnegie Mellon) به اسم gneubig تمام اسلایدها و مطالب درسی و تمام ویدیوهای کلاس Advanced NLP اش که به تازگی تمام شد را کامل گذاشته روی وب سایتش. یعنی شما رایگان دسترسی به مطالب یک درس پیشترفته در یکی از بهترین دانشگاهای دنیا تو فیلد ماشین لرنینگ دارید. بینظیره!
Course website: https://phontron.com/class/anlp-fall2024/schedule/

YouTube: https://www.youtube.com/playlist?list=PL8PYTP1V4I8D4BeyjwWczukWq9d8PNyZp

@computationallinguisticsNLP
تبدیل متن به صوت در پایتون!

جهت تبدیل متن به سیگنال صوتی میشه از سرویس هایی به اسم TTS استفاده کرد. TTS مخفف Text To Speech هست که متن رو به عنوان ورودی دریافت و در خروجی یک سیگنال صوتی که شامل همون متن است داده میشه, یعنی برعکس ASR یا همون STT هست.
به کمک این سه تا لایبرری در پایتون می تونید ساده و کاربردی این تسک رو پیاده سازی کنید.

لینک این سه تا لایبرری:
https://pypi.org/project/TTS/
https://pypi.org/project/gTTS/
https://pypi.org/project/pyttsx3/


@computationallinguisticsNLP
مفهوم epoch
در مسائل یادگیری ماشین (یادگیری عمیق)، مجموعه ای از داده ها را داریم که تعدادی نمونه در خود دارند. این داده ها به عنوان ورودی به شبکه عصبی ما وارد می شوند و پس از تولید خروجی، میزان خطا محاسبه شده و سپس شبکه طی فرایند پس انتشار (back propagation)، وزن ها و بایاس ها را برای دور بعدی محاسبات آپدیت می کند.

هر یک دوری که چرخه فوق به طور کامل طی می شود، یک دوره یا epoch (ایپاک) نام دارد. در هر epoch، شبکه عصبی کل داده ها را می بیند، خطا محاسبه می شود و با پس انتشار (back propagation)، وزن ها و بایاس برای بهبود میزان خطا آپدیت می شوند. ایپاک بعدی نیز دقیقا مشابه ایپاک اول، اما این بار با وزن ها و بایاس های جدید روی کل داده ها طی می شود.
@ComputationallinguisticsNLP
🌟 گامی مهم و بزرگ در هوش مصنوعی: از LLMs به LCMs با متا 
متا به‌تازگی یک گام بزرگ در دنیای هوش مصنوعی برداشته و Large Concept Models (LCMs) را معرفی کرده است. خب، این مدل‌ها با تغییر پارادایم رایج در مدل‌های زبانی بزرگ (LLMs)، قابلیت‌هایی جدید و پیشرفته‌ای را ارائه می‌دهند. 

🔹 چرا این تغییر بااهمیت پنداشته شده است؟ 
چون مدل‌های زبانی بزرگ (LLMs) اگرچه در پردازش توکن‌ها عالی هستند، اما در استدلال‌های پیچیده و انسجام در متون بلند دچار محدودیت‌اند. از سوی دیگر، LCMs با تمرکز بر *مفاهیم معنایی* و پردازش در سطح جمله، مشکلات موجود را برطرف کرده‌اند. 

ویژگی‌های برجسته LCMs چیست
1️⃣ برنامه‌ریزی سلسله‌مراتبی: توانایی تولید خروجی‌هایی با ساختارهای دقیق‌تر. 
2️⃣ مدیریت متون بلند: پردازش مؤثرتر زمینه‌های طولانی بدون افت دقت. 
3️⃣ چندزبانه بودن: پشتیبانی از بیش از 200 زبان بدون نیاز به بازآموزی. 

😂😂دیوونه شدیم بسکه هر روز یه مدل معرفی میشه، اینها خواب و خوراک ندارند، مشکلات ندارند؟😂

Paper: https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/
GitHub:https://github.com/facebookresearch/large_concept_model
2025/07/07 12:50:42
Back to Top
HTML Embed Code: