Media is too big
VIEW IN TELEGRAM
سخنرانی آقای دکتر محمد بحرانی در هفتمین همایش زبانشناسی رایانشی، با عنوان مدل های بزرگ زبانی: ساختار و عملکرد. پارت ۱
#همایش #زبانشناسی_رایانشی
@ComputationallinguisticsNLP
#همایش #زبانشناسی_رایانشی
@ComputationallinguisticsNLP
⏺دیتاست دیوان بزرگترین دیتاست متن باز شامل شبکههای اجتماعی
▪️دیتاستهایی که در پردازش زبان طبیعی (NLP) یا پردازش متن استفاده میشوند، شامل مجموعهای از متون هستند که برای آموزش و ارزیابی مدلهای یادگیری ماشین به کار میروند.
⏪ هدف اصلی استفاده از این دیتاستها در پردازش متن، بهبود و توسعه مدلهایی است که قادر به درک، تحلیل و پردازش زبان انسانی باشند.
▫️لایفوب پس از تجربه موفق توسعه مدلهای زبانی تهران و شیراز در صدد است تا دیتاست دیوان را به عنوان عامل موثر در بهبود کیفیت این مدلها نسبت به رقبا در جهت اعتلای کیفیت عملکرد در حوزه پردازش زبان فارسی معرفی کند تا نقش اجتماعی خود را در این راستا ایفا سازد.
▪️مهمترین ویژگی دیوان به عنوان گامی نو در پردازش زبان طبیعی فارسی، وجود حجم انبوهی از دادههای شبکههای اجتماعی است که شامل متنهای تکراری نیست. از نظر اندازه، ۱۰۰ میلیون رکورد داده از بسترهای مختلف جمعآوری شده است که در مجموع شامل بیش از ۸ میلیارد توکن است.
▫️در حال حاضر بسترهایی که در این دیتاست پوشش داده میشوند به شرح زیر هستند:
اخبار خبرگزاریها
انواع بلاگها
توییر
اینستاگرام ( پست و کامنت)
تلگرام ( کانال و گروه)
دیجی کالا ( کامنت)
ایتا ( پست )
دیوار
⏪ هماکنون افرادی که در حوزه پردازش زبان طبیعی مشغول به فعالیت هستند میتوانند اطلاعات این دیتاست را در صفحات لایفوب به آدرس
https://huggingface.co/datasets/lifeweb-ai/Divan و https://github.com/lifeweb-ir/Divan مشاهده کنند.
@ComputationallinguisticsNLP
▪️دیتاستهایی که در پردازش زبان طبیعی (NLP) یا پردازش متن استفاده میشوند، شامل مجموعهای از متون هستند که برای آموزش و ارزیابی مدلهای یادگیری ماشین به کار میروند.
⏪ هدف اصلی استفاده از این دیتاستها در پردازش متن، بهبود و توسعه مدلهایی است که قادر به درک، تحلیل و پردازش زبان انسانی باشند.
▫️لایفوب پس از تجربه موفق توسعه مدلهای زبانی تهران و شیراز در صدد است تا دیتاست دیوان را به عنوان عامل موثر در بهبود کیفیت این مدلها نسبت به رقبا در جهت اعتلای کیفیت عملکرد در حوزه پردازش زبان فارسی معرفی کند تا نقش اجتماعی خود را در این راستا ایفا سازد.
▪️مهمترین ویژگی دیوان به عنوان گامی نو در پردازش زبان طبیعی فارسی، وجود حجم انبوهی از دادههای شبکههای اجتماعی است که شامل متنهای تکراری نیست. از نظر اندازه، ۱۰۰ میلیون رکورد داده از بسترهای مختلف جمعآوری شده است که در مجموع شامل بیش از ۸ میلیارد توکن است.
▫️در حال حاضر بسترهایی که در این دیتاست پوشش داده میشوند به شرح زیر هستند:
اخبار خبرگزاریها
انواع بلاگها
توییر
اینستاگرام ( پست و کامنت)
تلگرام ( کانال و گروه)
دیجی کالا ( کامنت)
ایتا ( پست )
دیوار
⏪ هماکنون افرادی که در حوزه پردازش زبان طبیعی مشغول به فعالیت هستند میتوانند اطلاعات این دیتاست را در صفحات لایفوب به آدرس
https://huggingface.co/datasets/lifeweb-ai/Divan و https://github.com/lifeweb-ir/Divan مشاهده کنند.
@ComputationallinguisticsNLP
huggingface.co
lifeweb-ai/Divan · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
یک کتابخانه ویروسی در مخزن #پایتون وجود دارد!
▪️بستهی مخرب Python با نام ‘fabrice’، که بهصورت جعلی بهعنوان کتابخانه محبوب ‘fabric’ معرفی شده است، اقدام به سرقت اطلاعات کاربری AWS میکند. این کشف نشاندهندهی تهدیدات ناشی از کتابخانههای جعلی متنباز در مخازن رسمی است.
کد اسپلور
https://thehackernews.com/2024/11/malicious-pypi-package-fabrice-found.html?m=1
@ComputationallinguisticNLP
▪️بستهی مخرب Python با نام ‘fabrice’، که بهصورت جعلی بهعنوان کتابخانه محبوب ‘fabric’ معرفی شده است، اقدام به سرقت اطلاعات کاربری AWS میکند. این کشف نشاندهندهی تهدیدات ناشی از کتابخانههای جعلی متنباز در مخازن رسمی است.
کد اسپلور
https://thehackernews.com/2024/11/malicious-pypi-package-fabrice-found.html?m=1
@ComputationallinguisticNLP
🔴 سیستم ارزیابی مدلهای زبانی فارسی
مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر، با سرپرستی یکی از اساتید برجسته هوش مصنوعی کشور، سرکار خانم دکتر سعیده ممتازی، سیستم ارزیابی مدلهای زبانی ایرانی را توسعه دادهاند. این سیستم جامع شامل پایپلاینها، بنچمارکها و بیش از 40 هزار نمونه است که به زبان فارسی بومیسازی شدهاند. بخشی از این سیستم به صورت متنباز در دسترس عموم قرار گرفته است تا کاربران بتوانند مدلهای زبانی خود یا دیگران را در آن ارزیابی کنند:
https://partdp.ai/blog/benchmark/?utm_source=channels&utm_medium=telegram&utm_campaign=llm&utm_id=aban1403
https://www.tgoop.com/Comp_Linguistics
@ComputationallinguisticsNLP
مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر، با سرپرستی یکی از اساتید برجسته هوش مصنوعی کشور، سرکار خانم دکتر سعیده ممتازی، سیستم ارزیابی مدلهای زبانی ایرانی را توسعه دادهاند. این سیستم جامع شامل پایپلاینها، بنچمارکها و بیش از 40 هزار نمونه است که به زبان فارسی بومیسازی شدهاند. بخشی از این سیستم به صورت متنباز در دسترس عموم قرار گرفته است تا کاربران بتوانند مدلهای زبانی خود یا دیگران را در آن ارزیابی کنند:
https://partdp.ai/blog/benchmark/?utm_source=channels&utm_medium=telegram&utm_campaign=llm&utm_id=aban1403
https://www.tgoop.com/Comp_Linguistics
@ComputationallinguisticsNLP
https://towardsdatascience.com/document-embedding-techniques-fed3e7a6a25d
امبدینگ (بردارسازی کلمات، جملات و پاراگراف) یکی از موضوعات کاربردی، اساسی و ضروری در پردازش زبان طبیعی است. این پست به خوبی تکنیک های امبدینگ رو به طور خلاصه مرور میکنه و ارزش خواندن داره. 🙃
@ComputationallinguisticsNLP
امبدینگ (بردارسازی کلمات، جملات و پاراگراف) یکی از موضوعات کاربردی، اساسی و ضروری در پردازش زبان طبیعی است. این پست به خوبی تکنیک های امبدینگ رو به طور خلاصه مرور میکنه و ارزش خواندن داره. 🙃
@ComputationallinguisticsNLP
Medium
Document Embedding Techniques
A review of notable literature on the topic
This media is not supported in your browser
VIEW IN TELEGRAM
رگرسیون لجستیک یکی از تکنیکهای محبوب در علم داده برای پیشبینی نتایج باینری (مانند بله/خیر یا موفقیت/شکست) است.
✅ هدف: پیشبینی احتمال وقوع یک رویداد.
✅ چگونه؟ با استفاده از تابع سیگموئید، احتمال پیشبینی میشود و براساس آن «بله» یا «نه» تصمیمگیری میشود.
✅ مزایا: ساده، سریع و مناسب برای طبقهبندیهای باینری.
✅ محدودیتها: فرض رابطه خطی بین ویژگیها و نتیجه، و ضعف در دادههای پیچیده.
کاربردها: بازاریابی، مراقبتهای بهداشتی، و پیشبینی ریسکهای مالی...
@ComputationallinguisticsNLP
✅ هدف: پیشبینی احتمال وقوع یک رویداد.
✅ چگونه؟ با استفاده از تابع سیگموئید، احتمال پیشبینی میشود و براساس آن «بله» یا «نه» تصمیمگیری میشود.
✅ مزایا: ساده، سریع و مناسب برای طبقهبندیهای باینری.
✅ محدودیتها: فرض رابطه خطی بین ویژگیها و نتیجه، و ضعف در دادههای پیچیده.
کاربردها: بازاریابی، مراقبتهای بهداشتی، و پیشبینی ریسکهای مالی...
@ComputationallinguisticsNLP
لایبرری LLM یکی از ابزارهای قدرتمند پایتون برای کار با مدلهای زبانی (Language Models) است. با استفاده از این لایبرری، میتوانید به راحتی مدلهای زبانی را فراخوانی کرده، از آنها برای کاربردهای مختلف بهره ببرید، پرامپتهای دلخواه بنویسید، مدلها را آموزش دهید و بسیاری امکانات پیشرفته دیگر را کشف کنید.
این ابزار برای توسعهدهندگان و علاقهمندان به پردازش زبان طبیعی و هوش مصنوعی، یک گزینه ایدهآل است تا بهطور کارآمد از مدلهای زبانی بهرهمند شوند. 🌟
Link:https://llm.datasette.io/en/stable/
#ComputationallinguisticsNLP
این ابزار برای توسعهدهندگان و علاقهمندان به پردازش زبان طبیعی و هوش مصنوعی، یک گزینه ایدهآل است تا بهطور کارآمد از مدلهای زبانی بهرهمند شوند. 🌟
Link:https://llm.datasette.io/en/stable/
#ComputationallinguisticsNLP
✅هایپرپارامترهای یادگیری ماشین
هایپرپارامترها پارامترهایی در مدلهای یادگیری ماشین هستند که از دادههای آموزشی یاد گرفته نمیشوند و قبل از شروع فرآیند یادگیری تنظیم میشوند. این پارامترها رفتار کلی، ساختار و عملکرد الگوریتم یادگیری ماشین را کنترل میکنند
- رگرسیون خطی و لجستیک: کنترل پیچیدگی با منظمسازی (مجازات L1/L2)، انتخاب حلکنندههای بهینهسازی و تنظیم وزنهای کلاس.
- بیز ساده: استفاده از هموارسازی (آلفا) ، کنترل پیشفرضها و باینری کردن دادهها.
- درخت تصمیم و جنگل تصادفی: مدیریت رشد درخت با معیار، عمق حداکثر و آستانههای تقسیم. جنگل تصادفی پارامترهای خاص خود را اضافه میکند.
- درختان تقویتشده گرادیان: ترکیب پارامترهای خاص درخت با نرخ یادگیری.
- تحلیل مولفههای اصلی (PCA): تعریف تعداد مولفهها و انتخاب روشهای محاسباتی.
-نزدیکترین همسایگان (KNN): K- تنظیم تعداد همسایگان و تأثیر آنها بر پیشبینیها.
- اK-Meansتعیین تعداد خوشهها، روش اولیهسازی و محدودیتهای تکرار.
- شبکههای عصبی متراکم: تنظیم دقیق با اندازه لایههای پنهان، توابع فعالسازی، Dropout برای منظمسازی و تنظیمات خاص آموزش.
هایپرپارامترها پارامترهایی در مدلهای یادگیری ماشین هستند که از دادههای آموزشی یاد گرفته نمیشوند و قبل از شروع فرآیند یادگیری تنظیم میشوند. این پارامترها رفتار کلی، ساختار و عملکرد الگوریتم یادگیری ماشین را کنترل میکنند
- رگرسیون خطی و لجستیک: کنترل پیچیدگی با منظمسازی (مجازات L1/L2)، انتخاب حلکنندههای بهینهسازی و تنظیم وزنهای کلاس.
- بیز ساده: استفاده از هموارسازی (آلفا) ، کنترل پیشفرضها و باینری کردن دادهها.
- درخت تصمیم و جنگل تصادفی: مدیریت رشد درخت با معیار، عمق حداکثر و آستانههای تقسیم. جنگل تصادفی پارامترهای خاص خود را اضافه میکند.
- درختان تقویتشده گرادیان: ترکیب پارامترهای خاص درخت با نرخ یادگیری.
- تحلیل مولفههای اصلی (PCA): تعریف تعداد مولفهها و انتخاب روشهای محاسباتی.
-نزدیکترین همسایگان (KNN): K- تنظیم تعداد همسایگان و تأثیر آنها بر پیشبینیها.
- اK-Meansتعیین تعداد خوشهها، روش اولیهسازی و محدودیتهای تکرار.
- شبکههای عصبی متراکم: تنظیم دقیق با اندازه لایههای پنهان، توابع فعالسازی، Dropout برای منظمسازی و تنظیمات خاص آموزش.
✅ تفاوت APIو SDK
روش API ها (رابطهای برنامهنویسی کاربردی) و SDKها (مجموعههای توسعه نرمافزار) ابزارهای ضروری برای توسعه نرمافزار هستند، اما اهداف متفاوتی دارند:
شرح 𝗔𝗣𝗜
تعریف :API مجموعهای از قوانین و پروتکلهاست که به برنامههای نرمافزاری و خدمات مختلف اجازه میدهد با یکدیگر ارتباط برقرار کرده و دادهها را به اشتراک بگذارند.
1- رابط استانداردی برای تعامل اجزا تعریف میکند.
2- امکان یکپارچهسازی بین نرمافزارهای نوشتهشده در زبانها و چارچوبهای مختلف را فراهم میآورد.
3-معمولاً نقاط انتهایی برای درخواست و ارائه دادهها فراهم میکند.
شرح 𝗦𝗗𝗞
تعریف :SDK یک بسته جامع از ابزارها، کتابخانهها، کد نمونه و مستندات است که ساخت برنامهها را بر روی یک پلتفرم خاص سادهتر میکند.
1- انتزاعات سطح بالاتری را برای تسهیل توسعه ارائه میدهد.
2- برای یکپارچگی با پلتفرم زیرین طراحی شده است.
3- به قابلیتها و ویژگیهای خاص پلتفرم دسترسی میدهد که پیادهسازی آنها از صفر ممکن است پیچیده باشد.
@ComputationallinguisticsNLP
روش API ها (رابطهای برنامهنویسی کاربردی) و SDKها (مجموعههای توسعه نرمافزار) ابزارهای ضروری برای توسعه نرمافزار هستند، اما اهداف متفاوتی دارند:
شرح 𝗔𝗣𝗜
تعریف :API مجموعهای از قوانین و پروتکلهاست که به برنامههای نرمافزاری و خدمات مختلف اجازه میدهد با یکدیگر ارتباط برقرار کرده و دادهها را به اشتراک بگذارند.
1- رابط استانداردی برای تعامل اجزا تعریف میکند.
2- امکان یکپارچهسازی بین نرمافزارهای نوشتهشده در زبانها و چارچوبهای مختلف را فراهم میآورد.
3-معمولاً نقاط انتهایی برای درخواست و ارائه دادهها فراهم میکند.
شرح 𝗦𝗗𝗞
تعریف :SDK یک بسته جامع از ابزارها، کتابخانهها، کد نمونه و مستندات است که ساخت برنامهها را بر روی یک پلتفرم خاص سادهتر میکند.
1- انتزاعات سطح بالاتری را برای تسهیل توسعه ارائه میدهد.
2- برای یکپارچگی با پلتفرم زیرین طراحی شده است.
3- به قابلیتها و ویژگیهای خاص پلتفرم دسترسی میدهد که پیادهسازی آنها از صفر ممکن است پیچیده باشد.
@ComputationallinguisticsNLP
به به ببینید چی پیدا کردم، 😅
لیستی از الگوریتم های یادگیری ماشین که باید در موردشان و کاربردهاشون در تسک ها رو بدونید.
@computationallinguisticsNLP
لیستی از الگوریتم های یادگیری ماشین که باید در موردشان و کاربردهاشون در تسک ها رو بدونید.
@computationallinguisticsNLP
This media is not supported in your browser
VIEW IN TELEGRAM
یکی از استادای دانشگاه کارنگی ملون (Carnegie Mellon) به اسم gneubig تمام اسلایدها و مطالب درسی و تمام ویدیوهای کلاس Advanced NLP اش که به تازگی تمام شد را کامل گذاشته روی وب سایتش. یعنی شما رایگان دسترسی به مطالب یک درس پیشترفته در یکی از بهترین دانشگاهای دنیا تو فیلد ماشین لرنینگ دارید. بینظیره!
Course website: https://phontron.com/class/anlp-fall2024/schedule/
YouTube: https://www.youtube.com/playlist?list=PL8PYTP1V4I8D4BeyjwWczukWq9d8PNyZp
@computationallinguisticsNLP
Course website: https://phontron.com/class/anlp-fall2024/schedule/
YouTube: https://www.youtube.com/playlist?list=PL8PYTP1V4I8D4BeyjwWczukWq9d8PNyZp
@computationallinguisticsNLP
تبدیل متن به صوت در پایتون!
جهت تبدیل متن به سیگنال صوتی میشه از سرویس هایی به اسم TTS استفاده کرد. TTS مخفف Text To Speech هست که متن رو به عنوان ورودی دریافت و در خروجی یک سیگنال صوتی که شامل همون متن است داده میشه, یعنی برعکس ASR یا همون STT هست.
به کمک این سه تا لایبرری در پایتون می تونید ساده و کاربردی این تسک رو پیاده سازی کنید.
لینک این سه تا لایبرری:
https://pypi.org/project/TTS/
https://pypi.org/project/gTTS/
https://pypi.org/project/pyttsx3/
@computationallinguisticsNLP
جهت تبدیل متن به سیگنال صوتی میشه از سرویس هایی به اسم TTS استفاده کرد. TTS مخفف Text To Speech هست که متن رو به عنوان ورودی دریافت و در خروجی یک سیگنال صوتی که شامل همون متن است داده میشه, یعنی برعکس ASR یا همون STT هست.
به کمک این سه تا لایبرری در پایتون می تونید ساده و کاربردی این تسک رو پیاده سازی کنید.
لینک این سه تا لایبرری:
https://pypi.org/project/TTS/
https://pypi.org/project/gTTS/
https://pypi.org/project/pyttsx3/
@computationallinguisticsNLP
مفهوم epoch
در مسائل یادگیری ماشین (یادگیری عمیق)، مجموعه ای از داده ها را داریم که تعدادی نمونه در خود دارند. این داده ها به عنوان ورودی به شبکه عصبی ما وارد می شوند و پس از تولید خروجی، میزان خطا محاسبه شده و سپس شبکه طی فرایند پس انتشار (back propagation)، وزن ها و بایاس ها را برای دور بعدی محاسبات آپدیت می کند.
هر یک دوری که چرخه فوق به طور کامل طی می شود، یک دوره یا epoch (ایپاک) نام دارد. در هر epoch، شبکه عصبی کل داده ها را می بیند، خطا محاسبه می شود و با پس انتشار (back propagation)، وزن ها و بایاس برای بهبود میزان خطا آپدیت می شوند. ایپاک بعدی نیز دقیقا مشابه ایپاک اول، اما این بار با وزن ها و بایاس های جدید روی کل داده ها طی می شود.
@ComputationallinguisticsNLP
در مسائل یادگیری ماشین (یادگیری عمیق)، مجموعه ای از داده ها را داریم که تعدادی نمونه در خود دارند. این داده ها به عنوان ورودی به شبکه عصبی ما وارد می شوند و پس از تولید خروجی، میزان خطا محاسبه شده و سپس شبکه طی فرایند پس انتشار (back propagation)، وزن ها و بایاس ها را برای دور بعدی محاسبات آپدیت می کند.
هر یک دوری که چرخه فوق به طور کامل طی می شود، یک دوره یا epoch (ایپاک) نام دارد. در هر epoch، شبکه عصبی کل داده ها را می بیند، خطا محاسبه می شود و با پس انتشار (back propagation)، وزن ها و بایاس برای بهبود میزان خطا آپدیت می شوند. ایپاک بعدی نیز دقیقا مشابه ایپاک اول، اما این بار با وزن ها و بایاس های جدید روی کل داده ها طی می شود.
@ComputationallinguisticsNLP
🌟 گامی مهم و بزرگ در هوش مصنوعی: از LLMs به LCMs با متا
متا بهتازگی یک گام بزرگ در دنیای هوش مصنوعی برداشته و Large Concept Models (LCMs) را معرفی کرده است. خب، این مدلها با تغییر پارادایم رایج در مدلهای زبانی بزرگ (LLMs)، قابلیتهایی جدید و پیشرفتهای را ارائه میدهند.
🔹 چرا این تغییر بااهمیت پنداشته شده است؟
چون مدلهای زبانی بزرگ (LLMs) اگرچه در پردازش توکنها عالی هستند، اما در استدلالهای پیچیده و انسجام در متون بلند دچار محدودیتاند. از سوی دیگر، LCMs با تمرکز بر *مفاهیم معنایی* و پردازش در سطح جمله، مشکلات موجود را برطرف کردهاند.
✨ ویژگیهای برجسته LCMs چیست:
1️⃣ برنامهریزی سلسلهمراتبی: توانایی تولید خروجیهایی با ساختارهای دقیقتر.
2️⃣ مدیریت متون بلند: پردازش مؤثرتر زمینههای طولانی بدون افت دقت.
3️⃣ چندزبانه بودن: پشتیبانی از بیش از 200 زبان بدون نیاز به بازآموزی.
😂😂دیوونه شدیم بسکه هر روز یه مدل معرفی میشه، اینها خواب و خوراک ندارند، مشکلات ندارند؟😂
Paper: https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/
GitHub:https://github.com/facebookresearch/large_concept_model
متا بهتازگی یک گام بزرگ در دنیای هوش مصنوعی برداشته و Large Concept Models (LCMs) را معرفی کرده است. خب، این مدلها با تغییر پارادایم رایج در مدلهای زبانی بزرگ (LLMs)، قابلیتهایی جدید و پیشرفتهای را ارائه میدهند.
🔹 چرا این تغییر بااهمیت پنداشته شده است؟
چون مدلهای زبانی بزرگ (LLMs) اگرچه در پردازش توکنها عالی هستند، اما در استدلالهای پیچیده و انسجام در متون بلند دچار محدودیتاند. از سوی دیگر، LCMs با تمرکز بر *مفاهیم معنایی* و پردازش در سطح جمله، مشکلات موجود را برطرف کردهاند.
✨ ویژگیهای برجسته LCMs چیست:
1️⃣ برنامهریزی سلسلهمراتبی: توانایی تولید خروجیهایی با ساختارهای دقیقتر.
2️⃣ مدیریت متون بلند: پردازش مؤثرتر زمینههای طولانی بدون افت دقت.
3️⃣ چندزبانه بودن: پشتیبانی از بیش از 200 زبان بدون نیاز به بازآموزی.
😂😂دیوونه شدیم بسکه هر روز یه مدل معرفی میشه، اینها خواب و خوراک ندارند، مشکلات ندارند؟😂
Paper: https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/
GitHub:https://github.com/facebookresearch/large_concept_model
Meta
Large Concept Models: Language Modeling in a Sentence Representation Space | Research - AI at Meta
LLMs have revolutionized the field of artificial intelligence and have emerged as the de-facto tool for
many tasks. The current established technology of...
many tasks. The current established technology of...