Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
42 - Telegram Web
Telegram Web
۴. Stemming
فرآیند حذف پسوند و پیشوند از کلمات و دست یافتن به ریشه.
اهمیت: ساده سازی متن در جهت تحلیل و پردازش بهتر.
۵. Stop words
تعریف: کلمات پربسامد که معنای خاصی هم ندارند مثل و، ..
اهمیت : حذف این کلمات، به تمرکز بر روی واژه های اصلی کمک می کند و کارآیی الگوریتم ها رو افزایش می دهد.
۶. Tokenization
تعریف: به پروسه شکستن یک متن و تبدیل آن به واحدهای کوچک‌تر مانند لغت، عبارت و یا جمله اطلاق میشود.
اهمیت: اولین قدم در تحلیل پیش-پردازش متن است. وقتی یک متن خام رو به قطعات قابل پردازش تبدیل می کنیم.

@ComputationalLinguisticsNLP
@NLPenthusiast
یادگیری ماشین (Machine Learning) شاخه‌ای از هوش مصنوعی 🤖 است که به سیستم‌ها این قابلیت را می‌دهد تا بدون نیاز به برنامه‌نویسی دقیق، از تجربه‌ها یاد بگیرند و با گذشت زمان عملکردشان را بهبود دهند 📈. به جای استفاده از قوانین ثابت، مدل‌های یادگیری ماشین با استفاده از داده‌ها الگوها را شناسایی می‌کنند و بر اساس آن تصمیم‌گیری می‌کنند.

سه نوع اصلی یادگیری ماشین عبارتند از:

1. یادگیری نظارت‌شده (Supervised Learning): در این روش، مدل با استفاده از داده‌های ورودی و خروجی آموزش می‌بیند 📝 و هدف آن یادگیری رابطه بین آن‌هاست تا بتواند خروجی‌های جدید را پیش‌بینی کند. مثال: تشخیص ایمیل‌های اسپم ✉️.

2. یادگیری بدون نظارت (Unsupervised Learning): در این حالت، مدل تنها با داده‌های ورودی کار می‌کند و سعی می‌کند ساختارهای پنهان یا گروه‌های مشابه را پیدا کند 🔍. مثال: خوشه‌بندی مشتریان بر اساس رفتار خرید 🛒.

3. یادگیری تقویتی (Reinforcement Learning): مدل با تعامل با محیط خود و دریافت پاداش‌ها و تنبیه‌ها یاد می‌گیرد تا تصمیمات بهتری بگیرد 🏆. مثال: آموزش ربات‌ها برای حرکت در یک محیط 🚀.

یادگیری ماشین در حوزه‌های مختلف مانند تشخیص تصویر 📸، پردازش زبان طبیعی 🗣، و پیش‌بینی‌ها و توصیه‌ها (مانند پیشنهاد فیلم یا محصولات 🎥🛍) کاربرد دارد.
منبع: ژورافسکی
#هوش_مصنوعی
@ComputationalLinguisticsNLP
👀@NLPenthusiast
Channel photo removed
Channel photo updated
Channel name was changed to «CL & NLP Enthusiasts»
⚜️زبان ماشین رو بشناس!
💠دنیای پردازش زبان طبیعی و یادگیری ماشین منتظرته.
🔷جدیدترین اخبار، آموزش‌ها و مقالات رو در کانال ما دنبال کن.
#زبان_شناسی_رایانشی #پردازش_زبان_طبیعی
#یادگیری_ماشینی
#NLP
@ComputationalLinguisticsNLP
کتابخانه‌ها و ابزارهای مهمی برای پردازش زبان فارسی وجود دارند که می‌توانند در تحلیل متون فارسی بسیار مفید باشند. در ادامه چند نمونه از این ابزارها را معرفی می‌کنم:

1. Hazm:
   یک کتابخانه جامع برای پردازش زبان فارسی که شامل ابزارهایی مانند توکن‌سازی، ریشه‌یابی، استمینگ (تجزیه کلمات به ریشه)، و تبدیل اعداد فارسی به انگلیسی است.

2. ParsBERT:
   مدل پیش‌ساخته BERT برای زبان فارسی که در وظایف مختلف پردازش زبان طبیعی (NLP) مانند طبقه‌بندی متن، تحلیل احساسات و استخراج اطلاعات به کار می‌رود.

3. PersianNLP:
   مجموعه‌ای از ابزارها برای پردازش زبان فارسی که شامل توکن‌سازی، استمینگ، و برچسب‌گذاری بخش‌های مختلف کلام (POS tagging) است.

4. FarsiNLPTools:
   کتابخانه‌ای که ابزارهایی مانند برچسب‌گذاری بخش‌های کلام، تجزیه نحوی و تشخیص موجودیت‌های نام‌دار (NER) برای متون فارسی ارائه می‌دهد.

5. DeepPavlov (برای زبان فارسی):
   این کتابخانه معروف از مدل‌های مبتنی بر یادگیری عمیق استفاده می‌کند و برای زبان فارسی نیز مدل‌های از پیش آموزش‌داده‌شده دارد.

6. Stanza:
   کتابخانه‌ای چندزبانه برای پردازش زبان طبیعی که مدل‌های از پیش آموزش‌داده‌شده برای زبان فارسی را شامل می‌شود و قابلیت‌هایی مانند برچسب‌گذاری بخش‌های کلام، تجزیه نحوی و تحلیل موجودیت‌های نام‌دار را ارائه می‌دهد.

این ابزارها می‌توانند به‌صورت کارآمدی در پروژه‌های مرتبط با پردازش زبان فارسی به کار گرفته شوند.

#هوش_مصنوعی
@ComputationalLinguisticsNLP
👀@NLPenthusaist
🌟 مبحث مهم دیگر بعد از توکن سازی و لماسازی، مبحث 𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴‌ ها در پردازش زبان طبیعی (NLP) یا زبانشناسی رایانشی(CL) است. در این پست به زبانی ساده این مبحث مطرح می شود:

از آنجا که ماشین زبان طبیعی رو متوجه نمیشه، پس باید چیکار کنیم؟ 🧐

🌟راه حل:
امبدینگ‌ها بخش مهمی از پردازش زبان طبیعی (NLP) هستند. اون‌ها متن رو به اعداد تبدیل می‌کنند تا بتونیم با مدل‌های هوش مصنوعی، معانی و ارتباط بین کلمات رو بهتر درک کنیم و پردازش کنیم. این اعداد به مدل‌های زبان بزرگ (LLM) مثل BERT و GPT داده می‌شن تا متن جدیدی تولید یا پردازش بشه.

بعد از توکن سازی و لماسازی که در پست های قبلی بهشون اشاره کردم، نوبت به امبدینگ یا بردارسازی کلمات می رسد.👇


🔢 𝗩𝗲𝗰𝘁𝗼𝗿𝗶𝘇𝗮𝘁𝗶𝗼𝗻 & 𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴𝘀

حالا که توکن‌ها آماده‌ان، باید اون‌ها رو به عدد تبدیل کنیم. روش‌های ساده‌ای مثل "کدگذاری یک‌داغ" (one-hot) وجود داره، ولی این روش‌ها نمی‌تونن ارتباطات پیچیده رو خوب نشون بدن. اما امبدینگ‌ها توکن‌ها رو به یک فضای عددی متراکم و پیوسته نگاشت می‌کنن که می‌تونه هم روابط معنایی و هم نحوی رو درک کنه.

بذار یه مثال بزنم:

در فضای سه‌بعدی (ویژگی‌های بال‌ها، آسمان، موتور):

در واقع "Drone" و "Helicopter" به هم نزدیکن چون هر دو موتور دارن و در آسمان هستن.
- ولی "goose" و "rocket" فاصله بیشتری دارن، چون فقط ویژگی "آسمان" رو مشترک دارن.

تا همین چند سال پیش، مدل‌هایی مثل 𝗪𝗼𝗿𝗱𝟮𝗩𝗲𝗰 و 𝗚𝗹𝗼𝗩𝗲 برای آموزش اولیه امبدینگ‌ها استفاده می‌شدن. اما حالا مدل‌هایی مثل 𝗕𝗘𝗥𝗧 و LLM‌های جدید مثل 𝗔𝗱𝗮 یا 𝗠𝗶𝘀𝘁𝗿𝗮𝗹 رو داریم که خیلی پیشرفته‌تر عمل می‌کنن.

خب الان متوجه اهمیت مبحث Embedding شدین؟ 😊

#هوش_مصنوعی
@ComputationalLinguisticsNLP
@NLPenthusiast
از جمله تسک ها یا وظایفی که در زبانشناسی رایانشی مرسوم است:
۱. ترجمه ماشینی: برگرداندن متن ها از یک زبان به زبان دیگر
۲. تشخیص موجودیت نامدار: تشخیص و طبقه بندی موجودیت ها مانند اسم ها، تواریخ، محل ها، نام سازمان ها در متن
۳. تحلیل احساسات: تشخیص احساسات بیان شده در یک متن
۴. طبقه بندی متن: تعیین کردن طبقه یا برچسب به متنی بر اساس محتوای آن
۵. خلاصه سازی متن: خلاصه کردن متن های طولانی
۶. مدلسازی موضوع: کشف موضوعات انتزاعی در مجموعه ای از مدارک یا داده ها

@ComputationalLinguisticsNLP
@NLPenthusiast
دوره AI Python برای مبتدیان توسط آندرو برای یک مدت محدود
Media is too big
VIEW IN TELEGRAM
ریاضیات هوش مصنوعی، مدرس دکتر بهروز نصیحت کن مدرس دانشگاه خواجه نصیر طوسی🌸🌸
پر از نکات مهم❄️
#ریاضیات #هوش_مصنوعی #آمار
@ComputationallinguisticsNLP
This media is not supported in your browser
VIEW IN TELEGRAM
این هوش مصنوعی بهش توضیحات پروژه رو میدین براتون اونو میسازه، و می‌تونید همونجا رانش کنید :


llamacoder.together.ai


@ComputationallinguisticsNLP
🛑 به اطلاع کلیه علاقمندان شرکت در هفتمين همایش ملی زبان‌شناسی رایانشی می‌رساند به دلیل تداخل برنامه‌ها، زمان برگزاری همایش زبان‌شناسی رایانشی از ۳ آبان به چهارشنبه‌ ۹ آبان موکول شده است. برنامه سخنرانی های هفتمین همایش ملی زبان‌شناسی رایانشی و فایل ثبتنام اطلاع رسانی گردیده است.

زمان: چهارشنبه ۹ آبان ۱۴۰۳
مکان: پژوهشگاه علوم انسانی و مطالعات فرهنگی
نشانی: تهران، بزرگراه کردستان، خیابان ۶۴ غربی (آیینه وند)، سالن حکمت طبقه منفی یک

🛑 امکان شرکت در همایش بصورت مجازی نیز از طریق این لینک میسر گردیده است:
https://webinar.ihcs.ac.ir/rooms/jeg-lxe-6l5-tro/join
🛑 جهت اطلاع از نجوه ثبتنام، کانال انجمن زبانشناسی ایران و در صورت تمایل گروه تعاملی رایانه و زبان را دنبال نمایید:
https://www.tgoop.com/Comp_Linguistics
https://www.tgoop.com/lsiinfo
4_5846047709353481568 (1).pdf
1.5 MB
اسلایدهای سخنرانی مقاله «حافظ مدل زبانی پیشرفته فارسی برای تحلیل و پردازش متون علوم انسانی» نویسندگان: امین رحمانی، منصور حیدزاده، امید ابراهیم خانی،امیر مسعود ایروانی، سید محمدرضا سجادی، نیما استخری، و عبدالله مشیری
(با کسب اجازه از آقای مهندس رحمانی)
#همایش #زبانشناسی #رایانشی
@ComputationalLinguisticsNLP
This media is not supported in your browser
VIEW IN TELEGRAM
✍️✍️✍️نحوه اجرای کد پایتون از صفر تا 100

1️⃣ 𝗪𝗿𝗶𝘁𝗶𝗻𝗴 𝘁𝗵𝗲 𝗖𝗼𝗱𝗲:
تایپ کد پایتون در متن ویرایشگر و ذخیره فایل با پسوند '.py'
2️⃣ 𝗣𝘆𝘁𝗵𝗼𝗻 𝗜𝗻𝘁𝗲𝗿𝗽𝗿𝗲𝘁𝗲𝗿:
اجرای برنامه پایتون وارسال آن به دو بخش ذیل:
𝗖𝗼𝗺𝗽𝗶𝗹𝗲𝗿:
این کد بایت در یک فایل '.pyc' ذخیره می شود و به برنامه ما کمک می کند دفعه بعد سریعتر اجرا شود.
𝗣𝘆𝘁𝗵𝗼𝗻 𝗩𝗶𝗿𝘁𝘂𝗮𝗹 𝗠𝗮:
وقتی با خطا مواجه می شود.

3️⃣ 𝗟𝗶𝗯𝗿𝗮𝗿𝘆 𝗠𝗼𝗱𝘂𝗹𝗲𝘀:
اگر برنامه ما از ماژول های کتابخانه ای استاندارد پایتون یا جای دیگر استفاده می کند، این ماژول ها نیز به کد بایت تبدیل می شوند. سپس PVM اجازه می دهد تا از ویژگی های این ماژول ها استفاده کند.

4️⃣ 𝗙𝗿𝗼𝗺 𝗕𝘆𝘁𝗲 𝗖𝗼𝗱𝗲 𝘁𝗼 𝗠𝗮𝗰𝗵𝗶𝗻𝗱𝗲
کد بایت به کد ماشین، که یک سری از 1 و 0 است ، تبدیل می شود. این کد ماشین همان چیزی است که مغز کامپیوتر شما، CPU، مستقیماً می تواند آن را بفهمد.

5️⃣ 𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝘁𝗵𝗲 𝗣𝗿𝗼𝗴𝗿𝗮𝗺:
پس از آماده شدن کد ماشین، کامپیوتر شما از آن برای اجرای برنامه شما استفاده می کند. و شما آن را دارید! برنامه پایتون شما در حال اجراست.
@ComputationallinguisticsNLP
افزونه رسمی ChatGPT به طرز عجیبی خوب و قویه، امتحانش کنید

https://chromewebstore.google.com/detail/chatgpt-search/ejcfepkfckglbgocfkanmcdngdijcgld

به جای شما سرچ می‌کنه و نتایج رو تحلیل می‌کنه مقایسه می‌کنه نتایج مختلف رو ، جدول می‌کشه روی نقشه مرتب می‌کنه و مشاوره میده! کارهای یه هفته تون رو تو یه روز انجام میده

با این افزونه می‌تونید موتور جستجوی پیش‌فرض مرورگرتون رو به ChatGPT تغییر بدید و خیلی بهتر و‌ راحتتر جواب سرچ هاتونو بگیرید :)

برای استفاده ازش کافیه قبل از عبارت جستجوتون "!g" بذارید 🔍

توجه: اگر نذارید مستقیما میره توی سایت chatgpt و جوابتونو میده
@ComputationallinguisiticsNLP
Media is too big
VIEW IN TELEGRAM
سخنرانی آقای امین رحمانی در هفتمین همایش ملی زبانشناسی رایانشی
#همایش #زبانشناسی_رایانشی
@ComputationallinguisticsNLP
2025/07/08 01:17:43
Back to Top
HTML Embed Code: