Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/ComputationallinguisticsNLP/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
CL & NLP Enthusiasts@ComputationallinguisticsNLP P.29
COMPUTATIONALLINGUISTICSNLP Telegram 29
🌟 مبحث مهم دیگر بعد از توکن سازی و لماسازی، مبحث 𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴‌ ها در پردازش زبان طبیعی (NLP) یا زبانشناسی رایانشی(CL) است. در این پست به زبانی ساده این مبحث مطرح می شود:

از آنجا که ماشین زبان طبیعی رو متوجه نمیشه، پس باید چیکار کنیم؟ 🧐

🌟راه حل:
امبدینگ‌ها بخش مهمی از پردازش زبان طبیعی (NLP) هستند. اون‌ها متن رو به اعداد تبدیل می‌کنند تا بتونیم با مدل‌های هوش مصنوعی، معانی و ارتباط بین کلمات رو بهتر درک کنیم و پردازش کنیم. این اعداد به مدل‌های زبان بزرگ (LLM) مثل BERT و GPT داده می‌شن تا متن جدیدی تولید یا پردازش بشه.

بعد از توکن سازی و لماسازی که در پست های قبلی بهشون اشاره کردم، نوبت به امبدینگ یا بردارسازی کلمات می رسد.👇


🔢 𝗩𝗲𝗰𝘁𝗼𝗿𝗶𝘇𝗮𝘁𝗶𝗼𝗻 & 𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴𝘀

حالا که توکن‌ها آماده‌ان، باید اون‌ها رو به عدد تبدیل کنیم. روش‌های ساده‌ای مثل "کدگذاری یک‌داغ" (one-hot) وجود داره، ولی این روش‌ها نمی‌تونن ارتباطات پیچیده رو خوب نشون بدن. اما امبدینگ‌ها توکن‌ها رو به یک فضای عددی متراکم و پیوسته نگاشت می‌کنن که می‌تونه هم روابط معنایی و هم نحوی رو درک کنه.

بذار یه مثال بزنم:

در فضای سه‌بعدی (ویژگی‌های بال‌ها، آسمان، موتور):

در واقع "Drone" و "Helicopter" به هم نزدیکن چون هر دو موتور دارن و در آسمان هستن.
- ولی "goose" و "rocket" فاصله بیشتری دارن، چون فقط ویژگی "آسمان" رو مشترک دارن.

تا همین چند سال پیش، مدل‌هایی مثل 𝗪𝗼𝗿𝗱𝟮𝗩𝗲𝗰 و 𝗚𝗹𝗼𝗩𝗲 برای آموزش اولیه امبدینگ‌ها استفاده می‌شدن. اما حالا مدل‌هایی مثل 𝗕𝗘𝗥𝗧 و LLM‌های جدید مثل 𝗔𝗱𝗮 یا 𝗠𝗶𝘀𝘁𝗿𝗮𝗹 رو داریم که خیلی پیشرفته‌تر عمل می‌کنن.

خب الان متوجه اهمیت مبحث Embedding شدین؟ 😊

#هوش_مصنوعی
@ComputationalLinguisticsNLP
@NLPenthusiast
7👍1



tgoop.com/ComputationallinguisticsNLP/29
Create:
Last Update:

🌟 مبحث مهم دیگر بعد از توکن سازی و لماسازی، مبحث 𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴‌ ها در پردازش زبان طبیعی (NLP) یا زبانشناسی رایانشی(CL) است. در این پست به زبانی ساده این مبحث مطرح می شود:

از آنجا که ماشین زبان طبیعی رو متوجه نمیشه، پس باید چیکار کنیم؟ 🧐

🌟راه حل:
امبدینگ‌ها بخش مهمی از پردازش زبان طبیعی (NLP) هستند. اون‌ها متن رو به اعداد تبدیل می‌کنند تا بتونیم با مدل‌های هوش مصنوعی، معانی و ارتباط بین کلمات رو بهتر درک کنیم و پردازش کنیم. این اعداد به مدل‌های زبان بزرگ (LLM) مثل BERT و GPT داده می‌شن تا متن جدیدی تولید یا پردازش بشه.

بعد از توکن سازی و لماسازی که در پست های قبلی بهشون اشاره کردم، نوبت به امبدینگ یا بردارسازی کلمات می رسد.👇


🔢 𝗩𝗲𝗰𝘁𝗼𝗿𝗶𝘇𝗮𝘁𝗶𝗼𝗻 & 𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴𝘀

حالا که توکن‌ها آماده‌ان، باید اون‌ها رو به عدد تبدیل کنیم. روش‌های ساده‌ای مثل "کدگذاری یک‌داغ" (one-hot) وجود داره، ولی این روش‌ها نمی‌تونن ارتباطات پیچیده رو خوب نشون بدن. اما امبدینگ‌ها توکن‌ها رو به یک فضای عددی متراکم و پیوسته نگاشت می‌کنن که می‌تونه هم روابط معنایی و هم نحوی رو درک کنه.

بذار یه مثال بزنم:

در فضای سه‌بعدی (ویژگی‌های بال‌ها، آسمان، موتور):

در واقع "Drone" و "Helicopter" به هم نزدیکن چون هر دو موتور دارن و در آسمان هستن.
- ولی "goose" و "rocket" فاصله بیشتری دارن، چون فقط ویژگی "آسمان" رو مشترک دارن.

تا همین چند سال پیش، مدل‌هایی مثل 𝗪𝗼𝗿𝗱𝟮𝗩𝗲𝗰 و 𝗚𝗹𝗼𝗩𝗲 برای آموزش اولیه امبدینگ‌ها استفاده می‌شدن. اما حالا مدل‌هایی مثل 𝗕𝗘𝗥𝗧 و LLM‌های جدید مثل 𝗔𝗱𝗮 یا 𝗠𝗶𝘀𝘁𝗿𝗮𝗹 رو داریم که خیلی پیشرفته‌تر عمل می‌کنن.

خب الان متوجه اهمیت مبحث Embedding شدین؟ 😊

#هوش_مصنوعی
@ComputationalLinguisticsNLP
@NLPenthusiast

BY CL & NLP Enthusiasts


Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/29

View MORE
Open in Telegram


Telegram News

Date: |

During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. To view your bio, click the Menu icon and select “View channel info.” How to Create a Private or Public Channel on Telegram? The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture.
from us


Telegram CL & NLP Enthusiasts
FROM American