tgoop.com/ComputationallinguisticsNLP/133
Create:
Last Update:
Last Update:
## 🧠 توکنایزر (Tokenizer) چیست؟ + مثال با پایتون 🇮🇷🐍
یکی از مفاهیم پایه در NLP یا «پردازش زبان طبیعی»، توکنایزر هست. ولی توکنایزر دقیقاً چیه؟ بیاین ساده و کاربردی یاد بگیریم👇
---
### 📌 توکنایزر یعنی چی؟
توکنایزر متنی مثل جمله یا پاراگراف رو به بخشهای کوچکتر به نام توکن تقسیم میکنه.
این توکنها میتونن کلمه، زیرکلمه یا حتی کاراکتر باشن.
مثلاً:
"امروز هوا خوب است."
→ ["امروز", "هوا", "خوب", "است", "."]
---
### 🔍 انواع توکنایزر:
1️⃣ ساده بر پایه فاصله
2️⃣ قانونمحور (Rule-based)
3️⃣ زیرکلمهای (مثل BERT و GPT)
4️⃣ کاراکتری (برای زبانهای خاص مثل چینی)
---
### 🧪 مثال با پایتون:
#### ✅ ۱. روش ساده:
text = "امروز هوا خوب است."
print(text.split())
🔸 خروجی:
['امروز', 'هوا', 'خوب', 'است.']
🔻 مشکل: نقطه هنوز کنار «است» هست.
---
#### ✅ ۲. روش حرفهای با hazm (ویژه فارسی):
pip install hazm
```python
from hazm import word_tokenize
text = "امروز هوا خوب است."
print(word_tokenize(text))
🔸 خروجی:
['امروز', 'هوا', 'خوب', 'است', '.']
---
#### ✅ ۳. مدلهای مدرن (زیرکلمهای – BERT):
bash
pip install transformers
python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
text = "ماشینها در خیابان حرکت میکنند."
print(tokenizer.tokenize(text))
🔸 خروجی:
['ماشین', '##ها', 'در', 'خیابان', 'حرکت', 'می', '##کنند', '.']
`
---
### 🎯 جمعبندی:
توکنایزر پایهی شروع هر پروژه NLP هست.
با انتخاب درست توکنایزر، کیفیت تحلیل زبانیت رو چند برابر کن. 😎
@computationallinguisticsNLP
BY CL & NLP Enthusiasts
Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/133