Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
132 - Telegram Web
Telegram Web
## 🧠 توکنایزر (Tokenizer) چیست؟ + مثال با پایتون 🇮🇷🐍

یکی از مفاهیم پایه در NLP یا «پردازش زبان طبیعی»، توکنایزر هست. ولی توکنایزر دقیقاً چیه؟ بیاین ساده و کاربردی یاد بگیریم👇

---

### 📌 توکنایزر یعنی چی؟

توکنایزر متنی مثل جمله یا پاراگراف رو به بخش‌های کوچکتر به نام توکن تقسیم می‌کنه.
این توکن‌ها می‌تونن کلمه، زیرکلمه یا حتی کاراکتر باشن.

مثلاً:

"امروز هوا خوب است."  
→ ["امروز", "هوا", "خوب", "است", "."]

---

### 🔍 انواع توکنایزر:

1️⃣ ساده بر پایه فاصله
2️⃣ قانون‌محور (Rule-based)
3️⃣ زیرکلمه‌ای (مثل BERT و GPT)
4️⃣ کاراکتری (برای زبان‌های خاص مثل چینی)

---

### 🧪 مثال با پایتون:

#### ۱. روش ساده:

text = "امروز هوا خوب است."
print(text.split())

🔸 خروجی:

['امروز', 'هوا', 'خوب', 'است.']

🔻 مشکل: نقطه هنوز کنار «است» هست.

---

#### ۲. روش حرفه‌ای با hazm (ویژه فارسی):

pip install hazm

```python
from hazm import word_tokenize
text = "امروز هوا خوب است."
print(word_tokenize(text))

🔸 خروجی:

['امروز', 'هوا', 'خوب', 'است', '.']

---

#### ۳. مدل‌های مدرن (زیرکلمه‌ای – BERT):

bash
pip install transformers


python
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
text = "ماشین‌ها در خیابان حرکت می‌کنند."
print(tokenizer.tokenize(text))

🔸 خروجی:

['ماشین', '##ها', 'در', 'خیابان', 'حرکت', 'می', '##کنند', '.']
`

---

### 🎯 جمع‌بندی:

توکنایزر پایه‌ی شروع هر پروژه NLP هست.
با انتخاب درست توکنایزر، کیفیت تحلیل زبانی‌ت رو چند برابر کن. 😎
@computationallinguisticsNLP
3👍1
2025/07/13 11:56:58
Back to Top
HTML Embed Code: