COMPUTATIONALLINGUISTICSNLP Telegram 133
## 🧠 توکنایزر (Tokenizer) چیست؟ + مثال با پایتون 🇮🇷🐍

یکی از مفاهیم پایه در NLP یا «پردازش زبان طبیعی»، توکنایزر هست. ولی توکنایزر دقیقاً چیه؟ بیاین ساده و کاربردی یاد بگیریم👇

---

### 📌 توکنایزر یعنی چی؟

توکنایزر متنی مثل جمله یا پاراگراف رو به بخش‌های کوچکتر به نام توکن تقسیم می‌کنه.
این توکن‌ها می‌تونن کلمه، زیرکلمه یا حتی کاراکتر باشن.

مثلاً:

"امروز هوا خوب است."  
→ ["امروز", "هوا", "خوب", "است", "."]

---

### 🔍 انواع توکنایزر:

1️⃣ ساده بر پایه فاصله
2️⃣ قانون‌محور (Rule-based)
3️⃣ زیرکلمه‌ای (مثل BERT و GPT)
4️⃣ کاراکتری (برای زبان‌های خاص مثل چینی)

---

### 🧪 مثال با پایتون:

#### ۱. روش ساده:

text = "امروز هوا خوب است."
print(text.split())

🔸 خروجی:

['امروز', 'هوا', 'خوب', 'است.']

🔻 مشکل: نقطه هنوز کنار «است» هست.

---

#### ۲. روش حرفه‌ای با hazm (ویژه فارسی):

pip install hazm

```python
from hazm import word_tokenize
text = "امروز هوا خوب است."
print(word_tokenize(text))

🔸 خروجی:

['امروز', 'هوا', 'خوب', 'است', '.']

---

#### ۳. مدل‌های مدرن (زیرکلمه‌ای – BERT):

bash
pip install transformers


python
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
text = "ماشین‌ها در خیابان حرکت می‌کنند."
print(tokenizer.tokenize(text))

🔸 خروجی:

['ماشین', '##ها', 'در', 'خیابان', 'حرکت', 'می', '##کنند', '.']
`

---

### 🎯 جمع‌بندی:

توکنایزر پایه‌ی شروع هر پروژه NLP هست.
با انتخاب درست توکنایزر، کیفیت تحلیل زبانی‌ت رو چند برابر کن. 😎
@computationallinguisticsNLP



tgoop.com/ComputationallinguisticsNLP/133
Create:
Last Update:

## 🧠 توکنایزر (Tokenizer) چیست؟ + مثال با پایتون 🇮🇷🐍

یکی از مفاهیم پایه در NLP یا «پردازش زبان طبیعی»، توکنایزر هست. ولی توکنایزر دقیقاً چیه؟ بیاین ساده و کاربردی یاد بگیریم👇

---

### 📌 توکنایزر یعنی چی؟

توکنایزر متنی مثل جمله یا پاراگراف رو به بخش‌های کوچکتر به نام توکن تقسیم می‌کنه.
این توکن‌ها می‌تونن کلمه، زیرکلمه یا حتی کاراکتر باشن.

مثلاً:

"امروز هوا خوب است."  
→ ["امروز", "هوا", "خوب", "است", "."]

---

### 🔍 انواع توکنایزر:

1️⃣ ساده بر پایه فاصله
2️⃣ قانون‌محور (Rule-based)
3️⃣ زیرکلمه‌ای (مثل BERT و GPT)
4️⃣ کاراکتری (برای زبان‌های خاص مثل چینی)

---

### 🧪 مثال با پایتون:

#### ۱. روش ساده:

text = "امروز هوا خوب است."
print(text.split())

🔸 خروجی:

['امروز', 'هوا', 'خوب', 'است.']

🔻 مشکل: نقطه هنوز کنار «است» هست.

---

#### ۲. روش حرفه‌ای با hazm (ویژه فارسی):

pip install hazm

```python
from hazm import word_tokenize
text = "امروز هوا خوب است."
print(word_tokenize(text))

🔸 خروجی:

['امروز', 'هوا', 'خوب', 'است', '.']

---

#### ۳. مدل‌های مدرن (زیرکلمه‌ای – BERT):

bash
pip install transformers


python
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
text = "ماشین‌ها در خیابان حرکت می‌کنند."
print(tokenizer.tokenize(text))

🔸 خروجی:

['ماشین', '##ها', 'در', 'خیابان', 'حرکت', 'می', '##کنند', '.']
`

---

### 🎯 جمع‌بندی:

توکنایزر پایه‌ی شروع هر پروژه NLP هست.
با انتخاب درست توکنایزر، کیفیت تحلیل زبانی‌ت رو چند برابر کن. 😎
@computationallinguisticsNLP

BY CL & NLP Enthusiasts


Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/133

View MORE
Open in Telegram


Telegram News

Date: |

Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. Select “New Channel” The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. To edit your name or bio, click the Menu icon and select “Manage Channel.”
from us


Telegram CL & NLP Enthusiasts
FROM American