tgoop.com/pytorch_howsam/371
Last Update:
چطوری میتونم یک متن رو در پایتورچ توکنایز کنم؟ 🤔
ساده هست؛ بیایید مرحله به مرحله پیش بریم...
✅ اول، ایمپورت get_tokenizer از لایبرری تورچتکست:
from torchtext.data.utils import get_tokenizer
✅ دوم، کانفیگ کردن تابع get_tokenizer؛ یعنی با دستور زیر بگیم که چه نوع توکنایزری میخواییم. مثلا، ما از توکنایزر آماده پایتورچ برای انگلیسی استفاده کردیم:
tokenizer = get_tokenizer('basic_english')
✅ سوم، یک جمله بنویسیم. جمله زیر معنی خاصی نداره. یک جمله ناقص از دیتاست ag_news هست. پرانتز داره میخواییم ببینیم توکنایزر با پرانتزها چیکار میکنه:
line = "Carlyle Looks Toward Commercial Aerospace (Reuters) Reuters"
✅ چهارم، توکنایزر لطفا توکنایز کن:
tokens = tokenizer(line)
print(tokens)
✅ این هم نتیجه:
['carlyle', 'looks', 'toward', 'commercial', 'aerospace', '(', 'reuters', ')', 'reuters']
⭕️ انصافا ساده بود، نه؟
برگرفته از دوره جدید آموزش پایتورچ هوسم 😎
@pytorch_howsam
BY PyTorch Howsam
Share with your friend now:
tgoop.com/pytorch_howsam/371