DATA_ANALYSIS_ML Telegram 3639
🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

🔍 Что умеет Tokasaurus:

✂️ Разбивает текст на токены для языковых моделей
🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
Очень быстрый — написан на Rust с Python-обёрткой
📦 Используется как CLI, Python-библиотека или Web API


pip install tokasaurus

🧪 Пример использования (Python):

from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)


🎯 Кому подойдёт:

• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты

🔗 GitHub: github.com/ScalingIntelligence/tokasaurus

💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.

@data_analysis_ml



tgoop.com/data_analysis_ml/3639
Create:
Last Update:

🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

🔍 Что умеет Tokasaurus:

✂️ Разбивает текст на токены для языковых моделей
🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
Очень быстрый — написан на Rust с Python-обёрткой
📦 Используется как CLI, Python-библиотека или Web API


pip install tokasaurus

🧪 Пример использования (Python):


from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)


🎯 Кому подойдёт:

• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты

🔗 GitHub: github.com/ScalingIntelligence/tokasaurus

💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.

@data_analysis_ml

BY Анализ данных (Data analysis)




Share with your friend now:
tgoop.com/data_analysis_ml/3639

View MORE
Open in Telegram


Telegram News

Date: |

Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. A vandalised bank during the 2019 protest. File photo: May James/HKFP. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021.
from us


Telegram Анализ данных (Data analysis)
FROM American