Анализ данных (Data analysis)@data_analysis

Анализ данных (Data analysis)

🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

🔍 Что умеет Tokasaurus:

• ✂️ Разбивает текст на токены для языковых моделей
• 🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
• 🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
• ⚡ Очень быстрый — написан на Rust с Python-обёрткой
• 📦 Используется как CLI, Python-библиотека или Web API

pip install tokasaurus

🧪 Пример использования (Python):


from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)

🎯 Кому подойдёт:

• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты

🔗 GitHub: github.com/ScalingIntelligence/tokasaurus

💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.

@data_analysis_ml

www.tgoop.com/data_analysis_ml/3639

4.0K viewsJun 8 at 09:08

tgoop.com/data_analysis_ml/3639

Create: 2025-06-08
Last Update: 2025-06-14 07:09:27


from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)

BY Анализ данных (Data analysis)

Share with your friend now:
tgoop.com/data_analysis_ml/3639

Telegram News

🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков