DSPROGLIB Telegram 6625
💭 Почему LLM работают с токенами, а не словами

Большие языковые модели (LLM) не читают текст так, как мы — они видят токены. Это не совсем слова и не просто символы. Зачем вообще нужен токенизация и почему слова — не лучший вариант? Рассказываем.

🔎 Почему не просто слова

Слова — неудобны: их много, они часто пишутся с ошибками, в разных языках — разные формы.
Если модель не видела слово раньше, она теряется.
Слова вроде running, runs, runner — все о разном, хотя корень один. Слово как единица — слишком «грубая».

🔎 Первые решения

До LLM токенизацией занимались FastText и char embeddings:
— FastText разбивал слова на подстроки (например, unhappinessun, happi, ness) и пытался понять смысл по кусочкам.
— Character embeddings брали каждый символ как токен. Работает для опечаток, но плохо понимает смысл (dockduck? Нет же).

🔎 Взлет LLM: умная токенизация

Современные LLM (GPT, Claude и др.) используют Byte-Pair Encoding (BPE):
— Начинаем с символов, потом часто встречающиеся пары объединяем.
— Пример: loweringlow, er, ing
— Получаем разумные токены, экономим память и длину последовательностей.

🔎 Новые подходы

— Byte-level токенизация: работает напрямую с байтами (даже с эмодзи и редкими символами).
— Морфемная токенизация: разбивает слова по смысловым единицам (misunderstandingmis, understand, ing). Хорошо для языков со сложной грамматикой, но требует знаний языка.

🔎 Что дальше: токены уходят

На горизонте — Large Concept Models (LCM):
Они строят представление сразу на уровне фраз или предложений, а не отдельных токенов:
— Больше смысла, меньше ошибок
— Лучшая многозадачность и кросс-языковое понимание
— Меньше параметров = ниже стоимость

📌 Если вам интересны детали токенизации, статья обязательно к прочтению: https://clc.to/6bmuZA

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/dsproglib/6625
Create:
Last Update:

💭 Почему LLM работают с токенами, а не словами

Большие языковые модели (LLM) не читают текст так, как мы — они видят токены. Это не совсем слова и не просто символы. Зачем вообще нужен токенизация и почему слова — не лучший вариант? Рассказываем.

🔎 Почему не просто слова

Слова — неудобны: их много, они часто пишутся с ошибками, в разных языках — разные формы.
Если модель не видела слово раньше, она теряется.
Слова вроде running, runs, runner — все о разном, хотя корень один. Слово как единица — слишком «грубая».

🔎 Первые решения

До LLM токенизацией занимались FastText и char embeddings:
— FastText разбивал слова на подстроки (например, unhappinessun, happi, ness) и пытался понять смысл по кусочкам.
— Character embeddings брали каждый символ как токен. Работает для опечаток, но плохо понимает смысл (dockduck? Нет же).

🔎 Взлет LLM: умная токенизация

Современные LLM (GPT, Claude и др.) используют Byte-Pair Encoding (BPE):
— Начинаем с символов, потом часто встречающиеся пары объединяем.
— Пример: loweringlow, er, ing
— Получаем разумные токены, экономим память и длину последовательностей.

🔎 Новые подходы

— Byte-level токенизация: работает напрямую с байтами (даже с эмодзи и редкими символами).
— Морфемная токенизация: разбивает слова по смысловым единицам (misunderstandingmis, understand, ing). Хорошо для языков со сложной грамматикой, но требует знаний языка.

🔎 Что дальше: токены уходят

На горизонте — Large Concept Models (LCM):
Они строят представление сразу на уровне фраз или предложений, а не отдельных токенов:
— Больше смысла, меньше ошибок
— Лучшая многозадачность и кросс-языковое понимание
— Меньше параметров = ниже стоимость

📌 Если вам интересны детали токенизации, статья обязательно к прочтению: https://clc.to/6bmuZA

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tgoop.com/dsproglib/6625

View MORE
Open in Telegram


Telegram News

Date: |

The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. Users are more open to new information on workdays rather than weekends. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020.
from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American