tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
Большие языковые модели (LLM) не читают текст так, как мы — они видят токены. Это не совсем слова и не просто символы. Зачем вообще нужен токенизация и почему слова — не лучший вариант? Рассказываем.
Слова — неудобны: их много, они часто пишутся с ошибками, в разных языках — разные формы.
Если модель не видела слово раньше, она теряется.
Слова вроде
running
, runs
, runner
— все о разном, хотя корень один. Слово как единица — слишком «грубая».До LLM токенизацией занимались FastText и char embeddings:
— FastText разбивал слова на подстроки (например,
unhappiness
→ un
, happi
, ness
) и пытался понять смысл по кусочкам.— Character embeddings брали каждый символ как токен. Работает для опечаток, но плохо понимает смысл (
dock
≈ duck
? Нет же).Современные LLM (GPT, Claude и др.) используют Byte-Pair Encoding (BPE):
— Начинаем с символов, потом часто встречающиеся пары объединяем.
— Пример:
lowering
→ low
, er
, ing
— Получаем разумные токены, экономим память и длину последовательностей.
— Byte-level токенизация: работает напрямую с байтами (даже с эмодзи и редкими символами).
— Морфемная токенизация: разбивает слова по смысловым единицам (
misunderstanding
→ mis
, understand
, ing
). Хорошо для языков со сложной грамматикой, но требует знаний языка.На горизонте — Large Concept Models (LCM):
Они строят представление сразу на уровне фраз или предложений, а не отдельных токенов:
— Больше смысла, меньше ошибок
— Лучшая многозадачность и кросс-языковое понимание
— Меньше параметров = ниже стоимость
📌 Если вам интересны детали токенизации, статья обязательно к прочтению: https://clc.to/6bmuZA
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Сегодня стартует курс по AI-агентам!
Онбординг уже сегодня, но ещё можно вписаться — ПОСЛЕДНИЙ ШАНС это сделать.
Мы больше года собирали мультиагентные системы: экспериментировали, переделывали и в итоге — оформили всё в 5 плотных вебинаров.
😤 «А можно ли вообще научиться чему-то за 5 вебинаров?!»
Если вы хотите просто послушать — нет
Если хотите разбираться и делать — да
➡️ На курсе:
— мы не читаем слайдики, а работаем в коде в реальном времени
— можно задавать вопросы прямо на вебинаре
— после каждого вебинара есть домашка и поддержка в чате
И главное — вы получаете системное понимание, а не набор хаотичных туториалов.
⚡️Если вы думаете, что успеете потом — не успеете.
Старт сегодня:
— а те, кто вписался сейчас, будут вас опережать — в проектах, на грейде и в зарплате
Знакомьтесь, эксперт нашего курса:
Никита Зелинский — Chief Data Scientist МТС, Head of ML Platforms, руководитель центра компетенций по Data Science.
❗Стартуем сегодня — забронируй свое место
Онбординг уже сегодня, но ещё можно вписаться — ПОСЛЕДНИЙ ШАНС это сделать.
Мы больше года собирали мультиагентные системы: экспериментировали, переделывали и в итоге — оформили всё в 5 плотных вебинаров.
😤 «А можно ли вообще научиться чему-то за 5 вебинаров?!»
Если вы хотите просто послушать — нет
Если хотите разбираться и делать — да
➡️ На курсе:
— мы не читаем слайдики, а работаем в коде в реальном времени
— можно задавать вопросы прямо на вебинаре
— после каждого вебинара есть домашка и поддержка в чате
И главное — вы получаете системное понимание, а не набор хаотичных туториалов.
⚡️Если вы думаете, что успеете потом — не успеете.
Старт сегодня:
— а те, кто вписался сейчас, будут вас опережать — в проектах, на грейде и в зарплате
Знакомьтесь, эксперт нашего курса:
Никита Зелинский — Chief Data Scientist МТС, Head of ML Platforms, руководитель центра компетенций по Data Science.
❗Стартуем сегодня — забронируй свое место
🧠 Генеративные модели: будущее науки или оружие дезинформации
Сегодня генеративные нейросети умеют создавать тексты, изображения, аудио и видео, практически неотличимые от реальных. GPT, DALL·E, Sora, StyleGAN — эти технологии открывают перед человечеством огромные научные перспективы… но вместе с ними и новые риски.
Возможности:
✅ Автоматизация научных открытий
✅ Генерация синтетических данных для обучения моделей
✅ Помощь в программировании, анализе текстов и данных
✅ Поиск и формулировка научных гипотез
✅ Разработка лекарств и новых материалов
Угрозы:
➡️ Deepfake-контент и фейковые аудиозаписи
➡️ Генерация недостоверной информации и псевдонауки
➡️ Снижение доверия к подлинным источникам
➡️ Отсутствие прозрачности в происхождении данных
➡️ Этические и правовые вызовы
Что делать
Важно развивать не только технологии, но и инфраструктуру доверия: цифровую маркировку контента, прозрачные модели, фильтрацию, этические рамки.
Возможно, будущее потребует и нового уровня цифровой грамотности и критического мышления.
📣 А как Вы считаете: генеративный ИИ — это инструмент прогресса или угроза для общества?
❤️ — Безусловно, инструмент прогресса
👍 — Скорее угроза, чем польза
Библиотека дата-сайентиста #междусобойчик
Сегодня генеративные нейросети умеют создавать тексты, изображения, аудио и видео, практически неотличимые от реальных. GPT, DALL·E, Sora, StyleGAN — эти технологии открывают перед человечеством огромные научные перспективы… но вместе с ними и новые риски.
Возможности:
Угрозы:
Что делать
Важно развивать не только технологии, но и инфраструктуру доверия: цифровую маркировку контента, прозрачные модели, фильтрацию, этические рамки.
Возможно, будущее потребует и нового уровня цифровой грамотности и критического мышления.
📣 А как Вы считаете: генеративный ИИ — это инструмент прогресса или угроза для общества?
❤️ — Безусловно, инструмент прогресса
👍 — Скорее угроза, чем польза
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM