Start Career in DS

🦜RAG: Классический подход и современные улучшения [Ч.2]

📖 В прошлой статьей мы разбирали для чего нужны и какую задачу решают RAG-системы.
Сегодня мы перейдем к описанию классических подходов и как они строятся, а также поговорим про более продвинутые техники.

🔍 Базовая архитектура RAG:

❗️Пререквизит:
В своей системе RAG использует так называемые векторные представления — способ представления текста в виде вектора (точки в многомерном пространстве). Чем ближе друг к другу в этом пространстве находятся две точки, тем больше их текстовые представления похожи по смыслу. Это позволяет находить релевантные части контекста, даже если они используют другие слова или фразы.

1️⃣ Чанкинг базы знаний
Чанкинг — разбиение больших документов на маленькие части (чанки). Например, длинный текст книги можно разбить на абзацы или предложения. Таким образом, система может искать ответ в средних отрывках текста и получать более конкретные результаты без потери контекста или его избыточности. Ответы по большим или очень маленьким блокам зачастую ухудшают RAG-систему.

2️⃣ Сохранение векторов чанков в векторную БД
После этапа чанкирования необходимо векторизовать все полученные куски и сохранить их в векторную базу данных для дальнейшего семантического поиска и извлечения наиболее релевантных.

3️⃣ Получение пользовательского запроса и его векторизация
Для того, чтобы сравнивать пользовательский запрос с теми частями, которые мы сохранили в базу данных, нам также необходимо его векторизовать.

4️⃣ Отбор релевантных чанков
Здесь начинается процесс семантического поиска. В RAG-системе вектор пользовательского запроса сравнивается со всеми векторами в БД через какую-либо меру сходства. Куски, имеющие наибольшую величину сходства, передаются на следующий этап.

5️⃣ Передача найденных чанков в генеративную модель
После отбора самых релевантных чанков RAG передает их в LLM, которая генерирует ответ на все тот же пользовательский запрос, но уже с использованием полученного контекста.

🔝 Однако, такой классический подход не всегда даёт должного результата, и в таком случае стоит переходить к более продвинутым техникам и улучшениям:

- Подробная статья про Advanced RAG
- Про хитрости и улучшения RAG на ODS
- Совсем недавний подход от Anthropic по построению контекстного поиска в RAG
- Статья с набором придвинутых техник в RAG
- Серия постов на Хабре про RAG

📚 Ещё дополнительной литературы на эту тему:

- Простое и понятное объяснение RAG
Дополнительная статья про векторные БД
- Advanced RAG [ENG]
- Алгоритм BM25, который иногда используется для поиска в RAG

Обязательно ставьте лайки❤️
До скорых встреч👋🏻

❤17🔥4❤‍🔥2

6.28K views16:54

Start Career in DS

🔥 Материалы для подготовки к собеседованиям от Start Career in DS и Alfa Advanced Analytics
Добавляем в избранное!

Вместе с Telegram-каналом Центра продвинутой аналитики Альфа-Банка подготовили для вас гайд по собеседованиям для Data Scientist’ов 🔥

В подборке — советы и инсайты от экспертов, а также примеры реальных заданий, которые могут встретиться вам на интервью в Альфа-Банк и не только. Будут полезны как новичкам в DS, так и опытным специалистам!

Сохраняйте подборку и заглядывайте в канал Alfa Advanced Analytics 🙂
А в канале Start Career in DS вы сможете найти много полезных материалов для развития в Data Sceince, а также регулярные квизы с призами!

Материалы для подготовки. Сохраняйте, чтобы не потерять:

🔗 Как вспоминать базовую математику - часть 1, часть 2
🔗 Пет-проекты для начинающего Data Scientist'а - ссылка
🔗 Открытый курс по прикладной статистике от Академии Аналитиков Авито - ссылка
🔗 Deep Learning: теоретический справочник по базовым концепциям - ссылка
🔗 Классический ML – база: справочник основных алгоритмов - ссылка
🔗 Учебник Школы анализа данных — смотреть
🔗 Семестровый курс DLS — смотреть
🔗 Искусственный интеллект в финтехе — смотреть
🔗 Kaggle — смотреть
🔗 GitHub курса ML-1 в ВШЭ — смотреть

❤‍🔥35🔥12❤6👍4

13K views09:52

Start Career in DS

Привет! На связи создатель канала Рома Васильев и команда канала Start Career in DS 🙂

Мы хотим узнать о вас больше и понять какие материалы вам действительно будет интересно читать, поэтому мы подготовили для вас небольшой опрос. Опрос займет не более минуты, ждем ваших голосов и комментриев👇

❤8

4.68K views13:59

Start Career in DS

Какой у вас уровень в Data Science?

Anonymous Poll

51%

Ищу работу в DS/учусь

Другое (напишу в комментариях)

❤4

945 voters4.97K views14:00

Start Career in DS

Какой формат материалов вам сейчас наиболее интересен?

Anonymous Poll

65%

Статьи и посты на технические темы

21%

Статьи по soft-skills

23%

Интерактивные квизы и тесты

33%

Ссылки на полезные каналы

Другое (напишу в комментариях)

❤4🔥1

595 voters4.87K views14:01

Start Career in DS

На какую тематику сейчас вы бы хотели читать посты?

Anonymous Poll

46%

Классический Deep Learning

61%

Классический Machine Learning

31%

Computer Vision

59%

Математика/статистика/теорвер

Reinforcement Learning

17%

Soft-skills

39%

Инструменты для анализа данных

Другое (напишу в комментариях)

❤2👍1

687 voters5.07K views14:03

Start Career in DS

Как вы относитесь к оффлайн мероприятиям? (территориально Москва)

Anonymous Poll

38%

Да, готов участвовать!

21%

Хочу участвовать в онлайн мероприятиях

12%

Не интересны мероприятия вообще

46%

Живу в другом городе

Другое (напишу в комментариях)

❤6❤‍🔥1

652 voters5.27K views14:04

Start Career in DS

ℹ️ Всё про токенизацию и токенизаторы в языковых моделях

❕Токен - это минимальная единица текста, с которой работают современные языковые модели. В качестве токена могут выступать как полноценные слова, так и части слов, слоги или отдельные символы.
✂️ Например, в некоторых моделях слово «привет» может разбиваться на токены: [«при», «вет»].

❕Токенизация — процесс предобработки входного текста в список токенов. Обычно далее каждый токен векторизуется и весь этот массив векторов подаётся модели на вход, с чем она начинает работать.

🤯 В моделях Transformer токенизаторы обучаемы. Обучение токенизаторов не схоже с тем, как обучаются ML-модели, наоборот, это статистический процесс, который определяет, какие сочетания символов (подслов, слов) лучше всего выбрать для корпуса текста, с которым мы работаем.

🔝Современные токенизаторы можно разделить по следующим видам:

1. Byte-Pair Encoding (используется в GPT-like моделях, обучается слиянием символов из основного корпуса, выбирая пары по наибольшей частоте встречаемости, подробно про алгоритм и реализацию кода обучения читайте тут)
2. WordPiece (используется преимущественно в BERT-like моделях, также обучается слиянием, но используется не частота встречаемости, а более универсальная формула, также подробно читайте про реализацию и формулу тут)
3. Unigram (не так применим, однако, для полноты картины читайте о нем тут)

❗️Почему это важно:

1️⃣ Фертильность (мера, показывающая среднее количество токенов на одно слово после токенизации предложения):
Напрямую влияет на стоимость использования любой модели: больше токенов после токенизации предложения -> больше входная последовательность в LLM -> больше стоимость.

2️⃣ Качество работы:
Правильно токенизированная последовательность также сильно влияет на качество модели из-за появления символов, которых модель не видела или из-за особенностей некоторых языков, где нет, например, пробелов.
Очень грамотно и подробно этот нюанс описан тут.

3️⃣ Скорость работы:
Следствие из первого пункта: чем больше последовательность токенов, тем больше вычислений стоит делать, что также влияет на скорость ответа модели.

🔥 Дополнительная информация по теме:

- Краткий обзор токенизаторов на Хабре
- О токенизаторах с NLP-курса на Hugging Face
- «Насколько хорош Ваш Токенайзер» - статья на arxiv [ENG]
- Статья на английском для начинающих о токенах в LLM [ENG]

Теперь вы знаете, как работают токенизаторы🔥
Ждём ваших лайков и обратной связи❤️
До встречи👋🏻

🔥32❤9❤‍🔥7👍4

7K views15:33

Start Career in DS

▶️ Продолжение серии видео от 3Blue1Brown про нейронные сети!

Ранее мы уже писали про серию их постов, переведённую на русский язык, там были видео про работу нейронных сетей в целом, градиентный спуск и обратное распространение ошибки.

Ребята в комментариях дополнили, что у 3B1B на английском есть ещё 3 видео!
Дополняем свою подборку ими. Кроме того, у этих видео есть весьма качественный русский дубляж 🙂

[ENG + RUS] Transformers (how LLMs work) explained visually | DL5
Объясняет что происходит внутри трансформера в начале и в конце обучения. Показывает геометрическое представаление эмбеддинга слов в многомерном пространстве

[ENG + RUS] Attention in transformers, visually explained | DL6
Иллюстрация работы механизмов внимания на примере простого предложения. Показывает взаимодействие эмбеддингов слов в предложении между собой и разницу между self-attention и cross-attention

[ENG + RUS] How might LLMs store facts | DL7
Как устроены многослойные перцептроны. Понятная иллюстрация того, как модель сохраняет факты

Ждём ваших ❤️ и 🔥!

❤24🔥10👍1

7.11K views16:55

Start Career in DS

🥷🏻 ML-System Design: справочник материалов для подготовки

❗️ML System Design - один из важнейших этапов на собеседовании в топовую компанию. Строить грамотные ML-решения хочет каждый, и поэтому мы подготовили для вас общий справочник со всей актуальной информацией по данной теме.

🔥Погнали:
- Пошаговая методичка на GitHub, как правильно дизайнить ML-решения
- Ещё один репозиторий с интересным фреймворком и примерами решений ML System Design кейсов
- Огромная база знаний с описанием +500 реальных ML и LLM кейсов из мировых BigTech компаний, сможете прокачать экспертизу и набраться новых подходов
- Большой набор ТГ-постов от Саши Исакова по каждому этапу DS-собеседований, включая ML System Design
- Курс видеолекций на ODS по ML System Design с нуля
- Научиться писать ML System Design Docs можете тут, а познакомиться с тем, что вообще такое дизайн-документ тут
- Статья на Хабре «Как деплоить и тестировать модели в продакшне» - важный этап в процессе MLSD
- Серия постов для подготовки к DS-собеседованиям, с отдельной частью про System Design, включая большое количество дополнительных материалов и книг
- Статья для новичков «Чтобы я хотел знать про ML System Design раньше»
- Большой плейлист на YouTube с собеседованиями от karpov.courses, включая мок-собеседования по ML System Design с Валерием Бабушкиным

👇🏻Также призываем в комментариях делиться актуальными материалами по данной теме!
Ставьте ❤️ и 🔥 за крутой пост!
До встречи👋

GitHub

Machine-Learning-Interviews/src/MLSD/ml-system-design.md at main · alirezadir/Machine-Learning-Interviews

This repo is meant to serve as a guide for Machine Learning/AI technical interviews. - alirezadir/Machine-Learning-Interviews

❤41🔥18👍6

10.3K views16:53

Start Career in DS

Собрали для вас подборку исследований связанных DS и ключевые инсайты из них👇

💻 Условия работы:
- Исследование рынка аналитиков 2023 года от NEW HR:
▪️ топ компаний для трудоустройства: Яндекс, Авито, Авиасейлс
▪️ всего 3% хотят сменить сферу, большинство хочет развиваться внутри аналитики: расти по грейду, стать экспертом, сменить работодателя и т. д.

- Исследование релокации IT-специалистов 2022-2024 всех, не только аналитиков, тоже от NEW HR:
▪️ каждый 3-й релокант работает в отчасти российских компаниях (связаны с РФ, но работают за рубежом)
▪️ «релокацию оплачиает работодатель» - миф: 2/3 опрошенных, уезжавших из России, перемещались за свой счёт

🎓 Обучение:
- Независимое исследование онлйна курсов по аналитике от Left Join: сравнение популярных и не очень курсов по аналитике
▪️ топ платформы для обучения - Яндекс Практикум и Karpov.Courses

- Портрет специалистов, работающих в DS/ML/AI-направлении от DevCrowd, в исследовании есть большая подборка полезных книг, курсов, подкастов и Telegram-каналов по теме DS
▪️ 47% респондентов хотят улучшить свои знания фундаментальной математики
▪️ каждый третий обучился своей профессии самостоятельно

💭Ещё интересные исследования:
- За кем следят продуктовые и дата-аналитики от NEW HR: список самых часто упоминаемых экспертов. Весь список тут
▪️ топ-3 экспертов: Карпов Анатолий, Бунин Роман, Бабушкин Валерий

- ИТМО провел исследование ML/Data Open Source решений в России: какие компании лидируют, какие проблемы и перспективы есть у инструментов
▪️ лидеры в разработке собственных открытых решений: Яндекс, Сбер, Т-Банк
▪️ почти все компании-разработчики открытых решений в Data/ML находят пользователей не только на внутреннем, но и на международном рынке

Ждем ваших 🔥 и ❤️!

🔥22❤19

8.79K views07:15

Start Career in DS

🤖 Собрали для вас несколько роадмэпов по разным областям: Data Analyst, AI and Data Scientist, A/B Testing RoadMap, SQL, Python

Каждый из них содерджит последовательность областей, которые стоит изучить, что начать разбираться в соответствующей профессии

Python Developer - Step by step guide to becoming a Python developer in 2024
SQL Roadmap - Step by step guide to learning SQL in 2024
AI and Data Scientist - Step by step guide to becoming an AI and Data Scientist in 2024
Data Analyst Roadmap - Step by step guide to becoming an Data Analyst in 2024
A/B Testing RoadMap - Пошаговое руководство по проведению А/Б-тестов

Ставьте 🔥 если хотите общий roadmap по Data Science от нашего канала!

roadmap.sh

Learn to become a modern Python developer

Community driven, articles, resources, guides, interview questions, quizzes for python development. Learn to become a modern Python developer by following the steps, skills, resources and guides listed in this roadmap.

🔥67❤13👍6❤‍🔥2

7.7K viewsedited 07:02

2025/10/21 10:51:05
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>