255 - Telegram Web

MLinside - школа ML

🤖📚 Что такое RAG (Retrieval-Augmented Generation) и как он улучшает генерацию текста?

RAG — это гибрид двух моделей:
1️⃣ Retriever (Поисковая модель) — сначала берёт твой запрос и быстро ищет релевантные документы или фрагменты текста в большой базе данных. Для этого обычно используют векторное представление текста (эмбеддинги) и алгоритмы поиска по ним (например, FAISS).
2️⃣ Generator (Генеративная модель) — получает найденные тексты и вместе с исходным запросом генерирует ответ. В основе обычно лежит трансформер, например GPT или BART.

❓Зачем нужен RAG?
Большие языковые модели (LLM) вроде GPT-4 знают много, но:
- они не знают актуальной информации (после даты обучения)
- могут галлюцинировать (придумывать факты)
- не всегда надёжны в критичных задачах (здравоохранение, финансы, право)
RAG решает это: он не «вспоминает» ответ из памяти, а ищет реальные документы, а потом формирует ответ на их основе.
По сути RAG просто улучшает ваш prompt-запрос в LLM качественным и полноценным контекстом (если в базе есть нужные документы и удалось их найти).

Пример использования:
🔸 В чатботах, которые отвечают на вопросы по технической документации — вместо «угадывания» бот сначала ищет в документации нужный кусок, а потом уже объясняет.
🔸 В корпоративных базах данных — находит все нужные статьи по нужным темам, которые так тяжело найти, а потом даёт структурированный скомпонованный ответ по любому запросу, хоть даже зачастую статьи дублируют друг друга.
🚀 Например ответы чат-бота на госуслугах можно улучшить с помощью RAG, чтобы чат-бот не только выводил названия нужных страниц сервиса, но и давал интерпретацию для чего именно лучше подходит каждая из страниц.

〰️

Автор: Александр Дубейковский, специалист по ML, ex-Yandex

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views15:11

MLinside - школа ML

Готовы для нового квиза?🥳

Время проверить знания!

Начинаем 👀 🧠

1.1K views14:59

MLinside - школа ML

Как называется процесс преобразования текстовых данных в числовой вид?

Anonymous Quiz

442 voters1.2K views15:00

MLinside - школа ML

Какой метод обучает ансамбль слабых моделей для повышения точности?

Anonymous Quiz

426 voters1.2K views15:00

MLinside - школа ML

Какой алгоритм обучения строит нелинейные разделяющие поверхности с помощью Kernel Trick?

Anonymous Quiz

Логистическая регрессия

75%

Support Vector Machine (SVM)

Линейная регрессия

17%

k-means

429 voters1.3K views15:00

MLinside - школа ML

🤖 Парадокс ИИ: все боятся, что он всех заменит — но спрос на тех, кто умеет с ним работать, только растет!

По данным hh.ru, за последние 10 лет количество вакансий, связанных с анализом данных и ML, в России выросло почти в 30 раз. За последние 4 года — в 2,5 раза.

И это не просто стартапы — это банки, ритейл, телеком, логистика. Им нужны те, кто умеет работать с данными, строить модели и решать задачи бизнеса.

💼 ML-инженеры — среди самых высокооплачиваемых специалистов! Зарплаты Senior-специалистов в крупных компаниях доходят до 500–600 тыс. рублей в месяц.

⚡️ Главное — начать уже сейчас!

🧠 Если вы хотите войти в ML и подготовиться к первым собеседованиям на позицию Junior — не пропустите старт нашего курса «База ML».

1.3K views15:02

MLinside - школа ML

Не пропустите видео-отзывы наших выпускников!

Если вы задумываетесь о входе в ML, но не уверены, с чего начать — послушайте тех, кто уже прошел этот путь с нами.

🗣 Артур Табиев — раньше работал аналитиком данных, но столкнулся с задачей прогнозирования продаж, где понадобились уже не просто цифры, а модели. Тогда он понял, что без технической базы в ML не обойтись.
Что его привлекло в MLinside? — сильный практический опыт преподавателей и внятная структура курса. Сейчас Артур точно знает: он хочет перейти из аналитики в машинное обучение.

🗣 Виктор Пономарёв — BI-аналитик в Сбере, в прошлом системный аналитик. Начал интересоваться ML после внутреннего воркшопа на работе. До курса учился сам, но рассказал, что самообучение — это вакуум: сложно понять, где ты, и что делаешь не так.
В MLinside он нашел не только грамотную подачу от профессионалов, но и поддержку менторов, адекватную нагрузку (от 2 до 10 часов в неделю), и главное — ощущение, что он движется в нужном направлении.

Всем советуем смотреть видео-отзывы на наш курс «База ML» — это честный взгляд изнутри от тех, кто уже начал свой переход в ML.

А вы готовы сделать шаг?

1.1K views15:14

MLinside - школа ML

Вопросы с собеседований

Продолжаем нашу регулярную рубрику и помогаем подготовиться к собеседованию по ML.

Наши ответы на вопросы опубликуем в понедельник, а сейчас ждем ваших ответов в комментариях!

Вопросы:

1️⃣ Как обучается случайный лес?
2️⃣ Как модель CatBoost обрабатывает категориальные фичи?
3️⃣ Почему у линейной регрессии функция потерь именно квадратичная, а не кубическая, с четвертой или пятой степенью?

#собеседование

1.0K views15:03

MLinside - школа ML

Ответы на вопросы с собеседований

1️⃣ Как обучается случайный лес?

Случайный лес обучается как ансамбль решающих деревьев, каждый из которых строится на бутстрап-выборке (рандомизированный сабсет обучающей выборки) с рандомным подмножеством признаков на каждом сплите. Это снижает корреляцию между деревьями и уменьшает дисперсию модели. Финальное предсказание — усреднение (регрессия) или голосование (классификация).

2️⃣ Как модель CatBoost обрабатывает категориальные фичи?

CatBoost обрабатывает категориальные фичи без явного one-hot или label encoding — он использует целевое кодирование с упорядоченными статистиками: для каждого объекта категория кодируется средним таргетом, рассчитанным на предыдущих примерах в случайной перестановке. Это снижает утечку таргета (target leakage) и переобучение. Также CatBoost автоматически генерирует комбинации категорий, улучшая захват взаимодействий.

3️⃣ Почему у линейной регрессии функция потерь именно квадратичная, а не кубическая, с четвертой или пятой степенью?

Квадратичная функция потерь у линейной регрессии выбрана за её гладкость, выпуклость и дифференцируемость, что гарантирует единственное оптимальное решение и удобство численной оптимизации (градиентный спуск, нормальное уравнение). Более высокие степени усложняют ландшафт функции, делают её менее устойчивой к выбросам и затрудняют обучение, без весомых преимуществ в стабильности или интерпретируемости. Кубическая функция при том ещё и несимметрична, что создаёт проблемы в работе с ошибками разного знака.

〰️

Автор: Александр Дубейковский, специалист по ML, ex-Yandex

#собеседование

Please open Telegram to view this post

VIEW IN TELEGRAM

622 views16:37

2025/06/25 04:12:39
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>