Уничтожение RAG - ML System Design
Давайте пойдем по базе из этого поста, ещё можете чекнуть этот пост с разбором MLSD для обучения LLM
Как отвечать на вопрос вопрос: «Постройка мне Retrieve модель в RAG»? Давайте разбираться!
Задача
Построить Retrieve модель для рага в e-commerce. Мы большой магазин навоза и нам надо рекомендовать товар по запросу пользователя в LLM. Напомню, retrieve модель - это штука, которая на основе запроса пользователя ищет подходящий контекст, чтобы засунуть в ЛЛМ.
Ограничения:
Ограничения: Минимальная задержка (<3–5 сек.), иначе пользователь ливнёт и поставит нашему сервису какашку
Бизнесовые метрики
Онлайн-метрики:
Оффлайн метрик:
Источник:
Мы большой магазин навоза и нам ну прям нужен RAG, то скорее всего мы доросли до того момента, когда у нас есть своя БД с описанием сортов навоза и их уникальных особенностей - 5 млн записей
Разметка:
Для Retrieve модели нам нужно получить данные: «запрос → релевантные документы». нанимаем копирайтера - Валюху, которая будет размечать нам данные. Но Валюха просит много рублей за свою работу, а мы не можем ей дать столько денег, то можем сделать начальную разметку с помощью TF-IDF или других BERT-like моделей.
Train/Test:
Случайно поделить на train/val/test (например, 70/15/15 - именно так мы должны разбивать навоз!)
BaseLine:
Сначала нужно сделать самое простое решение в качестве затычки. Нашей затычкой будет Elasticsearch на основе TF-IDF, который будет возвращать top-k=5 чанков. Чанк делим на 256 токенов или по структуре данных.
Норм решение для продажи навоза
Гибридный подход - TF-IDF & ANN + E5 & Cosine Similarity + Reranker
Заранее считаем все эмбеддинги BM25 и E5 и храним всё в БД - Faiss, ChromeDB.
Как обучать модели:
ReRanker:
X: (Query, Document) + доп. фичи (score BM25/ANN/E5, клики, цена, популярность и т.д.).
y: бинарная (релевант/нерелевант) или градуированная (0–5). Loss: Pairwise Ranking (LambdaRank), Cross-Entropy (если классификация) или Listwise (nDCG-based).
Количество семплов: 1000, Train/Test = 70/30%, Онлайн-метрика: CTR, CSAT
Итог:
Вот мы и построили базовый документ модели ретривы в RAG`е для магазина навоза, который ещё можно дорабатывать. Если он вам был полезен, то надеюсь вы им воспользуетесь на собесах по MLSD
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Школа Ebout Data Science
Среди моих учеников и моего окружения появился некий спрос на обучение некого Machine Learning. Ну так а почему бы не сделать занятия по данной дисциплине
НО! Я не хочу, чтобы данные занятия были как типичная SkillКороба или какое-нибудь SkillПроизводство. Я хочу сделать уроки с индивидуальным подходом, а не сраный курс на 10к людей, где человек просто палит в предзаписаную картинку.
Как там всё будет устроено:
Что вы получите:
На данный момент я объявляю два занятия:
Чтобы записаться на первое занятие пишите: @Alexander_Isaev1
Please open Telegram to view this post
VIEW IN TELEGRAM
Новый дроп от Андрюши Карпатого 🎧
В новом бенгере Андрюша зачитал полный путь про то как обучается ЛЛМка: c нуля до ЧатаЛГБТ. Зайдёт для тех кто только погружается в мир ЛЛМок. Он разбирает весь путь их создания: как их тренируют, почему они работают так, как работают, и как вообще думать о них, если представить, что у них есть какая-то "психология".
Андрюша рифмует про:
Поэтому бегом смотреть и узнавать что-то новое и полезное для себя!
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Deep Dive into LLMs like ChatGPT
This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…
Please open Telegram to view this post
VIEW IN TELEGRAM
Сбор гигачадов в одной папке
Читая множество каналов, я вижу кучу годного контента, которым хотел бы поделиться с вами. Поэтому мы собрались каналами и сделали папочку, в которой собраны люди, которые могут рассказать вам много чего интересного и полезного, а самое главное простым и понятным языком
Самая сочность, которую я бы почитал:
Каналы ребят мощные и за ними действительно интересно следить, поэтому можешь подписаться, не пожалеешь
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
ML guard
Nikita Boyandin invites you to add the folder “ML guard”, which includes 9 chats.
NLP-Собеседование Middle Data Scientist | Вопросы и глубокое объяснение
NLP-секция - неотъемлемая часть получения оффера для NLP инженера. Как раз таки в этом видео я даю базу, которую спрашивают на подобных собеседованиях и объясняю на пальцах эти темы так, чтобы ты точно на них ответил.
Разбираем
- TF-IDF, BM25, плюсы-минусы
- Лемматизация, стемминг, очистка и предобработка данных
- Word2Vec (CBOW, SkipGram, Negative Sampling), FastText, Glove
- Концептуальные различия между Word2Vec и TF-IDF
Все вопросы с собеседования я собрал в этом ноушене.
https://youtu.be/xuF2y9YnBKc
https://youtu.be/xuF2y9YnBKc
https://youtu.be/xuF2y9YnBKc
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Переехали – ComUnity
Please open Telegram to view this post
VIEW IN TELEGRAM
Ошибки, которые ты можешь допустить на собеседовании
Просматривая записи своих учеников, постоянно вижу одну и ту же картину: человека спрашивают одно, а он начинает отвечать на что-то совершенно левое. Например: “Какие метрики были на проекте и как поняли, что нужны именно они?” — “Да, метрики, там, конечно, много всего интересного… нужно сначала начать с данных (длинный монолог про данные, уходящий в лес)… и вот я уже голый среди кавказцев”.
Запомни простую вещь: внимательно слушай вопрос и отвечай строго на него, а не на тот, что у тебя в голове.
Ты можешь сидеть дома в одних и тех же трусах с дырками размером с Аргентину, не снимая их третий день подряд, но на собеседовании ты должен выглядеть как Райан Гослинг в лучшие годы.
Поменяй наконец футболку с козявкой по центру и причешись — ухоженность и опрятность это реальный ключ к успешному интервью. Тебе приятно общаться с человеком, у которого вместо бархатистых волос просто засохший баребух на голове? Выглядеть опрятно и ухоженно – обязательное условие успешного интервью.
Вот тебя спросили “Что такое линейная регрессия?”, а ты в жизни такого вопроса не слышал! Не нужно паники, напряги челюсть и начни на уверенных щах говорить, то что знаешь.
Зачастую собеседующий гасит вопросами, если видят в тебе слабость, а если ты показываешь тестостерон и уверенность, то есть шанс того, что прокатит. Уверенность и спокойствие могут выручить даже в ситуации незнания.
Вот я включил режим сигма-боя, и что мне говорить дальше? Ты должен показать ход своих мыслей, иногда точный ответ не особо и важен — собеседующему хочется понять, как именно ты думаешь. Задают вопрос, ты говоришь: “Честно говоря, подзабыл, но давайте порассуждаем…”, и дальше рассуждай максимально логично и чётко. Демонстрируй свою логику и способность мыслить вслух
Опять же: один из критериев на собесе - это показать ход вашей мысли, а как вы можете лучше донести ход своих мыслей? Графически! И особенно это удобно при решении задачи по ML System Design. Тут виден ваш ход мысли - собеседующему легче вас понять, вы сами понимаете на каком вы этапе - вам легче рассуждать. Короче, win2win.
Please open Telegram to view this post
VIEW IN TELEGRAM