tgoop.com/llm_under_hood/653
Last Update:
Cпасение проекта с LLM под капотом - День 3
Хроники спасения проекта с LLM под капотом. В первый день мы налаживали коммуникацию и срочно объясняли про то, как собирать тестовые данные, второй день - собирали их. Может уже пора начать что-то делать?
8:43 Head of eval говорит, что первые ground truth данные будут готовы через полчаса. Переспрашивает, сколько времени займет генерация predictions - раньше было 3.5-8 дней.
Говорим, что по паре минут на каждый PDF. То есть минут 15 на первую версию GT.
Eval команда: O_o
09:27 Первую версию GT вычитали эксперты клиента.
09:28 Присылаю в чат первую версию карты ошибок (скриншот 1 в комментарях). Один столбец - одна сущность. Каждый квадратик - конкретное свойство этой сущности.
Серые - данные должны быть, но их нет
Красный квадрат - данные есть, но они ошибочны
Зеленый квадрат - predicted/actual == expected
Это - наша стартовая точка. Хуже уже не будет. Погнали
10:07 Готова первая работа над ошибками - подключили в пайплайн часть пропущенных документов. Карта выглядит менее страшно. Левая серая половина - не подгружается целая категория документов, Pipeline team работает над этим.
10:16 Созваниваемся с head of eval. Объясняю правила дальнейшей игры. SGR vs Eval:
(1) Objective of Eval team (eval and quality) - add as many red blocks as possible to this chart
(2) Objective of SGR team - turn as many blocks green as possible.
(3) Winning team get free round of beers/drinks paid by CEO
И заодно объясняю, что несмотря на игровую формулировку, под капотом тут строгая логика:
(1) Клиенту пока нужно увеличение точности. Приоритизируя большие красные блоки (обычно парсинг каких-то схожих полей), мы выбираем те части пайплайна, улучшение которых в итоге порадует клиента больше.
(2) Хорошие тестеры - это плохие разработчики, и наоборот. Одни создают, а другие - ломают. Эти роли ментально сложно совмещать, вот мы и не пытаемся. Задача “eval team” - не беспокоиться о качестве модели, а находить те самые вредные кейсы, на которых ломается модель. Эти кейсы принесут им больше красных блоков в карту.
Но при этом кейсы должны быть разнообразные. Т.к. если кейсы схожие, то SGR Team их сможет закрыть одним фиксом. А это не имеет смысла.
11:04 Наглядность - великая вещь. Один из экспертов клиента тоже подключается к заполнению GT. В итоге все видят, что требования проекта немного уехали в сторону, правят схему ground truth данных. SGR team берет новую версию в работу.
11:16 Начинаем генерировать такую плашку миссии с каждым отчетом - потраченные рабочие дни и текущая точность.
==============================================
HAIL MARY: 2 days, 1 hours since start
==============================================
Total blocks: 5,022
Green blocks: 1,996 (39.7%) - Matching
Red blocks: 1,290 (25.7%) - Different
Gray blocks: 1,736 (34.6%) - Missing
==============================================
11:49 Head of eval заканчивает рабочий день - у них в офисе внепроектные дела.
Да, у нас срочный проект, который горит. Да, мы только что потратили почти три дня на подготовку тестовых данных, и осталось всего два полных рабочих дня до первого milestone, где нужно получить более 80% точности. Да, прошлая попытка потратила 800 EUR токенами и занимала неделю только на один прогон пайплайна.
Но все идет по плану. Есть GT данные и pipeline eval. Дальше SGR команда может ставить эксперименты и инкрементально улучшать пайплайн, как в правильных стартапах. А поскольку работа разблокирована - eval команда может со спокойной совестью уйти отдыхать.
13:38 PM тоже уходит по своим делам
14:40 SGR team: 46.9% Accuracy
15:15 SGR team: 63.1% Accuracy (скриншот карты ошибок на этот момент - третий в комментариях).
Пора заканчивать день. У нас есть два полных дня чтобы попробовать добить качество до +80% при активном противодействии клиента (новые требования) и eval team (интеграция новых edge cases в ground truth).
Head of Eval сомневается, что получится (у него роль такая), я даю 70% успеха (у меня роль такая).
Ваш, @llm_under_hood 🤗
BY LLM под капотом
Share with your friend now:
tgoop.com/llm_under_hood/653