tgoop.com/llm_under_hood/655
Last Update:
Cпасение проекта с LLM под капотом - День 5
Итак, идет пятый день спасения проекта (1, 2, 3, 4). К его концу нужно принять решение - cможет ли команда завтра предоставить клиенту выгрузку данных нужного качества?
9:30 Созвон, формулируем план на день:
(1) За час забрать ground_truth_v3 в работу, поправить самые большие провалы, прогнать текущий пайплайн (не только GT dataset)
(2) работа над Accuracy - нужно 80%
(3) в течение сделать финальную выгрузку заранее, чтобы убедиться, что нет граблей
(4) Eval команда начинает собирать dataset для третьего класса документов - про запас.
В обсуждении очень видно, что вся команда глубже погружается в доменную область - сыплют терминами в ходе обсуждений. Это хороший признак. Организация работы не вызывает вопросов - все знают, что делать.
10:37 Pipeline начинают работать над провалами в данных, которые видны на вчерашней карте ошибок.
11:26 SGR Team пишет, что спустя 4 дня и полтора часа с начала проекта у нас Accuracy 68.1%. На карте ошибок уже меньше серого (первый скриншот в комментариях)
Готова частичная выгрузка данных. Пересылаем его интеграции, чтобы начали готовиться. Обещаю прогнать пайплайн целиком днем.
13:00 SGR Team: Качество не растет - уперлись в 70%. Решаем переписать с нуля второй промпт в пайплайне, который пока почти не трогали.
Если первый промпт использует сложную SGR схему для анализа документа, то второй промпт на этой основе пишет код. Иными словами, там стоит AI агент, который пишет код новых инструментов себе в пайплайн. Есть подозрение, что на этом этапе срабатывает один из трех Hallucination Triggers - у модели на вход идет слишком много лишней информации.
У нас осталась половина дня. Попробуем рискнуть и переписать там все.
13:25 Первый результат - ничего не понятно, но вроде бы не сильно хуже (скриншот второй в комментариях). Ground truth еще обсчитывается
13:30 Pipeline исправляет свою часть. На карте ошибок не должно оставаться больше серого
14:34 SGR Team: 74.9%! Серое еще есть на карте, но если его бы не было, то точность была бы 77.1%. Новая архитектура преодолела тот порог в 70%!
Карта ошибок - третья в комментариях. Начинаем смотреть на вот этот раздражающий красный блок в правом нижнем углу. Это группа свойств, которые связаны одним SGR каскадом. Они кажутся самой легкой добычей.
14:53 SGR Team: 77.1% accuracy - после мелкой доводки напильником вслепую и заодно отловом ошибок в самой ground_truth. Начинает формироваться правило, что если наша система с LLM под капотом упорно ошибается, то может быть ошибка в ground truth? Причем eval команда тоже озвучивает это. Weak Supervision lvl 2.
Eсли Pipeline починят свой pipeline, мы можем получить 79%!
15:52 SGR Team: 77.7% - добили эту группу свойств в нижнем углу. В основном просто мелкие перестановки и переименования, которые снижают когнитивную нагрузку на этом этапе до уровня выпускника. Карта ошибок - четвертая.
А время уже вечер...
15:56 PM: ну мы же теоретически до 80% почти дотягиваем?
16:03 Eval team: да, особенно если помнить, что у нас в тестах самые сложные кейсы из возможных.
Напомню, что Eval Team - оппонент SGR в данном проекте. Они отвечают за качество. Они разрушают работу SGR, наглядно демонстрируя ошибки - такова их роль в данном проекте. Они держат в уме риски и грабли. Поэтому и принятие решения лежит на них.
Решаем рискнуть и написать клиенту, что можем показывать хорошие результаты
16:31 распараллеливаем пайплайн и запускаем на полной выгрузке.
17:03 SGR Team - 4 дня, 7 часов с начала работы. Accuracy - 82.4%. Словно им забыли сказать, что 80% уже достаточно было. Карта ошибок - четвертая в комментариях.
Это окончательно убеждает Eval Team, что можно завтра показывать клиенту хороший результат.
За сим расходимся. Ну что тут может пойти не так?
Ваш, @llm_under_hood 🤗
BY LLM под капотом
Share with your friend now:
tgoop.com/llm_under_hood/655