tgoop.com/llm_under_hood/654
Last Update:
Cпасение проекта с LLM под капотом - День 4
Хроники спасения проекта с LLM под капотом. В первый день мы налаживали коммуникацию и срочно объясняли про то, как собирать тестовые данные, второй день - собирали их. В третий, наконец, смогли измерить текущую точность, отобразив ее на карте ошибок.
Осталось два рабочих дня до выхода на нужную точность. Послезавтра вечером (самое позднее) нужно либо писать клиенту про митинг с результатами, либо…
10:00 Утренний созвон с ролями Head of Eval, PM, BI, SGR и Pipeline engineering. Планируем следующие два дня, проговариваем приоритеты.
Eval команда будет искать сложные кейсы, которые доказывают негодность и бесполезность пайплайна, добавлять их в GT dataset (добавляют красные квадратики в нашу карту ошибок, по которой мы планируем дальнейшую стратегию).
Pipeline engineering - закрывает провалы в обработке документов (убирает серые квадратики)
SGR Team - повышает качество document extraction (убирает красные квадратики с карты)
Integration - смотрит, будут ли впереди проблемы с интеграцией финального CSV в аналитику.
10:52 SGR Team: 70.7% Accuracy.
На самом деле, 70.7% получили раньше, но не писали, чтобы не отвлекать в нерабочее время. Вечером накануне пришло вдохновение, как улучшить качество. А тут как раз есть eval loop и возможность за несколько минут прогнать эксперимент. И он удался. Скриншот карты ошибок на этом этапе - первый в комментариях.
Пока все улучшения происходят только за счет мелких изменений в одном единственном запросе к LLM. Причем это даже не изменения в промпте (там всего два предложения), а перестановки и переименования полей в SGR схеме. Дробим задачу в рамках одного LLM запроса на маленькие шажочки при помощи SGR Cascade. Чтобы, при начале извлечения очередного свойства, у модели в самом хвостике контекста уже лежали все нужные данные. И так 60 раз в одном запросе. Такой "микро-промптинг".
12:04 У SGR команды начинают появляться вопросики к качеству и значению некоторых столбцов в ground truth данных. Ошибки модели у них перед глазами, и некоторые вещи не сходятся. Большая часть четвертого дня проходит в обсуждении и правках схемы ground truth c привлечением клиента.
В Excel появляются вкладки ground_truth_v1, _v2, _v3. Схему штормит.
При этом SGR команде не нужно заморачиваться отслеживанием деталей этих обсуждений. Если что-то поменяется - это автоматически проявится красными квадратиками. Они просто работают с самыми явными паттернами красного.
16:10 Eval team релизит ground_truth_v2.
17:02 SGR Team: 74.5% accuracy (карта ошибок - вторая в комментариях)
17:31 Eval team: Новые кейсы заказывали? Вот вам ground_truth_v3
17:37 SGR Team: вот новая версия карты ошибок (скриншот три в комментариях). Серые блоки - новые документы, на которых ломается пайплайн. С учетом этого accuracy падает до 62.2%.
Eval team - молодцы, что так сильно просадили качество. С одной стороны всем печально за score. А с другой - мы вскрыли проблемы, которые уже и так были в пайплайне, просто не отражались на карте. Лучше увидеть сейчас, чем если ошибки найдет клиент при перепроверке.
Приоритизация работ в команде на завтра вопросов не вызывает. Откуда начинать с утра копать - видно сразу по карте. Может нам пора ее начать называть стратегической картой ошибок (Strategic Error Map)?
Ваш, @llm_under_hood 🤗
PS: 21:24 PM появляется в чатике со словами, что ему хотелось поработать вечером и он подготовил еще новых строчек для ground_truth. Просим его завязать с работой. Пусть экономит энергию и внимание на завтра - это будет решающий день.
BY LLM под капотом
Share with your friend now:
tgoop.com/llm_under_hood/654