LLM_UNDER_HOOD Telegram 654
Cпасение проекта с LLM под капотом - День 4

Хроники спасения проекта с LLM под капотом. В первый день мы налаживали коммуникацию и срочно объясняли про то, как собирать тестовые данные, второй день - собирали их. В третий, наконец, смогли измерить текущую точность, отобразив ее на карте ошибок.

Осталось два рабочих дня до выхода на нужную точность. Послезавтра вечером (самое позднее) нужно либо писать клиенту про митинг с результатами, либо…

10:00 Утренний созвон с ролями Head of Eval, PM, BI, SGR и Pipeline engineering. Планируем следующие два дня, проговариваем приоритеты.

Eval команда будет искать сложные кейсы, которые доказывают негодность и бесполезность пайплайна, добавлять их в GT dataset (добавляют красные квадратики в нашу карту ошибок, по которой мы планируем дальнейшую стратегию).

Pipeline engineering - закрывает провалы в обработке документов (убирает серые квадратики)

SGR Team - повышает качество document extraction (убирает красные квадратики с карты)

Integration - смотрит, будут ли впереди проблемы с интеграцией финального CSV в аналитику.

10:52 SGR Team: 70.7% Accuracy.

На самом деле, 70.7% получили раньше, но не писали, чтобы не отвлекать в нерабочее время. Вечером накануне пришло вдохновение, как улучшить качество. А тут как раз есть eval loop и возможность за несколько минут прогнать эксперимент. И он удался. Скриншот карты ошибок на этом этапе - первый в комментариях.

Пока все улучшения происходят только за счет мелких изменений в одном единственном запросе к LLM. Причем это даже не изменения в промпте (там всего два предложения), а перестановки и переименования полей в SGR схеме. Дробим задачу в рамках одного LLM запроса на маленькие шажочки при помощи SGR Cascade. Чтобы, при начале извлечения очередного свойства, у модели в самом хвостике контекста уже лежали все нужные данные. И так 60 раз в одном запросе. Такой "микро-промптинг".

12:04 У SGR команды начинают появляться вопросики к качеству и значению некоторых столбцов в ground truth данных. Ошибки модели у них перед глазами, и некоторые вещи не сходятся. Большая часть четвертого дня проходит в обсуждении и правках схемы ground truth c привлечением клиента.

В Excel появляются вкладки ground_truth_v1, _v2, _v3. Схему штормит.

При этом SGR команде не нужно заморачиваться отслеживанием деталей этих обсуждений. Если что-то поменяется - это автоматически проявится красными квадратиками. Они просто работают с самыми явными паттернами красного.

16:10 Eval team релизит ground_truth_v2.

17:02 SGR Team: 74.5% accuracy (карта ошибок - вторая в комментариях)

17:31 Eval team: Новые кейсы заказывали? Вот вам ground_truth_v3

17:37 SGR Team: вот новая версия карты ошибок (скриншот три в комментариях). Серые блоки - новые документы, на которых ломается пайплайн. С учетом этого accuracy падает до 62.2%.

Eval team - молодцы, что так сильно просадили качество. С одной стороны всем печально за score. А с другой - мы вскрыли проблемы, которые уже и так были в пайплайне, просто не отражались на карте. Лучше увидеть сейчас, чем если ошибки найдет клиент при перепроверке.

Приоритизация работ в команде на завтра вопросов не вызывает. Откуда начинать с утра копать - видно сразу по карте. Может нам пора ее начать называть стратегической картой ошибок (Strategic Error Map)?

Ваш, @llm_under_hood 🤗

PS: 21:24 PM появляется в чатике со словами, что ему хотелось поработать вечером и он подготовил еще новых строчек для ground_truth. Просим его завязать с работой. Пусть экономит энергию и внимание на завтра - это будет решающий день.
🔥7748👍16🤝4



tgoop.com/llm_under_hood/654
Create:
Last Update:

Cпасение проекта с LLM под капотом - День 4

Хроники спасения проекта с LLM под капотом. В первый день мы налаживали коммуникацию и срочно объясняли про то, как собирать тестовые данные, второй день - собирали их. В третий, наконец, смогли измерить текущую точность, отобразив ее на карте ошибок.

Осталось два рабочих дня до выхода на нужную точность. Послезавтра вечером (самое позднее) нужно либо писать клиенту про митинг с результатами, либо…

10:00 Утренний созвон с ролями Head of Eval, PM, BI, SGR и Pipeline engineering. Планируем следующие два дня, проговариваем приоритеты.

Eval команда будет искать сложные кейсы, которые доказывают негодность и бесполезность пайплайна, добавлять их в GT dataset (добавляют красные квадратики в нашу карту ошибок, по которой мы планируем дальнейшую стратегию).

Pipeline engineering - закрывает провалы в обработке документов (убирает серые квадратики)

SGR Team - повышает качество document extraction (убирает красные квадратики с карты)

Integration - смотрит, будут ли впереди проблемы с интеграцией финального CSV в аналитику.

10:52 SGR Team: 70.7% Accuracy.

На самом деле, 70.7% получили раньше, но не писали, чтобы не отвлекать в нерабочее время. Вечером накануне пришло вдохновение, как улучшить качество. А тут как раз есть eval loop и возможность за несколько минут прогнать эксперимент. И он удался. Скриншот карты ошибок на этом этапе - первый в комментариях.

Пока все улучшения происходят только за счет мелких изменений в одном единственном запросе к LLM. Причем это даже не изменения в промпте (там всего два предложения), а перестановки и переименования полей в SGR схеме. Дробим задачу в рамках одного LLM запроса на маленькие шажочки при помощи SGR Cascade. Чтобы, при начале извлечения очередного свойства, у модели в самом хвостике контекста уже лежали все нужные данные. И так 60 раз в одном запросе. Такой "микро-промптинг".

12:04 У SGR команды начинают появляться вопросики к качеству и значению некоторых столбцов в ground truth данных. Ошибки модели у них перед глазами, и некоторые вещи не сходятся. Большая часть четвертого дня проходит в обсуждении и правках схемы ground truth c привлечением клиента.

В Excel появляются вкладки ground_truth_v1, _v2, _v3. Схему штормит.

При этом SGR команде не нужно заморачиваться отслеживанием деталей этих обсуждений. Если что-то поменяется - это автоматически проявится красными квадратиками. Они просто работают с самыми явными паттернами красного.

16:10 Eval team релизит ground_truth_v2.

17:02 SGR Team: 74.5% accuracy (карта ошибок - вторая в комментариях)

17:31 Eval team: Новые кейсы заказывали? Вот вам ground_truth_v3

17:37 SGR Team: вот новая версия карты ошибок (скриншот три в комментариях). Серые блоки - новые документы, на которых ломается пайплайн. С учетом этого accuracy падает до 62.2%.

Eval team - молодцы, что так сильно просадили качество. С одной стороны всем печально за score. А с другой - мы вскрыли проблемы, которые уже и так были в пайплайне, просто не отражались на карте. Лучше увидеть сейчас, чем если ошибки найдет клиент при перепроверке.

Приоритизация работ в команде на завтра вопросов не вызывает. Откуда начинать с утра копать - видно сразу по карте. Может нам пора ее начать называть стратегической картой ошибок (Strategic Error Map)?

Ваш, @llm_under_hood 🤗

PS: 21:24 PM появляется в чатике со словами, что ему хотелось поработать вечером и он подготовил еще новых строчек для ground_truth. Просим его завязать с работой. Пусть экономит энергию и внимание на завтра - это будет решающий день.

BY LLM под капотом


Share with your friend now:
tgoop.com/llm_under_hood/654

View MORE
Open in Telegram


Telegram News

Date: |

The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” Hashtags
from us


Telegram LLM под капотом
FROM American