LLM_UNDER_HOOD Telegram 655
Cпасение проекта с LLM под капотом - День 5

Итак, идет пятый день спасения проекта (1, 2, 3, 4). К его концу нужно принять решение - cможет ли команда завтра предоставить клиенту выгрузку данных нужного качества?

9:30 Созвон, формулируем план на день:

(1) За час забрать ground_truth_v3 в работу, поправить самые большие провалы, прогнать текущий пайплайн (не только GT dataset)
(2) работа над Accuracy - нужно 80%
(3) в течение сделать финальную выгрузку заранее, чтобы убедиться, что нет граблей
(4) Eval команда начинает собирать dataset для третьего класса документов - про запас.

В обсуждении очень видно, что вся команда глубже погружается в доменную область - сыплют терминами в ходе обсуждений. Это хороший признак. Организация работы не вызывает вопросов - все знают, что делать.

10:37 Pipeline начинают работать над провалами в данных, которые видны на вчерашней карте ошибок.

11:26 SGR Team пишет, что спустя 4 дня и полтора часа с начала проекта у нас Accuracy 68.1%. На карте ошибок уже меньше серого (первый скриншот в комментариях)

Готова частичная выгрузка данных. Пересылаем его интеграции, чтобы начали готовиться. Обещаю прогнать пайплайн целиком днем.

13:00 SGR Team: Качество не растет - уперлись в 70%. Решаем переписать с нуля второй промпт в пайплайне, который пока почти не трогали.

Если первый промпт использует сложную SGR схему для анализа документа, то второй промпт на этой основе пишет код. Иными словами, там стоит AI агент, который пишет код новых инструментов себе в пайплайн. Есть подозрение, что на этом этапе срабатывает один из трех Hallucination Triggers - у модели на вход идет слишком много лишней информации.

У нас осталась половина дня. Попробуем рискнуть и переписать там все.

13:25 Первый результат - ничего не понятно, но вроде бы не сильно хуже (скриншот второй в комментариях). Ground truth еще обсчитывается

13:30 Pipeline исправляет свою часть. На карте ошибок не должно оставаться больше серого

14:34 SGR Team: 74.9%! Серое еще есть на карте, но если его бы не было, то точность была бы 77.1%. Новая архитектура преодолела тот порог в 70%!

Карта ошибок - третья в комментариях. Начинаем смотреть на вот этот раздражающий красный блок в правом нижнем углу. Это группа свойств, которые связаны одним SGR каскадом. Они кажутся самой легкой добычей.

14:53 SGR Team: 77.1% accuracy - после мелкой доводки напильником вслепую и заодно отловом ошибок в самой ground_truth. Начинает формироваться правило, что если наша система с LLM под капотом упорно ошибается, то может быть ошибка в ground truth? Причем eval команда тоже озвучивает это. Weak Supervision lvl 2.

Eсли Pipeline починят свой pipeline, мы можем получить 79%!

15:52 SGR Team: 77.7% - добили эту группу свойств в нижнем углу. В основном просто мелкие перестановки и переименования, которые снижают когнитивную нагрузку на этом этапе до уровня выпускника. Карта ошибок - четвертая.

А время уже вечер...

15:56 PM: ну мы же теоретически до 80% почти дотягиваем?

16:03 Eval team: да, особенно если помнить, что у нас в тестах самые сложные кейсы из возможных.

Напомню, что Eval Team - оппонент SGR в данном проекте. Они отвечают за качество. Они разрушают работу SGR, наглядно демонстрируя ошибки - такова их роль в данном проекте. Они держат в уме риски и грабли. Поэтому и принятие решения лежит на них.

Решаем рискнуть и написать клиенту, что можем показывать хорошие результаты

16:31 распараллеливаем пайплайн и запускаем на полной выгрузке.

17:03 SGR Team - 4 дня, 7 часов с начала работы. Accuracy - 82.4%. Словно им забыли сказать, что 80% уже достаточно было. Карта ошибок - четвертая в комментариях.

Это окончательно убеждает Eval Team, что можно завтра показывать клиенту хороший результат.

За сим расходимся. Ну что тут может пойти не так?

Ваш, @llm_under_hood 🤗
🔥10729👏29😁8👍2



tgoop.com/llm_under_hood/655
Create:
Last Update:

Cпасение проекта с LLM под капотом - День 5

Итак, идет пятый день спасения проекта (1, 2, 3, 4). К его концу нужно принять решение - cможет ли команда завтра предоставить клиенту выгрузку данных нужного качества?

9:30 Созвон, формулируем план на день:

(1) За час забрать ground_truth_v3 в работу, поправить самые большие провалы, прогнать текущий пайплайн (не только GT dataset)
(2) работа над Accuracy - нужно 80%
(3) в течение сделать финальную выгрузку заранее, чтобы убедиться, что нет граблей
(4) Eval команда начинает собирать dataset для третьего класса документов - про запас.

В обсуждении очень видно, что вся команда глубже погружается в доменную область - сыплют терминами в ходе обсуждений. Это хороший признак. Организация работы не вызывает вопросов - все знают, что делать.

10:37 Pipeline начинают работать над провалами в данных, которые видны на вчерашней карте ошибок.

11:26 SGR Team пишет, что спустя 4 дня и полтора часа с начала проекта у нас Accuracy 68.1%. На карте ошибок уже меньше серого (первый скриншот в комментариях)

Готова частичная выгрузка данных. Пересылаем его интеграции, чтобы начали готовиться. Обещаю прогнать пайплайн целиком днем.

13:00 SGR Team: Качество не растет - уперлись в 70%. Решаем переписать с нуля второй промпт в пайплайне, который пока почти не трогали.

Если первый промпт использует сложную SGR схему для анализа документа, то второй промпт на этой основе пишет код. Иными словами, там стоит AI агент, который пишет код новых инструментов себе в пайплайн. Есть подозрение, что на этом этапе срабатывает один из трех Hallucination Triggers - у модели на вход идет слишком много лишней информации.

У нас осталась половина дня. Попробуем рискнуть и переписать там все.

13:25 Первый результат - ничего не понятно, но вроде бы не сильно хуже (скриншот второй в комментариях). Ground truth еще обсчитывается

13:30 Pipeline исправляет свою часть. На карте ошибок не должно оставаться больше серого

14:34 SGR Team: 74.9%! Серое еще есть на карте, но если его бы не было, то точность была бы 77.1%. Новая архитектура преодолела тот порог в 70%!

Карта ошибок - третья в комментариях. Начинаем смотреть на вот этот раздражающий красный блок в правом нижнем углу. Это группа свойств, которые связаны одним SGR каскадом. Они кажутся самой легкой добычей.

14:53 SGR Team: 77.1% accuracy - после мелкой доводки напильником вслепую и заодно отловом ошибок в самой ground_truth. Начинает формироваться правило, что если наша система с LLM под капотом упорно ошибается, то может быть ошибка в ground truth? Причем eval команда тоже озвучивает это. Weak Supervision lvl 2.

Eсли Pipeline починят свой pipeline, мы можем получить 79%!

15:52 SGR Team: 77.7% - добили эту группу свойств в нижнем углу. В основном просто мелкие перестановки и переименования, которые снижают когнитивную нагрузку на этом этапе до уровня выпускника. Карта ошибок - четвертая.

А время уже вечер...

15:56 PM: ну мы же теоретически до 80% почти дотягиваем?

16:03 Eval team: да, особенно если помнить, что у нас в тестах самые сложные кейсы из возможных.

Напомню, что Eval Team - оппонент SGR в данном проекте. Они отвечают за качество. Они разрушают работу SGR, наглядно демонстрируя ошибки - такова их роль в данном проекте. Они держат в уме риски и грабли. Поэтому и принятие решения лежит на них.

Решаем рискнуть и написать клиенту, что можем показывать хорошие результаты

16:31 распараллеливаем пайплайн и запускаем на полной выгрузке.

17:03 SGR Team - 4 дня, 7 часов с начала работы. Accuracy - 82.4%. Словно им забыли сказать, что 80% уже достаточно было. Карта ошибок - четвертая в комментариях.

Это окончательно убеждает Eval Team, что можно завтра показывать клиенту хороший результат.

За сим расходимся. Ну что тут может пойти не так?

Ваш, @llm_under_hood 🤗

BY LLM под капотом


Share with your friend now:
tgoop.com/llm_under_hood/655

View MORE
Open in Telegram


Telegram News

Date: |

The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. More>>
from us


Telegram LLM под капотом
FROM American