LLM_UNDER_HOOD Telegram 653
Cпасение проекта с LLM под капотом - День 3

Хроники спасения проекта с LLM под капотом. В первый день мы налаживали коммуникацию и срочно объясняли про то, как собирать тестовые данные, второй день - собирали их. Может уже пора начать что-то делать?

8:43 Head of eval говорит, что первые ground truth данные будут готовы через полчаса. Переспрашивает, сколько времени займет генерация predictions - раньше было 3.5-8 дней.

Говорим, что по паре минут на каждый PDF. То есть минут 15 на первую версию GT.

Eval команда: O_o

09:27 Первую версию GT вычитали эксперты клиента.

09:28 Присылаю в чат первую версию карты ошибок (скриншот 1 в комментарях). Один столбец - одна сущность. Каждый квадратик - конкретное свойство этой сущности.

Серые - данные должны быть, но их нет
Красный квадрат - данные есть, но они ошибочны
Зеленый квадрат - predicted/actual == expected

Это - наша стартовая точка. Хуже уже не будет. Погнали

10:07 Готова первая работа над ошибками - подключили в пайплайн часть пропущенных документов. Карта выглядит менее страшно. Левая серая половина - не подгружается целая категория документов, Pipeline team работает над этим.

10:16 Созваниваемся с head of eval. Объясняю правила дальнейшей игры. SGR vs Eval:

(1) Objective of Eval team (eval and quality) - add as many red blocks as possible to this chart
(2) Objective of SGR team - turn as many blocks green as possible.
(3) Winning team get free round of beers/drinks paid by CEO

И заодно объясняю, что несмотря на игровую формулировку, под капотом тут строгая логика:

(1) Клиенту пока нужно увеличение точности. Приоритизируя большие красные блоки (обычно парсинг каких-то схожих полей), мы выбираем те части пайплайна, улучшение которых в итоге порадует клиента больше.

(2) Хорошие тестеры - это плохие разработчики, и наоборот. Одни создают, а другие - ломают. Эти роли ментально сложно совмещать, вот мы и не пытаемся. Задача “eval team” - не беспокоиться о качестве модели, а находить те самые вредные кейсы, на которых ломается модель. Эти кейсы принесут им больше красных блоков в карту.

Но при этом кейсы должны быть разнообразные. Т.к. если кейсы схожие, то SGR Team их сможет закрыть одним фиксом. А это не имеет смысла.

11:04 Наглядность - великая вещь. Один из экспертов клиента тоже подключается к заполнению GT. В итоге все видят, что требования проекта немного уехали в сторону, правят схему ground truth данных. SGR team берет новую версию в работу.

11:16 Начинаем генерировать такую плашку миссии с каждым отчетом - потраченные рабочие дни и текущая точность.

==============================================
HAIL MARY: 2 days, 1 hours since start
==============================================
Total blocks: 5,022
Green blocks: 1,996 (39.7%) - Matching
Red blocks: 1,290 (25.7%) - Different
Gray blocks: 1,736 (34.6%) - Missing
==============================================

11:49 Head of eval заканчивает рабочий день - у них в офисе внепроектные дела.

Да, у нас срочный проект, который горит. Да, мы только что потратили почти три дня на подготовку тестовых данных, и осталось всего два полных рабочих дня до первого milestone, где нужно получить более 80% точности. Да, прошлая попытка потратила 800 EUR токенами и занимала неделю только на один прогон пайплайна.

Но все идет по плану. Есть GT данные и pipeline eval. Дальше SGR команда может ставить эксперименты и инкрементально улучшать пайплайн, как в правильных стартапах. А поскольку работа разблокирована - eval команда может со спокойной совестью уйти отдыхать.


13:38 PM тоже уходит по своим делам

14:40 SGR team: 46.9% Accuracy

15:15 SGR team: 63.1% Accuracy (скриншот карты ошибок на этот момент - третий в комментариях).

Пора заканчивать день. У нас есть два полных дня чтобы попробовать добить качество до +80% при активном противодействии клиента (новые требования) и eval team (интеграция новых edge cases в ground truth).

Head of Eval сомневается, что получится (у него роль такая), я даю 70% успеха (у меня роль такая).


Ваш, @llm_under_hood 🤗
🔥72👍5247👏9😱4🤗2



tgoop.com/llm_under_hood/653
Create:
Last Update:

Cпасение проекта с LLM под капотом - День 3

Хроники спасения проекта с LLM под капотом. В первый день мы налаживали коммуникацию и срочно объясняли про то, как собирать тестовые данные, второй день - собирали их. Может уже пора начать что-то делать?

8:43 Head of eval говорит, что первые ground truth данные будут готовы через полчаса. Переспрашивает, сколько времени займет генерация predictions - раньше было 3.5-8 дней.

Говорим, что по паре минут на каждый PDF. То есть минут 15 на первую версию GT.

Eval команда: O_o

09:27 Первую версию GT вычитали эксперты клиента.

09:28 Присылаю в чат первую версию карты ошибок (скриншот 1 в комментарях). Один столбец - одна сущность. Каждый квадратик - конкретное свойство этой сущности.

Серые - данные должны быть, но их нет
Красный квадрат - данные есть, но они ошибочны
Зеленый квадрат - predicted/actual == expected

Это - наша стартовая точка. Хуже уже не будет. Погнали

10:07 Готова первая работа над ошибками - подключили в пайплайн часть пропущенных документов. Карта выглядит менее страшно. Левая серая половина - не подгружается целая категория документов, Pipeline team работает над этим.

10:16 Созваниваемся с head of eval. Объясняю правила дальнейшей игры. SGR vs Eval:

(1) Objective of Eval team (eval and quality) - add as many red blocks as possible to this chart
(2) Objective of SGR team - turn as many blocks green as possible.
(3) Winning team get free round of beers/drinks paid by CEO

И заодно объясняю, что несмотря на игровую формулировку, под капотом тут строгая логика:

(1) Клиенту пока нужно увеличение точности. Приоритизируя большие красные блоки (обычно парсинг каких-то схожих полей), мы выбираем те части пайплайна, улучшение которых в итоге порадует клиента больше.

(2) Хорошие тестеры - это плохие разработчики, и наоборот. Одни создают, а другие - ломают. Эти роли ментально сложно совмещать, вот мы и не пытаемся. Задача “eval team” - не беспокоиться о качестве модели, а находить те самые вредные кейсы, на которых ломается модель. Эти кейсы принесут им больше красных блоков в карту.

Но при этом кейсы должны быть разнообразные. Т.к. если кейсы схожие, то SGR Team их сможет закрыть одним фиксом. А это не имеет смысла.

11:04 Наглядность - великая вещь. Один из экспертов клиента тоже подключается к заполнению GT. В итоге все видят, что требования проекта немного уехали в сторону, правят схему ground truth данных. SGR team берет новую версию в работу.

11:16 Начинаем генерировать такую плашку миссии с каждым отчетом - потраченные рабочие дни и текущая точность.

==============================================
HAIL MARY: 2 days, 1 hours since start
==============================================
Total blocks: 5,022
Green blocks: 1,996 (39.7%) - Matching
Red blocks: 1,290 (25.7%) - Different
Gray blocks: 1,736 (34.6%) - Missing
==============================================

11:49 Head of eval заканчивает рабочий день - у них в офисе внепроектные дела.

Да, у нас срочный проект, который горит. Да, мы только что потратили почти три дня на подготовку тестовых данных, и осталось всего два полных рабочих дня до первого milestone, где нужно получить более 80% точности. Да, прошлая попытка потратила 800 EUR токенами и занимала неделю только на один прогон пайплайна.

Но все идет по плану. Есть GT данные и pipeline eval. Дальше SGR команда может ставить эксперименты и инкрементально улучшать пайплайн, как в правильных стартапах. А поскольку работа разблокирована - eval команда может со спокойной совестью уйти отдыхать.


13:38 PM тоже уходит по своим делам

14:40 SGR team: 46.9% Accuracy

15:15 SGR team: 63.1% Accuracy (скриншот карты ошибок на этот момент - третий в комментариях).

Пора заканчивать день. У нас есть два полных дня чтобы попробовать добить качество до +80% при активном противодействии клиента (новые требования) и eval team (интеграция новых edge cases в ground truth).

Head of Eval сомневается, что получится (у него роль такая), я даю 70% успеха (у меня роль такая).


Ваш, @llm_under_hood 🤗

BY LLM под капотом


Share with your friend now:
tgoop.com/llm_under_hood/653

View MORE
Open in Telegram


Telegram News

Date: |

Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. The best encrypted messaging apps Telegram channels fall into two types: Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment.
from us


Telegram LLM под капотом
FROM American