NEURALDEEP Telegram 1636
Forwarded from Ethical Machines
Нужны ли стандарты оценки качества LLM-приложений и моделей?!

Сегодня появляется все больше продуктов, внутри которых используются agentic-сценарии, а RAG есть уже почти у всех. И чем сложнее становится пайплайн, тем сложнее (простите за тавтологию) и важнее контролировать его.

Когда у вас простой пайплайн, можно настроить оценку его качества и безопасности, выполнив список довольно понятных шагов:
🟣определить критерии оценки и выбрать метрики
🟣покрыть пайплайн интеграционными (а где-то юнит) тестами
🟣собрать небольшой бенч и гонять его (если тестов недостаточно)
🟣и даже настроить проверку детерминированности пайплайна

Если же вам надо оценивать пайплайн, состоящий из множества разных компонент, придется строить что-то типа Сокола Тысячетелия из Lego🦧

И тут хочется поделиться статьей Apollo Research We Need A ‘Science of Evals’, которая содержит интересные размешления об оценке качества и безопасности (и хоть она 2024 года, все еще не потеряла своей актуальности). Ее идеи можно отразить в следующих тезисах:
🟣сейчас оценка качества больше похожа на искусство, чем на науку. Потому что результаты оценки качества сильно зависят от множества мелких деталей (например, форматирования промптов), порой вызывая колебания точности до 76 пп. Это приводит к тому, что используемые продукты становятся менее безопасными
🟣разделяют 3 этапа зрелости Eval-ов. Начальный (Nascent) — исследовательский, где отсутствуют стандарты. Промежуточный (Maturation) — появляются соглашения по лучшим практикам, но пока нет единой регуляции. Зрелый (Mature) — действуют формальные стандарты, статистическая обоснованность, результаты интерпретируемы. Мы сейчас в Т-Банке постепенно закрепляемся на этапе 2 (Maturation) и это совсем непросто
🟣и чтобы сделать свои EvalMature, вот что потребуется: описать множество четких и интерпретируемых метрик, покрыть тестами как можно больше частей пайплайна, обеспечить надежность и воспроизводимость и не забыть про статистическую значимость

Выглядит не очень тривиально, да? Потому что и так есть вопросы к бенчмаркам и оцениваемым моделям, а тут надо оценивать массивный пайплайн.

И вот буквально неделю назад вышел новый стандарт оценки качества моделей STREAM (A Standard for Transparently
Reporting Evaluations in AI Model Reports
). Он предлагает формат для стандартизации тестирований моделей и представления результатов. И хоть в большей степени ориентирован на ChemBio бенчмарки, авторы пишут, что его получится использовать и для бенчмарков из других отраслей.

Скоро расскажу вам о нем подробнее, а пока дочитываю статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥5💯1



tgoop.com/neuraldeep/1636
Create:
Last Update:

Нужны ли стандарты оценки качества LLM-приложений и моделей?!

Сегодня появляется все больше продуктов, внутри которых используются agentic-сценарии, а RAG есть уже почти у всех. И чем сложнее становится пайплайн, тем сложнее (простите за тавтологию) и важнее контролировать его.

Когда у вас простой пайплайн, можно настроить оценку его качества и безопасности, выполнив список довольно понятных шагов:
🟣определить критерии оценки и выбрать метрики
🟣покрыть пайплайн интеграционными (а где-то юнит) тестами
🟣собрать небольшой бенч и гонять его (если тестов недостаточно)
🟣и даже настроить проверку детерминированности пайплайна

Если же вам надо оценивать пайплайн, состоящий из множества разных компонент, придется строить что-то типа Сокола Тысячетелия из Lego🦧

И тут хочется поделиться статьей Apollo Research We Need A ‘Science of Evals’, которая содержит интересные размешления об оценке качества и безопасности (и хоть она 2024 года, все еще не потеряла своей актуальности). Ее идеи можно отразить в следующих тезисах:
🟣сейчас оценка качества больше похожа на искусство, чем на науку. Потому что результаты оценки качества сильно зависят от множества мелких деталей (например, форматирования промптов), порой вызывая колебания точности до 76 пп. Это приводит к тому, что используемые продукты становятся менее безопасными
🟣разделяют 3 этапа зрелости Eval-ов. Начальный (Nascent) — исследовательский, где отсутствуют стандарты. Промежуточный (Maturation) — появляются соглашения по лучшим практикам, но пока нет единой регуляции. Зрелый (Mature) — действуют формальные стандарты, статистическая обоснованность, результаты интерпретируемы. Мы сейчас в Т-Банке постепенно закрепляемся на этапе 2 (Maturation) и это совсем непросто
🟣и чтобы сделать свои EvalMature, вот что потребуется: описать множество четких и интерпретируемых метрик, покрыть тестами как можно больше частей пайплайна, обеспечить надежность и воспроизводимость и не забыть про статистическую значимость

Выглядит не очень тривиально, да? Потому что и так есть вопросы к бенчмаркам и оцениваемым моделям, а тут надо оценивать массивный пайплайн.

И вот буквально неделю назад вышел новый стандарт оценки качества моделей STREAM (A Standard for Transparently
Reporting Evaluations in AI Model Reports
). Он предлагает формат для стандартизации тестирований моделей и представления результатов. И хоть в большей степени ориентирован на ChemBio бенчмарки, авторы пишут, что его получится использовать и для бенчмарков из других отраслей.

Скоро расскажу вам о нем подробнее, а пока дочитываю статью

BY Neural Kovalskii




Share with your friend now:
tgoop.com/neuraldeep/1636

View MORE
Open in Telegram


Telegram News

Date: |

best-secure-messaging-apps-shutterstock-1892950018.jpg How to Create a Private or Public Channel on Telegram? The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots.
from us


Telegram Neural Kovalskii
FROM American