LLM_UNDER_HOOD Telegram 677
Давайте добавим колонку MED в LLM бенчмарк! 🧬🤝

Текущая версия моего LLM бенчмарка основана на кейсах внедрения в бизнес-проекты. Каждый eval в бенчмарке - это небольшой тест из реального проекта, одна клеточка на error map.

Бенчмарком пользуются команды при выборе моделей под свои задачи. Чаще всего их интересуют не самые мощные модели, а самые маленькие модели, которые смогли забраться достаточно высоко. Например, Qwen3-32B или gpt-oss-20b

А давайте, сделаем этот бенчмарк полезным не только для бизнеса, но еще и для команд, которые внедряют AI/LLM в медицине!

Для этого мне нужны небольшие примеры промптов, маленькие кусочки задач. В идеале это даже такие кусочки, которые должны работать (и с которыми справится человек), но которые у вас работают не идеально.

Естественно, я эти промпты и задачи (как и остальные кейсы из бенчмарка), не буду публиковать. Но лучше, если они будут анонимизированы. Можно использовать примеры из OSS MedTech датасетов вроде MIMIC-IV on FHIR, RadEvalX, ReXErr-v1 итп

Можно писать мне в личку в формате.

Ринат, вот у нас в продукте есть такой шаг, где от модели требуется сделать …. (описание чего и зачем). Можно проиллюстрировать таким кейсов. Мы подаем LLM на вход такой текст и такую SGR/SO структуру (если есть). Правильный ответ выглядит так, а у нас почему-то модель показывает X, Y или вообще несет пургу.

Интересно было бы посмотреть, как бы ты подправил тут SGR. И вообще какие модели из бенчмарка хорошо справляются с подобной задачей.


Если получится набрать разных MED кейсов, тогда я с удовольствием встрою их в бенчмарк и добавлю их в MED колонку. Вот и увидим, так ли хороша MedGemma, как ее хвалят.

Ваш, @llm_under_hood 🤗

PS: Не обязательно встраивать в бенчмарк именно ваш пример/eval. Можно посмотреть вместе и сформировать полностью синтетический вариант.
👍45🔥2218😱1



tgoop.com/llm_under_hood/677
Create:
Last Update:

Давайте добавим колонку MED в LLM бенчмарк! 🧬🤝

Текущая версия моего LLM бенчмарка основана на кейсах внедрения в бизнес-проекты. Каждый eval в бенчмарке - это небольшой тест из реального проекта, одна клеточка на error map.

Бенчмарком пользуются команды при выборе моделей под свои задачи. Чаще всего их интересуют не самые мощные модели, а самые маленькие модели, которые смогли забраться достаточно высоко. Например, Qwen3-32B или gpt-oss-20b

А давайте, сделаем этот бенчмарк полезным не только для бизнеса, но еще и для команд, которые внедряют AI/LLM в медицине!

Для этого мне нужны небольшие примеры промптов, маленькие кусочки задач. В идеале это даже такие кусочки, которые должны работать (и с которыми справится человек), но которые у вас работают не идеально.

Естественно, я эти промпты и задачи (как и остальные кейсы из бенчмарка), не буду публиковать. Но лучше, если они будут анонимизированы. Можно использовать примеры из OSS MedTech датасетов вроде MIMIC-IV on FHIR, RadEvalX, ReXErr-v1 итп

Можно писать мне в личку в формате.

Ринат, вот у нас в продукте есть такой шаг, где от модели требуется сделать …. (описание чего и зачем). Можно проиллюстрировать таким кейсов. Мы подаем LLM на вход такой текст и такую SGR/SO структуру (если есть). Правильный ответ выглядит так, а у нас почему-то модель показывает X, Y или вообще несет пургу.

Интересно было бы посмотреть, как бы ты подправил тут SGR. И вообще какие модели из бенчмарка хорошо справляются с подобной задачей.


Если получится набрать разных MED кейсов, тогда я с удовольствием встрою их в бенчмарк и добавлю их в MED колонку. Вот и увидим, так ли хороша MedGemma, как ее хвалят.

Ваш, @llm_under_hood 🤗

PS: Не обязательно встраивать в бенчмарк именно ваш пример/eval. Можно посмотреть вместе и сформировать полностью синтетический вариант.

BY LLM под капотом


Share with your friend now:
tgoop.com/llm_under_hood/677

View MORE
Open in Telegram


Telegram News

Date: |

Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. Select “New Channel” Users are more open to new information on workdays rather than weekends. Administrators
from us


Telegram LLM под капотом
FROM American