TURBOPROJECT Telegram 2246
Сейчас идет целый поток научных публикаций насчет борьбы с галлюцинациями у ИИ. Я постепенно дам их обзор, но сначала сделаю ремарку - не спешите за очередной методикой как "серебрянной пулей", их на деле очень много. Часть методик по борьбе с галлюцинациями вы и повторить вообще не сможете, а вот вендор LLM легко разломает вам какую вашу кулибинщину по борьбе с галлюцинациями, просто обновив свой продукт.

Apple раскрыл часть новой технологии обучения LLM в борьбе с галлюцинациями и наверняка это уже "Секрет Полишинеля" и тоже самое сейчас вы увидите в новых Gemini или Claude.

Идея заключается во внедрении защиты от галлюцинаций в сам процесс reinforcement learning. В CoT модели на обучении включается требование на рефлексию на предмет галлюцинаций. У Apple это делается через фреймворк RL4HS (Reinforcement Learning for Hallucination Span Detection) и функции награды на основе span-F1 метрики.

span-F1 дает модели высокую оценку не только за понимание, что была галлюцинация, но из локализацию ее в рассуждениях. Потом через GRPO это добавляется во взвешенные оценки по всему обучению.

Что это значит? Скорее всего, новые LLM смогут делать необычные рассуждения, когда сами будут указывать вам, что они заметили, что придумали какие-то факты и сами исправлять это своими рассуждениями дальше.

Наличие такого механизма стоит уже учитывать, если вы еще проектируете решение. Пока вы его делаете, это скорее всего уже будет обычной практикой у вендоров ИИ.

https://arxiv.org/abs/2510.02173v1
🔥177👍2



tgoop.com/turboproject/2246
Create:
Last Update:

Сейчас идет целый поток научных публикаций насчет борьбы с галлюцинациями у ИИ. Я постепенно дам их обзор, но сначала сделаю ремарку - не спешите за очередной методикой как "серебрянной пулей", их на деле очень много. Часть методик по борьбе с галлюцинациями вы и повторить вообще не сможете, а вот вендор LLM легко разломает вам какую вашу кулибинщину по борьбе с галлюцинациями, просто обновив свой продукт.

Apple раскрыл часть новой технологии обучения LLM в борьбе с галлюцинациями и наверняка это уже "Секрет Полишинеля" и тоже самое сейчас вы увидите в новых Gemini или Claude.

Идея заключается во внедрении защиты от галлюцинаций в сам процесс reinforcement learning. В CoT модели на обучении включается требование на рефлексию на предмет галлюцинаций. У Apple это делается через фреймворк RL4HS (Reinforcement Learning for Hallucination Span Detection) и функции награды на основе span-F1 метрики.

span-F1 дает модели высокую оценку не только за понимание, что была галлюцинация, но из локализацию ее в рассуждениях. Потом через GRPO это добавляется во взвешенные оценки по всему обучению.

Что это значит? Скорее всего, новые LLM смогут делать необычные рассуждения, когда сами будут указывать вам, что они заметили, что придумали какие-то факты и сами исправлять это своими рассуждениями дальше.

Наличие такого механизма стоит уже учитывать, если вы еще проектируете решение. Пока вы его делаете, это скорее всего уже будет обычной практикой у вендоров ИИ.

https://arxiv.org/abs/2510.02173v1

BY AI Projects




Share with your friend now:
tgoop.com/turboproject/2246

View MORE
Open in Telegram


Telegram News

Date: |

Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. 3How to create a Telegram channel? Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday.
from us


Telegram AI Projects
FROM American