AI Projects@turboproject P.2227

TURBOPROJECT Telegram 2227

Набирает обороты новый тренд в reinforcement learning по защите LLM от галлюцинаций. Модели предлагают обучать ответу: "я не знаю".

Проблема в том, что максимальные галлюцинации у LLM с небольшим количеством параметров, где факты слишком сжатые и при инференсе модели вынуждены придумывать слишком много деталей. Если сделать такое обучение, то тот же SLM будет постоянно в Незнайку играть.

Скорее нужно чаще в промптинге работать через понятие уверенности модели в ответе. Если обычные CoT методики агентов наивные, то во FLEX я применяю оценку уверенности модели объективную по логитам.

Однако интересное наблюдение, что если брать уверенность того же Qwen 0,6b в ответе, то через рефлексию он всего на 10% отклоняется от вероятности логита. Это довольно неожиданный результат, что рефлексия ИИ в части его уверенности в ответе надёжнее, чем кажется. Надо просто правильно спрашивать промптом.

https://www.arxiv.org/abs/2509.25760

TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

While large language models (LLMs) have demonstrated strong performance on factoid question answering, they are still prone to hallucination and untruthful responses, particularly when tasks...

❤10👍1

www.tgoop.com/turboproject/2227

883 viewsVladimir Ivanov, Oct 3 at 21:34

tgoop.com/turboproject/2227

Create: 2025-10-03
Last Update: 2025-10-08 14:03:37

Набирает обороты новый тренд в reinforcement learning по защите LLM от галлюцинаций. Модели предлагают обучать ответу: "я не знаю".

Проблема в том, что максимальные галлюцинации у LLM с небольшим количеством параметров, где факты слишком сжатые и при инференсе модели вынуждены придумывать слишком много деталей. Если сделать такое обучение, то тот же SLM будет постоянно в Незнайку играть.

Скорее нужно чаще в промптинге работать через понятие уверенности модели в ответе. Если обычные CoT методики агентов наивные, то во FLEX я применяю оценку уверенности модели объективную по логитам.

Однако интересное наблюдение, что если брать уверенность того же Qwen 0,6b в ответе, то через рефлексию он всего на 10% отклоняется от вероятности логита. Это довольно неожиданный результат, что рефлексия ИИ в части его уверенности в ответе надёжнее, чем кажется. Надо просто правильно спрашивать промптом.

https://www.arxiv.org/abs/2509.25760

BY AI Projects

Share with your friend now:
tgoop.com/turboproject/2227

Open in Telegram

Telegram News

Date: 2025-10-08|

5Telegram Channel avatar size/dimensions Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Healing through screaming therapy According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously.
from us

Telegram AI Projects
FROM American