tgoop.com/turboproject/2227
Last Update:
Набирает обороты новый тренд в reinforcement learning по защите LLM от галлюцинаций. Модели предлагают обучать ответу: "я не знаю".
Проблема в том, что максимальные галлюцинации у LLM с небольшим количеством параметров, где факты слишком сжатые и при инференсе модели вынуждены придумывать слишком много деталей. Если сделать такое обучение, то тот же SLM будет постоянно в Незнайку играть.
Скорее нужно чаще в промптинге работать через понятие уверенности модели в ответе. Если обычные CoT методики агентов наивные, то во FLEX я применяю оценку уверенности модели объективную по логитам.
Однако интересное наблюдение, что если брать уверенность того же Qwen 0,6b в ответе, то через рефлексию он всего на 10% отклоняется от вероятности логита. Это довольно неожиданный результат, что рефлексия ИИ в части его уверенности в ответе надёжнее, чем кажется. Надо просто правильно спрашивать промптом.
https://www.arxiv.org/abs/2509.25760
BY AI Projects

Share with your friend now:
tgoop.com/turboproject/2227