BUILDING_SINGULARITY Telegram 53
Большой обзор 👁 методов по исправлению ответов LLM’ок 👨‍🏫

В генерациях LLM могут быть ложные факты, неверные рассуждения, код с багами, токсичные высказывания и прочие приколы. Авторы разложили по полочкам имеющиеся способы борьбы с этим.

Самый популярный сейчас подход для такого - собрать датасет предпочтений пользователей и делать RLHF. Но есть и намного более быстрые способы, где LLM генерирует критику сама для себя, и на её основе сама же исправляется 😱

Такой пример post-hoc исправления может быть дешевле и эффективней в некоторых задачах, чем исправление в процессе обучения как в RLHF.

Авторы выделили во всех этих методах 3 сущности (рисунок 1):

1. Языковую модель, которая генерирует изначальный ответ
2. Критика, который дает фидбек; это может быть человеческая оценка, ответ GPT4 с нужным промптом, награда ревард модели, …
3. Способ исправления


Способы исправления могут быть:
⁃ С дообучением модели: RLHF (или SLiC / DPO) или просто составление исправленного датасета и обычный файнтюн
⁃ Во время генерации: изменять вероятности новых токенов на основе награды ревард модели, например; или генерировать N кандидатов, а затем выбирать лучший по мнению критика
⁃ Post-hoc исправление (рисунок 2): генерация той же LLM с 1ого шага, но с расширенным промптом, ...

Прикольно смотреть на такую таксономию, всё уложилось четко 😗

Можно брать листья из каждой ветки, получать новый способ по исправлению ответов, и писать статью :D
(хотя там столько ссылок на другие работы, что может всё уже и перебрали)


Статья: "Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies"
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥32



tgoop.com/building_singularity/53
Create:
Last Update:

Большой обзор 👁 методов по исправлению ответов LLM’ок 👨‍🏫

В генерациях LLM могут быть ложные факты, неверные рассуждения, код с багами, токсичные высказывания и прочие приколы. Авторы разложили по полочкам имеющиеся способы борьбы с этим.

Самый популярный сейчас подход для такого - собрать датасет предпочтений пользователей и делать RLHF. Но есть и намного более быстрые способы, где LLM генерирует критику сама для себя, и на её основе сама же исправляется 😱

Такой пример post-hoc исправления может быть дешевле и эффективней в некоторых задачах, чем исправление в процессе обучения как в RLHF.

Авторы выделили во всех этих методах 3 сущности (рисунок 1):

1. Языковую модель, которая генерирует изначальный ответ
2. Критика, который дает фидбек; это может быть человеческая оценка, ответ GPT4 с нужным промптом, награда ревард модели, …
3. Способ исправления


Способы исправления могут быть:
⁃ С дообучением модели: RLHF (или SLiC / DPO) или просто составление исправленного датасета и обычный файнтюн
⁃ Во время генерации: изменять вероятности новых токенов на основе награды ревард модели, например; или генерировать N кандидатов, а затем выбирать лучший по мнению критика
⁃ Post-hoc исправление (рисунок 2): генерация той же LLM с 1ого шага, но с расширенным промптом, ...

Прикольно смотреть на такую таксономию, всё уложилось четко 😗

Можно брать листья из каждой ветки, получать новый способ по исправлению ответов, и писать статью :D
(хотя там столько ссылок на другие работы, что может всё уже и перебрали)


Статья: "Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies"

BY Приближаем сингулярность





Share with your friend now:
tgoop.com/building_singularity/53

View MORE
Open in Telegram


Telegram News

Date: |

The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. Channel login must contain 5-32 characters While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. “[The defendant] could not shift his criminal liability,” Hui said. How to Create a Private or Public Channel on Telegram?
from us


Telegram Приближаем сингулярность
FROM American