Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/nlpwanderer/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
NLP Wanderer@nlpwanderer P.34
NLPWANDERER Telegram 34
Вышла Starling-7B-beta, продолжение семейства старлингов

Starling-7b-alpha до недавнего времени была лучшей 7b моделью согласно LMSys Chatbot Arena. В ее основе лежал малоизвестный метод онлайн RL - APA и Reward модель обученная на датасете Nectar. И reward модель и сам alpha являются тюнами openchat-7b, другой хорошо известной модели, обученной с помощью другого малоизвестного метода C-RLFT, аналогом DPO.

Новая версия Starling - beta, судя по всему возвращается к корням и была обучена с помощью PPO, но теперь с куда более мощной reward моделью, в основе которой уже лежит одна из лучших опенсорс LLM Yi-Chat-34b. Интересно, что для тренировки RM использовался метод K-wise maximum likelihood из недавней статьи. За основу для тюна был так же взят OpenChat-7b, но уже новой версии 0106. В качестве датасета преференсов использовался тот же самый Nectar, что и для alpha.

Так как официальной статьи нет ни по alpha ни по beta, все на что можно опираться это лидерборды, карточки моделей и небольшой блогпост от berkley о том как делался Starling-alpha.

Согласно этому блогпосту, авторы делают заключение о том, что методы offline RL вроде DPO не могут дать такого же преимущества как правильно сделанный online RL с хорошей RM, и судя по метрикам и субъективному качеству в этом сложно сомневаться. Но также и сложно заключить какую роль тут играет основа моделей - OpenChat, который так же имеет очень неплохие метрики и идет сразу после Starling.

Новый Starling-7b-beta судя по появившимся оценкам, является новой SOTA для 7b моделей, теснит его разве что только сам OpenChat. MTBench оценил beta в 8.12 пунктов, что сейчас фактически почти лучший результат для опенсорса. На OpenLLM LB он имеет средний скор 69.68, что неплохо, но по цифрам это примерно так же как различные мерджи и dpo тюны openchat. Отличительной особенностью тут является скорее человеческая и GPT-4 оценка ответов, которая для старлингов обычно выше, чем для других моделей.

Свободно поиграться с моделькой можно на Chatbot Arena, она уже была туда добавлена. Кстати, она умеет неплохо отвечать на русском, но кажется хуже чем ее предыдушая версия, по моим оценкам, некоторые ее способности ризонинга ломаются на русском относительно английского (но все еще лучше сайги).
👍9



tgoop.com/nlpwanderer/34
Create:
Last Update:

Вышла Starling-7B-beta, продолжение семейства старлингов

Starling-7b-alpha до недавнего времени была лучшей 7b моделью согласно LMSys Chatbot Arena. В ее основе лежал малоизвестный метод онлайн RL - APA и Reward модель обученная на датасете Nectar. И reward модель и сам alpha являются тюнами openchat-7b, другой хорошо известной модели, обученной с помощью другого малоизвестного метода C-RLFT, аналогом DPO.

Новая версия Starling - beta, судя по всему возвращается к корням и была обучена с помощью PPO, но теперь с куда более мощной reward моделью, в основе которой уже лежит одна из лучших опенсорс LLM Yi-Chat-34b. Интересно, что для тренировки RM использовался метод K-wise maximum likelihood из недавней статьи. За основу для тюна был так же взят OpenChat-7b, но уже новой версии 0106. В качестве датасета преференсов использовался тот же самый Nectar, что и для alpha.

Так как официальной статьи нет ни по alpha ни по beta, все на что можно опираться это лидерборды, карточки моделей и небольшой блогпост от berkley о том как делался Starling-alpha.

Согласно этому блогпосту, авторы делают заключение о том, что методы offline RL вроде DPO не могут дать такого же преимущества как правильно сделанный online RL с хорошей RM, и судя по метрикам и субъективному качеству в этом сложно сомневаться. Но также и сложно заключить какую роль тут играет основа моделей - OpenChat, который так же имеет очень неплохие метрики и идет сразу после Starling.

Новый Starling-7b-beta судя по появившимся оценкам, является новой SOTA для 7b моделей, теснит его разве что только сам OpenChat. MTBench оценил beta в 8.12 пунктов, что сейчас фактически почти лучший результат для опенсорса. На OpenLLM LB он имеет средний скор 69.68, что неплохо, но по цифрам это примерно так же как различные мерджи и dpo тюны openchat. Отличительной особенностью тут является скорее человеческая и GPT-4 оценка ответов, которая для старлингов обычно выше, чем для других моделей.

Свободно поиграться с моделькой можно на Chatbot Arena, она уже была туда добавлена. Кстати, она умеет неплохо отвечать на русском, но кажется хуже чем ее предыдушая версия, по моим оценкам, некоторые ее способности ризонинга ломаются на русском относительно английского (но все еще лучше сайги).

BY NLP Wanderer




Share with your friend now:
tgoop.com/nlpwanderer/34

View MORE
Open in Telegram


Telegram News

Date: |

The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: fire bomb molotov November 18 Dylan Hollingsworth yau ma tei You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. Hashtags Clear
from us


Telegram NLP Wanderer
FROM American