BUILDING_SINGULARITY Telegram 105
Прыжок выше датасета ⬆️

Классный пример того, как модель может превзойти качество данных, на которых она обучалась.

Статья с пафосным названием Transcendence: Generative Models Can Outperform The Experts That Train Them.

В чем суть?

Взяли LLM и дообучили на шахматных партиях в формате 1.e4 e5 2.Nf3 Nc6 3.Bb5 ... 1/2-1/2. Было 3 датасета: партии игроков до 1000 рейтинга, до 1300, и до 1500.

И оказалось, что с температурой ближе к нулю (ближе к жадной генерации), LLM играет на рейтинг выше, чем в обучающем датасете (рисунок 1 - графики для 3 датасетов).

Но есть нюанс, что такой скачок происходит только на датасетах до 1000 и до 1300.

Можете подумать, почему такое происходит. Ниже их объяснение.

Разнообразие в датасете. Игрок на 1500 + случайные ошибки ~= игрок на 1300. Поэтому, дообучаясь на победных ходах + разнообразных ошибках, LLM научилась больший вес давать правильному ответу. И при жадной генерации мы всегда выбираем именно этот ход.

Пример. Если мы усредним игрока, который выбирает в 40% верный ход А и в 60% неверные ходы B, и игрока, который выбирает в 40% верный ход А и в 60% неверные ходы C, то получим 40% на верный ход и по 30% на неверные. Что при 0-ой температуре даст строго верный ход.


Блогпост с картинками, формулами, кодом, датасетом, моделями.

@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥42🤔1



tgoop.com/building_singularity/105
Create:
Last Update:

Прыжок выше датасета ⬆️

Классный пример того, как модель может превзойти качество данных, на которых она обучалась.

Статья с пафосным названием Transcendence: Generative Models Can Outperform The Experts That Train Them.

В чем суть?

Взяли LLM и дообучили на шахматных партиях в формате 1.e4 e5 2.Nf3 Nc6 3.Bb5 ... 1/2-1/2. Было 3 датасета: партии игроков до 1000 рейтинга, до 1300, и до 1500.

И оказалось, что с температурой ближе к нулю (ближе к жадной генерации), LLM играет на рейтинг выше, чем в обучающем датасете (рисунок 1 - графики для 3 датасетов).

Но есть нюанс, что такой скачок происходит только на датасетах до 1000 и до 1300.

Можете подумать, почему такое происходит. Ниже их объяснение.

Разнообразие в датасете. Игрок на 1500 + случайные ошибки ~= игрок на 1300. Поэтому, дообучаясь на победных ходах + разнообразных ошибках, LLM научилась больший вес давать правильному ответу. И при жадной генерации мы всегда выбираем именно этот ход.

Пример. Если мы усредним игрока, который выбирает в 40% верный ход А и в 60% неверные ходы B, и игрока, который выбирает в 40% верный ход А и в 60% неверные ходы C, то получим 40% на верный ход и по 30% на неверные. Что при 0-ой температуре даст строго верный ход.


Блогпост с картинками, формулами, кодом, датасетом, моделями.

@building_singularity

BY Приближаем сингулярность




Share with your friend now:
tgoop.com/building_singularity/105

View MORE
Open in Telegram


Telegram News

Date: |

“Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more.
from us


Telegram Приближаем сингулярность
FROM American