NEURAL_CAT Telegram 12
Казалось бы, какие еще способы декодирования для языковых моделей можно придумать, кроме greedy, top-k, top-p, beam search?

В статье Typical Decoding for Natural Language Generation (также разбор от Yannic) предлагается посмотреть на задачу с точки зрения теории информации. Мы (люди) стараемся передавать друг другу информацию эффективно, но также стараемся избежать риск недопонимания.

По сути, две стороны медали: я могу говорить (писать), максимизируя вероятность следующего слова (токена) или вероятность всего предложения, но тогда в моем сообщении будет мало информации (так как всё, что я говорю, вы и так ожидаете). Но для вас ведь интереснее (=больше информации) читать то, что вы не ожидаете, верно? Например, ожидали ли вы услышать словосочетание БАХЧЕВЫЕ КУЛЬТУРЫ? 🍉

Так вот, а почему тогда мы в декодировании всегда ориентируемся на максимизацию вероятностей (даже когда сэмплируем, ведь более вероятным токенам мы ставим бОльший вес)? В статье предлагается выбирать токены, информационный контент которых близок к ожидаемому инфомрационному контенту (прочитайте статью, там просто).

Что-то подобное заметили в статье про Nucleus sampling. Люди не максимизируют вероятности! (см. скрин)

P.S.
Новый метод уже доступен в transformersmodel.generate(..., typical_p=0.95)
👍3



tgoop.com/neural_cat/12
Create:
Last Update:

Казалось бы, какие еще способы декодирования для языковых моделей можно придумать, кроме greedy, top-k, top-p, beam search?

В статье Typical Decoding for Natural Language Generation (также разбор от Yannic) предлагается посмотреть на задачу с точки зрения теории информации. Мы (люди) стараемся передавать друг другу информацию эффективно, но также стараемся избежать риск недопонимания.

По сути, две стороны медали: я могу говорить (писать), максимизируя вероятность следующего слова (токена) или вероятность всего предложения, но тогда в моем сообщении будет мало информации (так как всё, что я говорю, вы и так ожидаете). Но для вас ведь интереснее (=больше информации) читать то, что вы не ожидаете, верно? Например, ожидали ли вы услышать словосочетание БАХЧЕВЫЕ КУЛЬТУРЫ? 🍉

Так вот, а почему тогда мы в декодировании всегда ориентируемся на максимизацию вероятностей (даже когда сэмплируем, ведь более вероятным токенам мы ставим бОльший вес)? В статье предлагается выбирать токены, информационный контент которых близок к ожидаемому инфомрационному контенту (прочитайте статью, там просто).

Что-то подобное заметили в статье про Nucleus sampling. Люди не максимизируют вероятности! (см. скрин)

P.S.
Новый метод уже доступен в transformersmodel.generate(..., typical_p=0.95)

BY Нейронный Кот


Share with your friend now:
tgoop.com/neural_cat/12

View MORE
Open in Telegram


Telegram News

Date: |

While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month.
from us


Telegram Нейронный Кот
FROM American