DLINNLP Telegram 1635
Forwarded from DeepSchool
Как LLMs могут принимать сразу 100К токенов на вход?

Недавно несколько компаний объявили о возможности своих LLMs брать на вход аж до 100K токенов. Это промпт размером с книгу!
Для примера, OpenAI GPT-4 может брать 8-32K, а опен-сорсные модели всего 2K.

В новой статье Галя, выпускница нашего курса, разобрала техническую сторону вопроса и постаралась включить все основыне трюки, используемые MosaicML, Anthropic и Google.

В статье описаны:
- подробный вывод вычислительной сложности трансформера и ее влияние на стоимость обучения
- хитрые вычисления на GPU и Flash Attention, который недавно стал частью PyTorch
- нестандартный позиционный эмбеддинг ALiBi и почему нельзя было использовать оригинальный
- Multi-Query Attention, Sparse Attention и Условные вычисления

Читайте статью по ссылке и поддерживайте Галю 👏🏻 на Medium:
https://medium.com/gopenai/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

Задавайте вопросы Гале в комментариях к этому посту 👇
👍28🔥1242🤯1



tgoop.com/dlinnlp/1635
Create:
Last Update:

Как LLMs могут принимать сразу 100К токенов на вход?

Недавно несколько компаний объявили о возможности своих LLMs брать на вход аж до 100K токенов. Это промпт размером с книгу!
Для примера, OpenAI GPT-4 может брать 8-32K, а опен-сорсные модели всего 2K.

В новой статье Галя, выпускница нашего курса, разобрала техническую сторону вопроса и постаралась включить все основыне трюки, используемые MosaicML, Anthropic и Google.

В статье описаны:
- подробный вывод вычислительной сложности трансформера и ее влияние на стоимость обучения
- хитрые вычисления на GPU и Flash Attention, который недавно стал частью PyTorch
- нестандартный позиционный эмбеддинг ALiBi и почему нельзя было использовать оригинальный
- Multi-Query Attention, Sparse Attention и Условные вычисления

Читайте статью по ссылке и поддерживайте Галю 👏🏻 на Medium:
https://medium.com/gopenai/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

Задавайте вопросы Гале в комментариях к этому посту 👇

BY DL in NLP




Share with your friend now:
tgoop.com/dlinnlp/1635

View MORE
Open in Telegram


Telegram News

Date: |

In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added. best-secure-messaging-apps-shutterstock-1892950018.jpg ZDNET RECOMMENDS
from us


Telegram DL in NLP
FROM American