QUANT_PRUNE_DISTILL Telegram 101
Falcon-180B
[Статьи нет, но обещают][Блог-пост на HF]

Свершилось!
Тысячелетний сокол расправил крылья и явился широкой публике во всей красе!
Самая большая модель в публичном доступе, побеждающая все открытые модели на бенчмарках и кое-где даже проприентарные!

Охладим бурю эмоций и перейдем к сути дела.
Модель и правда самая большая - 180 лярдов параметров, чуть больше Bloom и OPT-175B. Обучалась эта здоровенная птица на 3.5Т токенов (против у различных версий Llama-2) из RefinedWeb и других источников - диалогов, статей, кода. Датасет настолько велик, что даже это немалое число меньше, чем одна эпоха. Длину контекста (2k токенов) не меняли.

Возникает вопрос о compute-оптимальности модели, ибо масштабирование по размеру модели больше, чем по количеству данных, а Chincilla law предписывает масштабировать модель и данные примерно одинаково.

На стандартных бенчмарках Falcon-180B опережает все иные модели из находящихся в публичном доступе (без instruction-finetuning). Хотя памятуя о том, что ранее была выявлена лажа с валидацией меньшей версии модели [1], требуется независимая экспертиза научного сообщества для проверки справедливости заявлений.

Архитетурно большой сокол не отличается существенно от меньших соколиков, за исключением multi-query attention, по аналогии с Llama-2.

Учитывая, колосалльный размер модели, ее инференс и файнтьюнинг представляет определенные сложности. Если самую большую Llama/Llama-2 можно без проблем засунуть на одну A100 (80Gb), а в 4-бита через bitsnandbytes / gptq интеграцию и на A100 (40Gb) / RTX A6000, то Falcon 80Gb не влезает целиком ни на одну GPU стандартными методами, без квантизации в менее чем в 4 бита.

Блог содержит информацию о требуемых ресурсах для запуска модели. Однако, есть вопросы к приведенным в таблице цифрам, ибо QLoRA вряд ли требует меньше памяти, чем инференс с GPTQ с той же битностью. С 4 битной квантизацией, на батче размера 1 и последовательностью длины порядка ~1k должно выходить ~90 Gb. Без информации о длине последовательности непонятен расход память на kv-кэши.

Некоторые утверждают [2], что Falcon-180B лучше справляется со сложными промптами, чем GPT-3.5 и LLama-2.

Возможно, статья приоткроет интересные подробности об обучении модели, хотя скорее всего размер модели и данных играют определяющую роль. Статья про Llama-2 примечательна в первую очередь дообучением модели под чатбота и заточкой ее под полезность и безопасность. Предполагаю, что нечто подобное будет предьявлено и для Falcon-180B.

[1] https://twitter.com/Francis_YAO_/status/1666833311279517696
[2] Обсуждение на reddit
🔥3



tgoop.com/quant_prune_distill/101
Create:
Last Update:

Falcon-180B
[Статьи нет, но обещают][Блог-пост на HF]

Свершилось!
Тысячелетний сокол расправил крылья и явился широкой публике во всей красе!
Самая большая модель в публичном доступе, побеждающая все открытые модели на бенчмарках и кое-где даже проприентарные!

Охладим бурю эмоций и перейдем к сути дела.
Модель и правда самая большая - 180 лярдов параметров, чуть больше Bloom и OPT-175B. Обучалась эта здоровенная птица на 3.5Т токенов (против у различных версий Llama-2) из RefinedWeb и других источников - диалогов, статей, кода. Датасет настолько велик, что даже это немалое число меньше, чем одна эпоха. Длину контекста (2k токенов) не меняли.

Возникает вопрос о compute-оптимальности модели, ибо масштабирование по размеру модели больше, чем по количеству данных, а Chincilla law предписывает масштабировать модель и данные примерно одинаково.

На стандартных бенчмарках Falcon-180B опережает все иные модели из находящихся в публичном доступе (без instruction-finetuning). Хотя памятуя о том, что ранее была выявлена лажа с валидацией меньшей версии модели [1], требуется независимая экспертиза научного сообщества для проверки справедливости заявлений.

Архитетурно большой сокол не отличается существенно от меньших соколиков, за исключением multi-query attention, по аналогии с Llama-2.

Учитывая, колосалльный размер модели, ее инференс и файнтьюнинг представляет определенные сложности. Если самую большую Llama/Llama-2 можно без проблем засунуть на одну A100 (80Gb), а в 4-бита через bitsnandbytes / gptq интеграцию и на A100 (40Gb) / RTX A6000, то Falcon 80Gb не влезает целиком ни на одну GPU стандартными методами, без квантизации в менее чем в 4 бита.

Блог содержит информацию о требуемых ресурсах для запуска модели. Однако, есть вопросы к приведенным в таблице цифрам, ибо QLoRA вряд ли требует меньше памяти, чем инференс с GPTQ с той же битностью. С 4 битной квантизацией, на батче размера 1 и последовательностью длины порядка ~1k должно выходить ~90 Gb. Без информации о длине последовательности непонятен расход память на kv-кэши.

Некоторые утверждают [2], что Falcon-180B лучше справляется со сложными промптами, чем GPT-3.5 и LLama-2.

Возможно, статья приоткроет интересные подробности об обучении модели, хотя скорее всего размер модели и данных играют определяющую роль. Статья про Llama-2 примечательна в первую очередь дообучением модели под чатбота и заточкой ее под полезность и безопасность. Предполагаю, что нечто подобное будет предьявлено и для Falcon-180B.

[1] https://twitter.com/Francis_YAO_/status/1666833311279517696
[2] Обсуждение на reddit

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/101

View MORE
Open in Telegram


Telegram News

Date: |

SUCK Channel Telegram A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. To delete a channel with over 1,000 subscribers, you need to contact user support The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group.
from us


Telegram КПД
FROM American