tgoop.com/quant_prune_distill/101
Last Update:
Falcon-180B
[Статьи нет, но обещают][Блог-пост на HF]
Свершилось!
Тысячелетний сокол расправил крылья и явился широкой публике во всей красе!
Самая большая модель в публичном доступе, побеждающая все открытые модели на бенчмарках и кое-где даже проприентарные!
Охладим бурю эмоций и перейдем к сути дела.
Модель и правда самая большая - 180 лярдов параметров, чуть больше Bloom и OPT-175B. Обучалась эта здоровенная птица на 3.5Т токенов (против 2Т у различных версий Llama-2) из RefinedWeb и других источников - диалогов, статей, кода. Датасет настолько велик, что даже это немалое число меньше, чем одна эпоха. Длину контекста (2k токенов) не меняли.
Возникает вопрос о compute-оптимальности модели, ибо масштабирование по размеру модели больше, чем по количеству данных, а Chincilla law предписывает масштабировать модель и данные примерно одинаково.
На стандартных бенчмарках Falcon-180B опережает все иные модели из находящихся в публичном доступе (без instruction-finetuning). Хотя памятуя о том, что ранее была выявлена лажа с валидацией меньшей версии модели [1], требуется независимая экспертиза научного сообщества для проверки справедливости заявлений.
Архитетурно большой сокол не отличается существенно от меньших соколиков, за исключением multi-query attention, по аналогии с Llama-2.
Учитывая, колосалльный размер модели, ее инференс и файнтьюнинг представляет определенные сложности. Если самую большую Llama/Llama-2 можно без проблем засунуть на одну A100 (80Gb), а в 4-бита через bitsnandbytes / gptq интеграцию и на A100 (40Gb) / RTX A6000, то Falcon 80Gb не влезает целиком ни на одну GPU стандартными методами, без квантизации в менее чем в 4 бита.
Блог содержит информацию о требуемых ресурсах для запуска модели. Однако, есть вопросы к приведенным в таблице цифрам, ибо QLoRA вряд ли требует меньше памяти, чем инференс с GPTQ с той же битностью. С 4 битной квантизацией, на батче размера 1 и последовательностью длины порядка ~1k должно выходить ~90 Gb. Без информации о длине последовательности непонятен расход память на kv-кэши.
Некоторые утверждают [2], что Falcon-180B лучше справляется со сложными промптами, чем GPT-3.5 и LLama-2.
Возможно, статья приоткроет интересные подробности об обучении модели, хотя скорее всего размер модели и данных играют определяющую роль. Статья про Llama-2 примечательна в первую очередь дообучением модели под чатбота и заточкой ее под полезность и безопасность. Предполагаю, что нечто подобное будет предьявлено и для Falcon-180B.
[1] https://twitter.com/Francis_YAO_/status/1666833311279517696
[2] Обсуждение на reddit
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/101