QUANT_PRUNE_DISTILL Telegram 273
[Блог Nvidia][пост на addmeto]

Пока все находятся в томном ожидании релиза 🦙-3 400B Nvidia сделали ход конем и выкатили семейство здоровенных херовин.

Знакомьтесь - Nemotron-4!
Идет в трех комплектациях:
1️⃣Base - претрейн
2️⃣Instruct - дообучение на инструкциях
3️⃣Reward - reward model для RL alignment, обученная поверх Base

Предобучалось оно на 9 триллионах токенах из 50+ человеческих языков и 40+ языков программирования.
Для alignment использовали набор из 20к инструкций, который выложили в открытый доступ.
Контекст коротковат по современным меркам - всего токенов, небось больше не лезло во время обучения 😅.

Скоры на бенчах весьма достойны. На свежей ArenaHard от lmsys уступают лишь свежим версиям чат-гопоты и Клод Опус. На lmsys arena было бы еще интересно глянуть Elo Score.

Ну и самая интересная деталь - размер 340B параметров, т.е 640Gb на одни лишь веса в fp16. Как вы ее будете инферить - это ваша проблема)

Задача экстремальной квантизации уже не вместить LLMку именно на consumer-grade GPU, а хоть на какую-то)

Но зеленым, конечно, спасибо за такой вклад в опенсорс)
👍26🍾3👏2



tgoop.com/quant_prune_distill/273
Create:
Last Update:

[Блог Nvidia][пост на addmeto]

Пока все находятся в томном ожидании релиза 🦙-3 400B Nvidia сделали ход конем и выкатили семейство здоровенных херовин.

Знакомьтесь - Nemotron-4!
Идет в трех комплектациях:
1️⃣Base - претрейн
2️⃣Instruct - дообучение на инструкциях
3️⃣Reward - reward model для RL alignment, обученная поверх Base

Предобучалось оно на 9 триллионах токенах из 50+ человеческих языков и 40+ языков программирования.
Для alignment использовали набор из 20к инструкций, который выложили в открытый доступ.
Контекст коротковат по современным меркам - всего токенов, небось больше не лезло во время обучения 😅.

Скоры на бенчах весьма достойны. На свежей ArenaHard от lmsys уступают лишь свежим версиям чат-гопоты и Клод Опус. На lmsys arena было бы еще интересно глянуть Elo Score.

Ну и самая интересная деталь - размер 340B параметров, т.е 640Gb на одни лишь веса в fp16. Как вы ее будете инферить - это ваша проблема)

Задача экстремальной квантизации уже не вместить LLMку именно на consumer-grade GPU, а хоть на какую-то)

Но зеленым, конечно, спасибо за такой вклад в опенсорс)

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/273

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) Administrators How to Create a Private or Public Channel on Telegram? A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations.
from us


Telegram КПД
FROM American