MACHINELEARNING_INTERVIEW Telegram 1205
Forwarded from Machinelearning
⚡️ Llama 3.1-Nemotron-51B-Instruct: модель от NVIDIA по методу Neural Architecture Search.

Llama 3.1-Nemotron-51B-Instruct основана на Llama 3.1-70B и предназначена для NLP-задач генерации текста, чата, рассуждения и обобщения. Мультиязычность наследована от родительская модель. Llama 3.1-Nemotron-51B-Instruct также умеет обрабатывать языки программирования.

Архитектура модели построена с использованием методологии Neural Architecture Search (NAS) и блочной дистилляции.

NAS позволяет отобрать наиболее эффективные блоки трансформера для каждого слоя модели, а блочная дистилляция обеспечивает перенос знаний от исходной модели Llama 3.1-70B к более компактной Llama 3.1-Nemotron-51B-Instruct.

Полученная архитектура имеет нерегулярную структуру блоков с уменьшенным количеством операций внимания и полносвязных слоев, что существенно снижает вычислительную сложность и объем используемой памяти.

В процессе обучения модели использовались бенчмаркиMT-Bench и MMLU. Тестирование проводилось на задачах генерации текста, перевода и ответов на вопросы.

Результаты показали, что инференс Llama 3.1-Nemotron-51B-Instruct в 2.2 раза быстрее "родительской" модели (Llama 3.1-70B) при сохранении практически той же точности.

Благодаря сниженным требованиям к памяти, модель может обрабатывать в 4 раза большие объемы данных на одном GPU.


▶️Рекомендованные аппаратные конфигурации:

🟠FP8 - H100-80GB (версии FP8 пока нет в открытом доступе);

🟢BF16 - 2x H100-80GB GPU или 2x A100-80GB GPU.

▶️Пример инференса на Transformers (версия 4.44.2 или выше):

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-51B-Instruct"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=20,
**model_kwargs
)
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))


📌Лицензирование : NVIDIA AI Foundation Models Community License.


🟡Страница проекта
🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Nemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95🥰1



tgoop.com/machinelearning_interview/1205
Create:
Last Update:

⚡️ Llama 3.1-Nemotron-51B-Instruct: модель от NVIDIA по методу Neural Architecture Search.

Llama 3.1-Nemotron-51B-Instruct основана на Llama 3.1-70B и предназначена для NLP-задач генерации текста, чата, рассуждения и обобщения. Мультиязычность наследована от родительская модель. Llama 3.1-Nemotron-51B-Instruct также умеет обрабатывать языки программирования.

Архитектура модели построена с использованием методологии Neural Architecture Search (NAS) и блочной дистилляции.

NAS позволяет отобрать наиболее эффективные блоки трансформера для каждого слоя модели, а блочная дистилляция обеспечивает перенос знаний от исходной модели Llama 3.1-70B к более компактной Llama 3.1-Nemotron-51B-Instruct.

Полученная архитектура имеет нерегулярную структуру блоков с уменьшенным количеством операций внимания и полносвязных слоев, что существенно снижает вычислительную сложность и объем используемой памяти.

В процессе обучения модели использовались бенчмаркиMT-Bench и MMLU. Тестирование проводилось на задачах генерации текста, перевода и ответов на вопросы.

Результаты показали, что инференс Llama 3.1-Nemotron-51B-Instruct в 2.2 раза быстрее "родительской" модели (Llama 3.1-70B) при сохранении практически той же точности.

Благодаря сниженным требованиям к памяти, модель может обрабатывать в 4 раза большие объемы данных на одном GPU.


▶️Рекомендованные аппаратные конфигурации:

🟠FP8 - H100-80GB (версии FP8 пока нет в открытом доступе);

🟢BF16 - 2x H100-80GB GPU или 2x A100-80GB GPU.

▶️Пример инференса на Transformers (версия 4.44.2 или выше):

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-51B-Instruct"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=20,
**model_kwargs
)
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))


📌Лицензирование : NVIDIA AI Foundation Models Community License.


🟡Страница проекта
🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Nemotron

BY Machine learning Interview






Share with your friend now:
tgoop.com/machinelearning_interview/1205

View MORE
Open in Telegram


Telegram News

Date: |

Some Telegram Channels content management tips Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. bank east asia october 20 kowloon Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations.
from us


Telegram Machine learning Interview
FROM American