Warning: file_put_contents(aCache/aDaily/post/ai_machinelearning_big_data/-7355-7356-7357-7355-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Machinelearning@ai_machinelearning_big_data P.7357
AI_MACHINELEARNING_BIG_DATA Telegram 7357
🌟 CСмСйство Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Nemotron-H ΠΎΡ‚ NVIDIA.

NVIDIA выпустила Π½ΠΎΠ²ΠΎΠ΅ сСмСйство языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Nemotron-H, ΡΠΎΡ‡Π΅Ρ‚Π°ΡŽΡ‰ΠΈΡ… Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ Mamba ΠΈ Transformer. Π­Ρ‚ΠΈ Π³ΠΈΠ±Ρ€ΠΈΠ΄Ρ‹ ΠΎΠ±Π΅Ρ‰Π°ΡŽΡ‚ Π΄ΠΎ 3Ρ… ускорСния инфСрСнса ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с чистыми Transformer-модСлями Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎΠ³ΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° (Qwen ΠΈΠ»ΠΈ Llama).

БСмСйство ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ английский, Π½Π΅ΠΌΠ΅Ρ†ΠΊΠΈΠΉ, испанский, французский, ΠΈΡ‚Π°Π»ΡŒΡΠ½ΡΠΊΠΈΠΉ, корСйский, ΠΏΠΎΡ€Ρ‚ΡƒΠ³Π°Π»ΡŒΡΠΊΠΈΠΉ, русский, японский ΠΈ китайский языки.

Основной фокус Nemotron-H β€” баланс ΠΌΠ΅ΠΆΠ΄Ρƒ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒΡŽ ΠΈ ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΠΎΠΌ: Π΄Π°ΠΆΠ΅ ΠΏΡ€ΠΈ мСньшСм числС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² (47–56 ΠΌΠ»Ρ€Π΄.) ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΄Π΅ΠΌΠΎΠ½ΡΡ‚Ρ€ΠΈΡ€ΡƒΡŽΡ‚ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ, Π±Π»ΠΈΠ·ΠΊΡƒΡŽ ΠΊ DeepSeek-V3-671B.

ΠžΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ Nemotron-H β€” использованиС FP8 для ΠΏΡ€Π΅Ρ‚Ρ€Π΅ΠΉΠ½Π°. 56B-Π²Π΅Ρ€ΡΠΈΡŽ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈ Π½Π° 20 Ρ‚Ρ€Π»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² с ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ Ρ‚Π΅Π½Π·ΠΎΡ€ΠΎΠ² Β«Π½Π° Π»Π΅Ρ‚ΡƒΒ», Π° ΡΠΆΠ°Ρ‚ΡƒΡŽ Π² FP4 модСль c 47B ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ Π½Π° ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΡŒΡΠΊΠΎΠΉ RTX 5090 с ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΎΠΉ контСкста Π΄ΠΎ 1 ΠΌΠ»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². ΠŸΡ€Π°Π²Π΄Π°, ΠΏΡ€ΠΈΡˆΠ»ΠΎΡΡŒ ΠΏΠΎΠΆΠ΅Ρ€Ρ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ Ρ‡Π°ΡΡ‚ΡŒΡŽ слоСв самовнимания β€” ΠΈΡ… Π·Π°ΠΌΠ΅Π½ΠΈΠ»ΠΈ Π½Π° Π±ΠΎΠ»Π΅Π΅ Π»Π΅Π³ΠΊΠΈΠ΅ Mamba-Π±Π»ΠΎΠΊΠΈ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ.

NVIDIA Π½Π΅ стала Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Π΅ вСрсии ΠΌΠΎΠ΄Π΅Π»ΠΈ с нуля. ВмСсто этого использовали Π΄ΠΈΡΡ‚ΠΈΠ»Π»ΡΡ†ΠΈΡŽ: 47B-модСль ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»ΠΈ ΠΈΠ· 56B, ΡƒΠ΄Π°Π»ΠΈΠ² ΠΏΠΎΠ»ΠΎΠ²ΠΈΠ½Ρƒ «тяТСлых» слоСв ΠΈ Π΄ΠΎΠΎΠ±ΡƒΡ‡ΠΈΠ² Π½Π° 63 ΠΌΠ»Ρ€Π΄ Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ β€” ΠΏΠΎΡ‡Ρ‚ΠΈ Ρ‚Π° ΠΆΠ΅ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ, Π½ΠΎ Π½Π° 1.2x быстрСС.

Π’ Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ°Ρ… Nemotron-H ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΡ‚ ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚ΠΎΠ² Π² ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ΅ ΠΈ ΠΊΠΎΠ΄Π΅: Π½Π° GSM8k 56B-вСрсия Π΄Π°Π΅Ρ‚ 93.7% ΠΏΡ€ΠΎΡ‚ΠΈΠ² 90.9% Ρƒ Qwen-72B. А 8B-модСль, Ρ…ΠΎΡ‚ΡŒ ΠΈ уступаСт Π² MMLU, вырываСтся Π²ΠΏΠ΅Ρ€Ρ‘Π΄ Π² HumanEval+ (56.1%) β€” ΠΎΠΆΠΈΠ΄Π°Π΅ΠΌΠΎ, с ΡƒΡ‡Π΅Ρ‚ΠΎΠΌ Π΅Π΅ instruct-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ.

Пока ΠΌΠΎΠ΄Π΅Π»ΠΈ доступны Π½Π° HF ΠΊΠ°ΠΊ Π±Π°Π·ΠΎΠ²Ρ‹Π΅, Π½ΠΎ NVIDIA ΠΎΠ±Π΅Ρ‰Π°Π΅Ρ‚ Π΄ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ инструктивныС ΠΈ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Ρ‹Π΅ вСрсии.

▢️В опСнсорсный Ρ€Π΅Π»ΠΈΠ· Π±Ρ‹Π»ΠΈ Π²Ρ‹ΠΏΡƒΡˆΠ΅Π½Ρ‹ Ρ‡Π΅ΠΊΠΏΠΎΠΈΠ½Ρ‚Ρ‹ с контСкстом 8 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²:

🟒Nemotron-H-56B-Base-8K

🟒Nemotron-H-47B-Base-8K

🟒Nemotron-H-8B-Base-8K


πŸ“Œ Π›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: NVIDIA Internal Scientific Research and Development Model License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠšΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡ Π½Π° HF
🟑Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #NemotronH #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘53❀26πŸ”₯10πŸ€”6❀‍πŸ”₯2



tgoop.com/ai_machinelearning_big_data/7357
Create:
Last Update:

🌟 CСмСйство Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Nemotron-H ΠΎΡ‚ NVIDIA.

NVIDIA выпустила Π½ΠΎΠ²ΠΎΠ΅ сСмСйство языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Nemotron-H, ΡΠΎΡ‡Π΅Ρ‚Π°ΡŽΡ‰ΠΈΡ… Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ Mamba ΠΈ Transformer. Π­Ρ‚ΠΈ Π³ΠΈΠ±Ρ€ΠΈΠ΄Ρ‹ ΠΎΠ±Π΅Ρ‰Π°ΡŽΡ‚ Π΄ΠΎ 3Ρ… ускорСния инфСрСнса ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с чистыми Transformer-модСлями Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎΠ³ΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° (Qwen ΠΈΠ»ΠΈ Llama).

БСмСйство ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ английский, Π½Π΅ΠΌΠ΅Ρ†ΠΊΠΈΠΉ, испанский, французский, ΠΈΡ‚Π°Π»ΡŒΡΠ½ΡΠΊΠΈΠΉ, корСйский, ΠΏΠΎΡ€Ρ‚ΡƒΠ³Π°Π»ΡŒΡΠΊΠΈΠΉ, русский, японский ΠΈ китайский языки.

Основной фокус Nemotron-H β€” баланс ΠΌΠ΅ΠΆΠ΄Ρƒ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒΡŽ ΠΈ ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΠΎΠΌ: Π΄Π°ΠΆΠ΅ ΠΏΡ€ΠΈ мСньшСм числС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² (47–56 ΠΌΠ»Ρ€Π΄.) ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΄Π΅ΠΌΠΎΠ½ΡΡ‚Ρ€ΠΈΡ€ΡƒΡŽΡ‚ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ, Π±Π»ΠΈΠ·ΠΊΡƒΡŽ ΠΊ DeepSeek-V3-671B.

ΠžΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ Nemotron-H β€” использованиС FP8 для ΠΏΡ€Π΅Ρ‚Ρ€Π΅ΠΉΠ½Π°. 56B-Π²Π΅Ρ€ΡΠΈΡŽ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈ Π½Π° 20 Ρ‚Ρ€Π»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² с ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ Ρ‚Π΅Π½Π·ΠΎΡ€ΠΎΠ² Β«Π½Π° Π»Π΅Ρ‚ΡƒΒ», Π° ΡΠΆΠ°Ρ‚ΡƒΡŽ Π² FP4 модСль c 47B ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ Π½Π° ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΡŒΡΠΊΠΎΠΉ RTX 5090 с ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΎΠΉ контСкста Π΄ΠΎ 1 ΠΌΠ»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². ΠŸΡ€Π°Π²Π΄Π°, ΠΏΡ€ΠΈΡˆΠ»ΠΎΡΡŒ ΠΏΠΎΠΆΠ΅Ρ€Ρ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ Ρ‡Π°ΡΡ‚ΡŒΡŽ слоСв самовнимания β€” ΠΈΡ… Π·Π°ΠΌΠ΅Π½ΠΈΠ»ΠΈ Π½Π° Π±ΠΎΠ»Π΅Π΅ Π»Π΅Π³ΠΊΠΈΠ΅ Mamba-Π±Π»ΠΎΠΊΠΈ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ.

NVIDIA Π½Π΅ стала Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Π΅ вСрсии ΠΌΠΎΠ΄Π΅Π»ΠΈ с нуля. ВмСсто этого использовали Π΄ΠΈΡΡ‚ΠΈΠ»Π»ΡΡ†ΠΈΡŽ: 47B-модСль ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»ΠΈ ΠΈΠ· 56B, ΡƒΠ΄Π°Π»ΠΈΠ² ΠΏΠΎΠ»ΠΎΠ²ΠΈΠ½Ρƒ «тяТСлых» слоСв ΠΈ Π΄ΠΎΠΎΠ±ΡƒΡ‡ΠΈΠ² Π½Π° 63 ΠΌΠ»Ρ€Π΄ Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ β€” ΠΏΠΎΡ‡Ρ‚ΠΈ Ρ‚Π° ΠΆΠ΅ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ, Π½ΠΎ Π½Π° 1.2x быстрСС.

Π’ Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ°Ρ… Nemotron-H ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΡ‚ ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚ΠΎΠ² Π² ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ΅ ΠΈ ΠΊΠΎΠ΄Π΅: Π½Π° GSM8k 56B-вСрсия Π΄Π°Π΅Ρ‚ 93.7% ΠΏΡ€ΠΎΡ‚ΠΈΠ² 90.9% Ρƒ Qwen-72B. А 8B-модСль, Ρ…ΠΎΡ‚ΡŒ ΠΈ уступаСт Π² MMLU, вырываСтся Π²ΠΏΠ΅Ρ€Ρ‘Π΄ Π² HumanEval+ (56.1%) β€” ΠΎΠΆΠΈΠ΄Π°Π΅ΠΌΠΎ, с ΡƒΡ‡Π΅Ρ‚ΠΎΠΌ Π΅Π΅ instruct-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ.

Пока ΠΌΠΎΠ΄Π΅Π»ΠΈ доступны Π½Π° HF ΠΊΠ°ΠΊ Π±Π°Π·ΠΎΠ²Ρ‹Π΅, Π½ΠΎ NVIDIA ΠΎΠ±Π΅Ρ‰Π°Π΅Ρ‚ Π΄ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ инструктивныС ΠΈ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Ρ‹Π΅ вСрсии.

▢️В опСнсорсный Ρ€Π΅Π»ΠΈΠ· Π±Ρ‹Π»ΠΈ Π²Ρ‹ΠΏΡƒΡˆΠ΅Π½Ρ‹ Ρ‡Π΅ΠΊΠΏΠΎΠΈΠ½Ρ‚Ρ‹ с контСкстом 8 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²:

🟒Nemotron-H-56B-Base-8K

🟒Nemotron-H-47B-Base-8K

🟒Nemotron-H-8B-Base-8K


πŸ“Œ Π›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: NVIDIA Internal Scientific Research and Development Model License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠšΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡ Π½Π° HF
🟑Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #NemotronH #NVIDIA

BY Machinelearning






Share with your friend now:
tgoop.com/ai_machinelearning_big_data/7357

View MORE
Open in Telegram


Telegram News

Date: |

As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn.
from us


Telegram Machinelearning
FROM American