tgoop.com/ai_machinelearning_big_data/7357
Last Update:
NVIDIA Π²ΡΠΏΡΡΡΠΈΠ»Π° Π½ΠΎΠ²ΠΎΠ΅ ΡΠ΅ΠΌΠ΅ΠΉΡΡΠ²ΠΎ ΡΠ·ΡΠΊΠΎΠ²ΡΡ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Nemotron-H, ΡΠΎΡΠ΅ΡΠ°ΡΡΠΈΡ
Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΡ Mamba ΠΈ Transformer. ΠΡΠΈ Π³ΠΈΠ±ΡΠΈΠ΄Ρ ΠΎΠ±Π΅ΡΠ°ΡΡ Π΄ΠΎ 3Ρ
ΡΡΠΊΠΎΡΠ΅Π½ΠΈΡ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ° ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ ΡΠΈΡΡΡΠΌΠΈ Transformer-ΠΌΠΎΠ΄Π΅Π»ΡΠΌΠΈ Π°Π½Π°Π»ΠΎΠ³ΠΈΡΠ½ΠΎΠ³ΠΎ ΡΠ°Π·ΠΌΠ΅ΡΠ° (Qwen ΠΈΠ»ΠΈ Llama).
Π‘Π΅ΠΌΠ΅ΠΉΡΡΠ²ΠΎ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅Ρ Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΈΠΉ, Π½Π΅ΠΌΠ΅ΡΠΊΠΈΠΉ, ΠΈΡΠΏΠ°Π½ΡΠΊΠΈΠΉ, ΡΡΠ°Π½ΡΡΠ·ΡΠΊΠΈΠΉ, ΠΈΡΠ°Π»ΡΡΠ½ΡΠΊΠΈΠΉ, ΠΊΠΎΡΠ΅ΠΉΡΠΊΠΈΠΉ, ΠΏΠΎΡΡΡΠ³Π°Π»ΡΡΠΊΠΈΠΉ, ΡΡΡΡΠΊΠΈΠΉ, ΡΠΏΠΎΠ½ΡΠΊΠΈΠΉ ΠΈ ΠΊΠΈΡΠ°ΠΉΡΠΊΠΈΠΉ ΡΠ·ΡΠΊΠΈ.
ΠΡΠ½ΠΎΠ²Π½ΠΎΠΉ ΡΠΎΠΊΡΡ Nemotron-H β Π±Π°Π»Π°Π½Ρ ΠΌΠ΅ΠΆΠ΄Ρ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΡΡ ΠΈ ΠΈΠ½ΡΠ΅Π»Π»Π΅ΠΊΡΠΎΠΌ: Π΄Π°ΠΆΠ΅ ΠΏΡΠΈ ΠΌΠ΅Π½ΡΡΠ΅ΠΌ ΡΠΈΡΠ»Π΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² (47β56 ΠΌΠ»ΡΠ΄.) ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΄Π΅ΠΌΠΎΠ½ΡΡΡΠΈΡΡΡΡ ΡΠΎΡΠ½ΠΎΡΡΡ, Π±Π»ΠΈΠ·ΠΊΡΡ ΠΊ DeepSeek-V3-671B.
ΠΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΡ Nemotron-H β ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ FP8 Π΄Π»Ρ ΠΏΡΠ΅ΡΡΠ΅ΠΉΠ½Π°. 56B-Π²Π΅ΡΡΠΈΡ ΠΎΠ±ΡΡΠ°Π»ΠΈ Π½Π° 20 ΡΡΠ»Π½. ΡΠΎΠΊΠ΅Π½ΠΎΠ² Ρ ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ ΡΠ΅Π½Π·ΠΎΡΠΎΠ² Β«Π½Π° Π»Π΅ΡΡΒ», Π° ΡΠΆΠ°ΡΡΡ Π² FP4 ΠΌΠΎΠ΄Π΅Π»Ρ c 47B ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΏΡΡΠΊΠ°ΡΡ Π½Π° ΠΏΠΎΡΡΠ΅Π±ΠΈΡΠ΅Π»ΡΡΠΊΠΎΠΉ RTX 5090 Ρ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠΎΠΉ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ° Π΄ΠΎ 1 ΠΌΠ»Π½. ΡΠΎΠΊΠ΅Π½ΠΎΠ². ΠΡΠ°Π²Π΄Π°, ΠΏΡΠΈΡΠ»ΠΎΡΡ ΠΏΠΎΠΆΠ΅ΡΡΠ²ΠΎΠ²Π°ΡΡ ΡΠ°ΡΡΡΡ ΡΠ»ΠΎΠ΅Π² ΡΠ°ΠΌΠΎΠ²Π½ΠΈΠΌΠ°Π½ΠΈΡ β ΠΈΡ
Π·Π°ΠΌΠ΅Π½ΠΈΠ»ΠΈ Π½Π° Π±ΠΎΠ»Π΅Π΅ Π»Π΅Π³ΠΊΠΈΠ΅ Mamba-Π±Π»ΠΎΠΊΠΈ, ΡΡΠΎΠ±Ρ ΡΡΠΊΠΎΡΠΈΡΡ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΡ.
NVIDIA Π½Π΅ ΡΡΠ°Π»Π° ΡΡΠ΅Π½ΠΈΡΠΎΠ²Π°ΡΡ ΠΊΠΎΠΌΠΏΠ°ΠΊΡΠ½ΡΠ΅ Π²Π΅ΡΡΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ Π½ΡΠ»Ρ. ΠΠΌΠ΅ΡΡΠΎ ΡΡΠΎΠ³ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈ Π΄ΠΈΡΡΠΈΠ»Π»ΡΡΠΈΡ: 47B-ΠΌΠΎΠ΄Π΅Π»Ρ ΠΏΠΎΠ»ΡΡΠΈΠ»ΠΈ ΠΈΠ· 56B, ΡΠ΄Π°Π»ΠΈΠ² ΠΏΠΎΠ»ΠΎΠ²ΠΈΠ½Ρ Β«ΡΡΠΆΠ΅Π»ΡΡ
Β» ΡΠ»ΠΎΠ΅Π² ΠΈ Π΄ΠΎΠΎΠ±ΡΡΠΈΠ² Π½Π° 63 ΠΌΠ»ΡΠ΄ ΡΠΎΠΊΠ΅Π½ΠΎΠ². Π Π΅Π·ΡΠ»ΡΡΠ°Ρ β ΠΏΠΎΡΡΠΈ ΡΠ° ΠΆΠ΅ ΡΠΎΡΠ½ΠΎΡΡΡ, Π½ΠΎ Π½Π° 1.2x Π±ΡΡΡΡΠ΅Π΅.
Π Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ°Ρ
Nemotron-H ΠΎΠ±Ρ
ΠΎΠ΄ΠΈΡ ΠΊΠΎΠ½ΠΊΡΡΠ΅Π½ΡΠΎΠ² Π² ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΠΊΠ΅ ΠΈ ΠΊΠΎΠ΄Π΅: Π½Π° GSM8k 56B-Π²Π΅ΡΡΠΈΡ Π΄Π°Π΅Ρ 93.7% ΠΏΡΠΎΡΠΈΠ² 90.9% Ρ Qwen-72B. Π 8B-ΠΌΠΎΠ΄Π΅Π»Ρ, Ρ
ΠΎΡΡ ΠΈ ΡΡΡΡΠΏΠ°Π΅Ρ Π² MMLU, Π²ΡΡΡΠ²Π°Π΅ΡΡΡ Π²ΠΏΠ΅ΡΡΠ΄ Π² HumanEval+ (56.1%) β ΠΎΠΆΠΈΠ΄Π°Π΅ΠΌΠΎ, Ρ ΡΡΠ΅ΡΠΎΠΌ Π΅Π΅ instruct-ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΠΈ.
ΠΠΎΠΊΠ° ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΄ΠΎΡΡΡΠΏΠ½Ρ Π½Π° HF ΠΊΠ°ΠΊ Π±Π°Π·ΠΎΠ²ΡΠ΅, Π½ΠΎ NVIDIA ΠΎΠ±Π΅ΡΠ°Π΅Ρ Π΄ΠΎΠ±Π°Π²ΠΈΡΡ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠ²Π½ΡΠ΅ ΠΈ ΠΌΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½ΡΠ΅ Π²Π΅ΡΡΠΈΠΈ.
@ai_machinelearning_big_data
#AI #ML #LLM #NemotronH #NVIDIA