Warning: file_put_contents(aCache/aDaily/post/bigdatai/-750-751-752-750-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Big Data AI@bigdatai P.752
BIGDATAI Telegram 752
Forwarded from Machinelearning
🌟 Meta-Llama-3.1-405B-Instruct-FP8: FP8-вСрсии Llama-3.1-405B-Instruct со статичСским ΠΈ динамичСским ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ квантования.

Компания Neural Magic прСдставила Π΄Π²Π΅ ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½Π½Ρ‹Π΅ FP8-вСрсии ΠΌΠΎΠ΄Π΅Π»ΠΈ Meta's Llama 3.1 405B Instruct:

🟒Meta-Llama-3.1-405B-Instruct-FP8-dynamic
🟒Meta-Llama-3.1-405B-Instruct-FP8

ΠŸΡ€ΠΈΠΌΠ΅Π½Π΅Π½Π½Π°Ρ оптимизация ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Π΅Ρ‚ количСство Π±ΠΈΡ‚ Π½Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ с 16 Π΄ΠΎ 8, сокращая трСбования ΠΊ VRAM ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Π½Π° 50 %. FP8-модСль ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Π° ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΡƒΠ·Π»Π° 8xH100 GPU.

ΠŸΡ€ΠΎΡ†Π΅ΡΡ квантования примСнялся ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΊ вСсам ΠΈ активациям Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… ΠΎΠΏΠ΅Ρ€Π°Ρ‚ΠΎΡ€ΠΎΠ² Π²Π½ΡƒΡ‚Ρ€ΠΈ Π±Π»ΠΎΠΊΠΎΠ² трансформСров. Использовалось симмСтричноС поканальноС ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ΅ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΏΠΎ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΡŽ для отобраТСния прСдставлСний FP8 ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½Π½Ρ‹Ρ… вСсов ΠΈ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΉ.
ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½Ρ‹ динамичСски Π½Π° основС ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π°.
Для квантования использовалась Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ LLM Compressor с Π½Π°Π±ΠΎΡ€ΠΎΠΌ 512 ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ UltraChat.

ОбС FP8 ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‚ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ Meta-Llama-3.1 ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Π·Π°ΠΏΡƒΡ‰Π΅Π½Ρ‹ Π½Π° бэкСндС vLLM.

Π’ Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ΅ OpenLLM вСрсия FP8-dynamic ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»Π° срСдний Π±Π°Π»Π» 86,55. Π­Ρ‚ΠΎ максимально Π±Π»ΠΈΠ·ΠΊΠΎ ΠΊ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρƒ ΠΎΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ - 86,63 (99,91%).

🟑МодСль FP8-dynamic на HF
🟑МодСль FP8 на HF


@ai_machinelearning_big_data

#AI #ML #LLM #Llama #FP8
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘5❀1



tgoop.com/bigdatai/752
Create:
Last Update:

🌟 Meta-Llama-3.1-405B-Instruct-FP8: FP8-вСрсии Llama-3.1-405B-Instruct со статичСским ΠΈ динамичСским ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ квантования.

Компания Neural Magic прСдставила Π΄Π²Π΅ ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½Π½Ρ‹Π΅ FP8-вСрсии ΠΌΠΎΠ΄Π΅Π»ΠΈ Meta's Llama 3.1 405B Instruct:

🟒Meta-Llama-3.1-405B-Instruct-FP8-dynamic
🟒Meta-Llama-3.1-405B-Instruct-FP8

ΠŸΡ€ΠΈΠΌΠ΅Π½Π΅Π½Π½Π°Ρ оптимизация ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Π΅Ρ‚ количСство Π±ΠΈΡ‚ Π½Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ с 16 Π΄ΠΎ 8, сокращая трСбования ΠΊ VRAM ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Π½Π° 50 %. FP8-модСль ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Π° ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΡƒΠ·Π»Π° 8xH100 GPU.

ΠŸΡ€ΠΎΡ†Π΅ΡΡ квантования примСнялся ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΊ вСсам ΠΈ активациям Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… ΠΎΠΏΠ΅Ρ€Π°Ρ‚ΠΎΡ€ΠΎΠ² Π²Π½ΡƒΡ‚Ρ€ΠΈ Π±Π»ΠΎΠΊΠΎΠ² трансформСров. Использовалось симмСтричноС поканальноС ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ΅ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΏΠΎ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΡŽ для отобраТСния прСдставлСний FP8 ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½Π½Ρ‹Ρ… вСсов ΠΈ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΉ.
ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½Ρ‹ динамичСски Π½Π° основС ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π°.
Для квантования использовалась Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ LLM Compressor с Π½Π°Π±ΠΎΡ€ΠΎΠΌ 512 ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ UltraChat.

ОбС FP8 ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‚ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ Meta-Llama-3.1 ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Π·Π°ΠΏΡƒΡ‰Π΅Π½Ρ‹ Π½Π° бэкСндС vLLM.

Π’ Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ΅ OpenLLM вСрсия FP8-dynamic ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»Π° срСдний Π±Π°Π»Π» 86,55. Π­Ρ‚ΠΎ максимально Π±Π»ΠΈΠ·ΠΊΠΎ ΠΊ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρƒ ΠΎΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ - 86,63 (99,91%).

🟑МодСль FP8-dynamic на HF
🟑МодСль FP8 на HF


@ai_machinelearning_big_data

#AI #ML #LLM #Llama #FP8

BY Big Data AI






Share with your friend now:
tgoop.com/bigdatai/752

View MORE
Open in Telegram


Telegram News

Date: |

Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Step-by-step tutorial on desktop: Informative Click β€œSave” ; The group’s featured image is of a Pepe frog yelling, often referred to as the β€œREEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and β€œdegen” culture.
from us


Telegram Big Data AI
FROM American