tgoop.com/bigdatai/750
Last Update:
ΠΠΎΠΌΠΏΠ°Π½ΠΈΡ Neural Magic ΠΏΡΠ΅Π΄ΡΡΠ°Π²ΠΈΠ»Π° Π΄Π²Π΅ ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½Π½ΡΠ΅ FP8-Π²Π΅ΡΡΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Meta's Llama 3.1 405B Instruct:
ΠΡΠΈΠΌΠ΅Π½Π΅Π½Π½Π°Ρ ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΡ ΡΠΌΠ΅Π½ΡΡΠ°Π΅Ρ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ Π±ΠΈΡ Π½Π° ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡ Ρ 16 Π΄ΠΎ 8, ΡΠΎΠΊΡΠ°ΡΠ°Ρ ΡΡΠ΅Π±ΠΎΠ²Π°Π½ΠΈΡ ΠΊ VRAM ΠΏΡΠΈΠΌΠ΅ΡΠ½ΠΎ Π½Π° 50 %. FP8-ΠΌΠΎΠ΄Π΅Π»Ρ ΠΌΠΎΠΆΠ΅Ρ Π±ΡΡΡ ΡΠ°Π·Π²Π΅ΡΠ½ΡΡΠ° ΠΏΠΎΠΌΠΎΡΡΡ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΡΠ·Π»Π° 8xH100 GPU.
ΠΡΠΎΡΠ΅ΡΡ ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½ΠΈΡ ΠΏΡΠΈΠΌΠ΅Π½ΡΠ»ΡΡ ΠΈΡΠΊΠ»ΡΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΊ Π²Π΅ΡΠ°ΠΌ ΠΈ Π°ΠΊΡΠΈΠ²Π°ΡΠΈΡΠΌ Π»ΠΈΠ½Π΅ΠΉΠ½ΡΡ
ΠΎΠΏΠ΅ΡΠ°ΡΠΎΡΠΎΠ² Π²Π½ΡΡΡΠΈ Π±Π»ΠΎΠΊΠΎΠ² ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠΎΠ². ΠΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΎΡΡ ΡΠΈΠΌΠΌΠ΅ΡΡΠΈΡΠ½ΠΎΠ΅ ΠΏΠΎΠΊΠ°Π½Π°Π»ΡΠ½ΠΎΠ΅ ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½ΠΈΠ΅, ΠΊΠΎΡΠΎΡΠΎΠ΅ Π²ΠΊΠ»ΡΡΠ°Π΅Ρ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ΅ ΠΌΠ°ΡΡΡΠ°Π±ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΏΠΎ Π²ΡΡ
ΠΎΠ΄Π½ΠΎΠΌΡ ΠΈΠ·ΠΌΠ΅ΡΠ΅Π½ΠΈΡ Π΄Π»Ρ ΠΎΡΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΠΉ FP8 ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½Π½ΡΡ
Π²Π΅ΡΠΎΠ² ΠΈ Π°ΠΊΡΠΈΠ²Π°ΡΠΈΠΉ.
ΠΡΠΎΠΌΠ΅ ΡΠΎΠ³ΠΎ, Π°ΠΊΡΠΈΠ²Π°ΡΠΈΠΈ ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½Ρ Π΄ΠΈΠ½Π°ΠΌΠΈΡΠ΅ΡΠΊΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΡΠΎΠΊΠ΅Π½Π°.
ΠΠ»Ρ ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½ΠΈΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»Π°ΡΡ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ° ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΠΈ LLM Compressor Ρ Π½Π°Π±ΠΎΡΠΎΠΌ 512 ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠ΅ΠΉ UltraChat.
ΠΠ±Π΅ FP8 ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡΠΎΡ
ΡΠ°Π½ΡΡΡ Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΡ Meta-Llama-3.1 ΠΈ ΠΌΠΎΠ³ΡΡ Π±ΡΡΡ Π·Π°ΠΏΡΡΠ΅Π½Ρ Π½Π° Π±ΡΠΊΠ΅Π½Π΄Π΅ vLLM.
Π Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ΅ OpenLLM Π²Π΅ΡΡΠΈΡ FP8-dynamic ΠΏΠΎΠ»ΡΡΠΈΠ»Π° ΡΡΠ΅Π΄Π½ΠΈΠΉ Π±Π°Π»Π» 86,55. ΠΡΠΎ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡΠ½ΠΎ Π±Π»ΠΈΠ·ΠΊΠΎ ΠΊ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ ΠΎΡΠΈΠ³ΠΈΠ½Π°Π»ΡΠ½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ - 86,63 (99,91%).
@ai_machinelearning_big_data
#AI #ML #LLM #Llama #FP8