tgoop.com/cpluspluc/1196
Create:
Last Update:
Last Update:
ΠΡΡΠΏΠΏΠ° ΠΈΠ½ΠΆΠ΅Π½Π΅ΡΠΎΠ² ΠΈΠ· Google DeepMind ΠΎΠΏΡΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»ΠΈ 12-Ρ Π³Π»Π°Π²Ρ ΡΠ²ΠΎΠ΅Π³ΠΎ ΠΎΠ½-Π»Π°ΠΉΠ½ ΡΡΠ΅Π±Π½ΠΈΠΊΠ° "How to Scale Your Model: A Systems View of LLMs on TPUs"
How to Scale Your Model - ΠΏΡΠ°ΠΊΡΠΈΠΊΠΎ-ΠΎΡΠΈΠ΅Π½ΡΠΈΡΠΎΠ²Π°Π½Π½ΠΎΠ΅ ΡΡΠΊΠΎΠ²ΠΎΠ΄ΡΡΠ²ΠΎ ΠΏΠΎ ΠΌΠ°ΡΡΡΠ°Π±ΠΈΡΠΎΠ²Π°Π½ΠΈΡ LLM ΠΈΠ· 12 ΡΠ°Π·Π΄Π΅Π»ΠΎΠ² Π΄Π»Ρ ΡΠ°Π·ΡΠ°Π±ΠΎΡΡΠΈΠΊΠΎΠ² ΠΈ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»Π΅ΠΉ. ΠΠ½ΠΎ ΠΎΠ±ΡΡΡΠ½ΡΠ΅Ρ, ΠΊΠ°ΠΊ Π°Π½Π°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°ΡΡ ΠΈ ΠΎΠΏΡΠΈΠΌΠΈΠ·ΠΈΡΠΎΠ²Π°ΡΡ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΡΡΠΈΡΡΠ²Π°Ρ ΡΠΈΡΡΠ΅ΠΌΠ½ΡΠ΅ ΡΠ΅ΡΡΡΡΡ: Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΡ, ΠΏΠ°ΠΌΡΡΡ ΠΈ ΠΏΡΠΎΠΏΡΡΠΊΠ½ΡΡ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΡ.
ΠΠΎΡΠΎΠ±ΠΈΠ΅ Π½Π°ΡΡΠΈΡ Π²ΡΠ±ΠΈΡΠ°ΡΡ ΠΎΠΏΡΠΈΠΌΠ°Π»ΡΠ½ΡΠ΅ ΡΡΡΠ°ΡΠ΅Π³ΠΈΠΈ ΠΏΠ°ΡΠ°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°, ΠΎΡΠ΅Π½ΠΈΠ²Π°ΡΡ ΡΡΠΎΠΈΠΌΠΎΡΡΡ ΠΈ Π²ΡΠ΅ΠΌΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΈ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ°, Π° ΡΠ°ΠΊΠΆΠ΅ Π³Π»ΡΠ±ΠΆΠ΅ ΠΏΠΎΠ½ΡΡΡ Π²Π·Π°ΠΈΠΌΠΎΠ΄Π΅ΠΉΡΡΠ²ΠΈΠ΅ ΠΌΠ΅ΠΆΠ΄Ρ TPU/GPU ΠΈ Π°Π»Π³ΠΎΡΠΈΡΠΌΠ°ΠΌΠΈ ΠΌΠ°ΡΡΡΠ°Π±ΠΈΡΠΎΠ²Π°Π½ΠΈΡ ΠΊΠ°ΠΊ Π½Π° ΠΎΠ΄Π½ΠΎΠΌ, ΡΠ°ΠΊ ΠΈ Π½Π° ΡΡΡΡΡΠ°Ρ ΡΡΠΊΠΎΡΠΈΡΠ΅Π»Π΅ΠΉ.
12-Ρ Π³Π»Π°Π²Π° - Π³Π»ΡΠ±ΠΎΠΊΠΎΠ΅ ΡΠ΅Ρ Π½ΠΈΡΠ΅ΡΠΊΠΎΠ΅ ΡΡΠΊΠΎΠ²ΠΎΠ΄ΡΡΠ²ΠΎ ΠΏΠΎ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ΅ GPU ΠΈ ΡΡΡΠ°ΡΠ΅Π³ΠΈΡΠΌ ΠΌΠ°ΡΡΡΠ°Π±ΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π±ΠΎΠ»ΡΡΠΈΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Π Π½Π΅ΠΉ Π΄Π΅ΡΠ°Π»ΡΠ½ΠΎ ΡΠ°Π·Π±ΠΈΡΠ°Π΅ΡΡΡ ΡΡΡΡΠΎΠΉΡΡΠ²ΠΎ ΡΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΡΡ GPU NVIDIA: Streaming Multiprocessors, Tensor Cores, ΠΈΠ΅ΡΠ°ΡΡ ΠΈΡ ΠΏΠ°ΠΌΡΡΠΈ (HBM, L2, SMEM), Π²ΡΠ΅ ΡΡΠΎ Ρ ΠΏΠΎΠ΄ΡΠΎΠ±Π½ΡΠΌΠΈ ΡΡΠ°Π²Π½ΠΈΡΠ΅Π»ΡΠ½ΡΠΌΠΈ ΡΠ°Π±Π»ΠΈΡΠ°ΠΌΠΈ Ρ Π°ΡΠ°ΠΊΡΠ΅ΡΠΈΡΡΠΈΠΊ Π΄Π»Ρ ΡΠ°Π·Π½ΡΡ ΠΏΠΎΠΊΠΎΠ»Π΅Π½ΠΈΠΉ ΡΠΈΠΏΠΎΠ².
ΠΡΠ΅Π½Ρ ΠΏΠΎΠ΄ΡΠΎΠ±Π½ΠΎ Π²ΡΠΏΠΎΠ»Π½Π΅Π½ΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΠ΅ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡ GPU ΠΈ TPU, Ρ ΠΎΠ±ΡΡΡΠ½ΡΠ΅ΠΌ ΠΊΠ»ΡΡΠ΅Π²ΠΎΠ³ΠΎ ΡΠ°Π·Π»ΠΈΡΠΈΡ ΠΌΠ΅ΠΆΠ΄Ρ ΠΌΠΎΠ΄ΡΠ»ΡΠ½ΠΎΡΡΡΡ GPU ΠΈ ΠΌΠΎΠ½ΠΎΠ»ΠΈΡΠ½ΠΎΡΡΡΡ TPU.
ΠΡΠΎΠ±ΠΎΠ΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅, ΡΡΠΎ ΡΠ΅Π΄ΠΊΠΎΡΡΡ Π΄Π»Ρ ΠΎΠ±ΡΡΠ°ΡΡΠΈΡ ΠΌΠ°ΡΠ΅ΡΠΈΠ°Π»ΠΎΠ², ΡΠ΄Π΅Π»Π΅Π½ΠΎ ΡΠ΅ΡΠ΅Π²ΠΎΠΉ ΠΎΡΠ³Π°Π½ΠΈΠ·Π°ΡΠΈΠΈ ΠΊΠ»Π°ΡΡΠ΅ΡΠΎΠ². ΠΠ²ΡΠΎΡΡ Π΄ΠΎΡΡΡΠΏΠ½ΠΎ ΠΎΠ±ΡΡΡΠ½ΡΡΡ ΠΊΠ°ΠΊ GPU ΡΠΎΠ΅Π΄ΠΈΠ½ΡΡΡΡΡ Π²Π½ΡΡΡΠΈ ΡΠ·Π»ΠΎΠ² ΡΠ΅ΡΠ΅Π· NVLink/NVSwitch ΠΈ ΠΌΠ΅ΠΆΠ΄Ρ ΡΠ·Π»Π°ΠΌΠΈ ΡΠ΅ΡΠ΅Π· InfiniBand Π² ΡΠΎΠΏΠΎΠ»ΠΎΠ³ΠΈΠΈ "Fat tree", ΠΈ ΠΊΠ°ΠΊ ΠΏΡΠΎΠΏΡΡΠΊΠ½Π°Ρ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΡ Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΡΡΠΎΠ²Π½Π΅ Π²Π»ΠΈΡΠ΅Ρ Π½Π° ΡΠ΅Π°Π»ΡΠ½ΡΡ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΡ ΠΊΠΎΠ»Π»Π΅ΠΊΡΠΈΠ²Π½ΡΡ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠΉ (AllReduce, AllGather).
ΠΠΏΠΈΡΠ°Π½Ρ ΠΎΡΠ½ΠΎΠ²Π½ΡΠ΅ ΡΡΡΠ°ΡΠ΅Π³ΠΈΠΈ ΠΏΠ°ΡΠ°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°: Data Parallelism, Tensor Parallelism, Expert Parallelism ΠΈ Pipeline Parallelism, Ρ ΡΠ°Π·Π±ΠΎΡΠΎΠΌ ΠΈΡ ΠΎΠ³ΡΠ°Π½ΠΈΡΠ΅Π½ΠΈΠΉ ΠΈ ΠΏΡΠΈΠΌΠ΅ΡΠΎΠ² ΠΈΠ· ΡΠ΅Π°Π»ΡΠ½ΡΡ ΠΏΡΠΎΠ΅ΠΊΡΠΎΠ².
Π ΠΊΠΎΠ½ΡΠ΅ Π³Π»Π°Π²Ρ Π΅ΡΡΡ Ρ ΠΎΡΠΎΡΠΈΠΉ Π°Π½Π°Π»ΠΈΠ· Π½ΠΎΠ²ΡΡ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠ΅ΠΉ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΡ Blackwell.
@ai_machinelearning_big_data
#AI #ML #LLM #Scaling #GPU #TPU





