tgoop.com/ai_machinelearning_big_data/7601
Last Update:
nanoVLM - ΠΏΡΠΎΠ΅ΠΊΡ, Π²Π΄ΠΎΡ
Π½ΠΎΠ²Π»Π΅Π½Π½ΡΠΉ ΠΏΠΎΠ΄Ρ
ΠΎΠ΄ΠΎΠΌ nanoGPT ΠΎΡ Andrej Karpathy, ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΡΠ΅Π΄Π»Π°Π³Π°Π΅Ρ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΠΈΡΡΠΈΡΠ½ΡΡ ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΡ VLM Π½Π° ΡΠΈΡΡΠΎΠΌ PyTorch.
ΠΠΎΠ΄ ΠΏΡΠΎΠ΅ΠΊΡΠ° Π½Π°ΡΡΠΎΠ»ΡΠΊΠΎ ΠΏΡΠΎΡΡ, ΡΡΠΎ Π΄Π°ΠΆΠ΅ Π½ΠΎΠ²ΠΈΡΠΎΠΊ Π±ΡΡΡΡΠΎ ΠΏΠΎΠΉΠΌΠ΅Ρ, ΠΊΠ°ΠΊ ΡΡΡΡΠΎΠ΅Π½Ρ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½ΡΡ: Vision Backbone (150 ΡΡΡΠΎΠΊ), Language Decoder (250 ΡΡΡΠΎΠΊ), ΠΏΡΠΎΠ΅ΠΊΡΠΈΡ ΠΌΠΎΠ΄Π°Π»ΡΠ½ΠΎΡΡΠ΅ΠΉ (50 ΡΡΡΠΎΠΊ) ΠΈ ΡΠ°ΠΌΠ° ΠΌΠΎΠ΄Π΅Π»Ρ (100 ΡΡΡΠΎΠΊ). ΠΡΠ΅ Π²ΠΌΠ΅ΡΡΠ΅ Ρ ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΎΡΠ½ΡΠΌ ΡΠΈΠΊΠ»ΠΎΠΌ ΡΠΌΠ΅ΡΠ°Π΅ΡΡΡ Π² 750 ΡΡΡΠΎΠΊ β ΠΈΠ΄Π΅Π°Π»ΡΠ½ΠΎ Π΄Π»Ρ ΠΌΠΎΠ΄ΠΈΡΠΈΠΊΠ°ΡΠΈΠΉ.
Π‘ΠΎΠ·Π΄Π°Π½Π½Π°Ρ Ρ ΠΏΠΎΠΌΠΎΡΡΡ nanoVLM ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π΅ ΠΏΡΠ΅ΡΠ΅Π½Π΄ΡΠ΅Ρ Π½Π° Π·Π²Π°Π½ΠΈΠ΅ ΠΏΡΠΎΡΡΠ²Π½ΠΎΠΉ, Π½ΠΎ Π΄Π°Π΅Ρ ΠΎΡΠ»ΠΈΡΠ½ΡΡ Π±Π°Π·Ρ Π΄Π»Ρ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ². ΠΠΎΠΌΠ±ΠΈΠ½Π°ΡΠΈΡ SigLIP-B/16-224-85M (Π²ΠΈΠ·ΡΠ°Π»ΡΠ½Π°Ρ ΡΠ°ΡΡΡ) ΠΈ SmolLM2-135M (ΡΠ·ΡΠΊΠΎΠ²Π°Ρ) ΡΠΎΠ·Π΄Π°Π΅Ρ ΠΊΠΎΠΌΠΏΠ°ΠΊΡΠ½ΡΡ VLM Π½Π° 222 ΠΌΠ»Π½. ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ². ΠΠΎΡΠ»Π΅ 6 ΡΠ°ΡΠΎΠ² ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ Π½Π° ΠΎΠ΄Π½ΠΎΠΌ H100 GPU ΠΈ 1.7 ΠΌΠ»Π½. ΠΏΡΠΈΠΌΠ΅ΡΠΎΠ² ΠΈΠ· Π΄Π°ΡΠ°ΡΠ΅ΡΠ° The Cauldron ΠΎΠ½Π° ΠΏΠΎΠΊΠ°Π·ΡΠ²Π°Π΅Ρ 35.3% ΡΠΎΡΠ½ΠΎΡΡΠΈ Π½Π° MMStar.
ΠΠ°ΡΠ°ΡΡ ΡΠ°Π±ΠΎΡΡ ΠΌΠΎΠΆΠ½ΠΎ 3 ΡΠΏΠΎΡΠΎΠ±Π°ΠΌΠΈ: ΠΊΠ»ΠΎΠ½ΠΈΡΠΎΠ²Π°ΡΡ ΡΠ΅ΠΏΠΎΠ·ΠΈΡΠΎΡΠΈΠΉ, Π·Π°ΠΏΡΡΡΠΈΡΡ Π³ΠΎΡΠΎΠ²ΡΠΉ Colab-Π½ΠΎΡΡΠ±ΡΠΊ ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ ΠΈΠ½ΡΠ΅ΡΠ°ΠΊΡΠΈΠ²Π½ΡΠΉ ΡΡΡΠΎΡΠΈΠ°Π» Π² ΡΠΎΡΠΌΠ°ΡΠ΅ ipynb. ΠΠ°ΠΆΠ΅ Π΅ΡΠ»ΠΈ Ρ Π²Π°Ρ Π½Π΅Ρ Π΄ΠΎΡΡΡΠΏΠ° ΠΊ ΡΠΎΠΏΠΎΠ²ΠΎΠΌΡ ΠΆΠ΅Π»Π΅Π·Ρ, ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΡ Π½Π° Google Colab Π½Π° Π±Π΅ΡΠΏΠ»Π°ΡΠ½ΠΎΠΌ ΡΠΈΠ΅ΡΠ΅ Π²ΠΏΠΎΠ»Π½Π΅ ΡΠ΅Π°Π»ΡΠ½Ρ. Π£ΡΡΠ°Π½ΠΎΠ²ΠΊΠ° ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡΠ½ΠΎ ΠΎΠ±Π»Π΅Π³ΡΠ΅Π½Π°: Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡΠΈ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡΠ½Ρ, Π° Π»ΠΎΠ³ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π·Π°Π³ΡΡΠ·ΠΊΠ° ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² ΡΠΆΠ΅ Π²ΡΡΡΠΎΠ΅Π½Ρ.
nanoVLM ΠΎΡΠ»ΠΈΡΠ½ΠΎ ΠΏΠΎΠ΄ΠΎΠΉΠ΄Π΅Ρ ΠΊΠ°ΠΊ ΠΎΠ±ΡΠ°Π·ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΡΠΉ ΠΏΡΠΎΠ΅ΠΊΡ ΠΈΠ»ΠΈ ΡΡΠ΅Π½Π°ΠΆΠ΅Ρ ΡΡΠΎΠ±Ρ ΠΈΠ·ΡΡΠ°ΡΡ VLM. Π Π½Π΅ΠΌ Π΅ΡΡΡ Π²ΡΠ΅ Π΄Π»Ρ ΡΡΠ°ΡΡΠ° β ΠΎΡ ΠΏΠΎΠ½ΡΡΠ½ΠΎΠ³ΠΎ ΠΊΠΎΠ΄Π° Π΄ΠΎ ΡΠ°Π±ΠΎΡΠΈΡ
ΠΏΡΠΈΠΌΠ΅ΡΠΎΠ². ΠΡΠ»ΠΈ Π²Ρ Ρ
ΠΎΡΠΈΡΠ΅ ΡΠΎΠ·Π΄Π°ΡΡ ΡΠ²ΠΎΡ ΠΌΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½ΡΡ ΠΌΠΎΠ΄Π΅Π»Ρ, Π½ΠΎ Π±ΠΎΠΈΡΠ΅ΡΡ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡΠ΅ΠΉ, nanoVLM ΡΡΠ°Π½Π΅Ρ ΠΎΡΠ»ΠΈΡΠ½ΠΎΠΉ ΠΏΠ΅ΡΠΎΡΠ½ΠΈΡΠ΅ΠΉ Π΄Π»Ρ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ².
@ai_machinelearning_big_data
#AI #ML #VLM #NanoVLM #Github