tgoop.com/bigdatai/1041
Last Update:
AI-Π»Π°Π±ΠΎΡΠ°ΡΠΎΡΠΈΡ Π‘ΡΠ΅Π½ΡΠΎΡΠ΄ΡΠΊΠΎΠ³ΠΎ ΡΠ½ΠΈΠ²Π΅ΡΡΠΈΡΠ΅ΡΠ° ΠΏΡΠ΅Π΄ΡΡΠ°Π²ΠΈΠ»Π° ΠΌΠΎΠ΄Π΅Π»Ρ MiniVLA β ΡΡΠΎΠ²Π΅ΡΡΠ΅Π½ΡΡΠ²ΠΎΠ²Π°Π½Π½ΡΡ Π²Π΅ΡΡΠΈΡ Vision-Language-Action (VLA), ΠΊΠΎΠΌΠΏΠ°ΠΊΡΠ½ΡΡ Π°Π»ΡΡΠ΅ΡΠ½Π°ΡΠΈΠ²Ρ OpenVLA.
ΠΡΠ»ΠΈΡΠΈΡΠ΅Π»ΡΠ½Π°Ρ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΡ MiniVLA - ΡΠΎΠΊΡΠ°ΡΠ΅Π½Π½ΠΎΠ΅ Π² 7 ΡΠ°Π· ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² (1 ΠΌΠ»ΡΠ΄. ΠΏΡΠΎΡΠΈΠ² 7 ΠΌΠΈΠ»Π»ΠΈΠ°ΡΠ΄ΠΎΠ² Ρ OpenVLA), ΡΡΠΎ Π΄Π°Π΅Ρ Π·Π½Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎΠ΅ ΡΡΠΊΠΎΡΠ΅Π½ΠΈΠ΅ ΠΏΡΠΎΡΠ΅ΡΡΠΎΠ² ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΈ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ°.
Π Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ΅ MiniVLA ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ ΡΠΎΡ ΠΆΠ΅ ViT Π΄Π»Ρ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ, ΡΡΠΎ ΠΈ Π² OpenVLA, ΠΎΠ΄Π½Π°ΠΊΠΎ Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΡΠ·ΡΠΊΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ Qwen 2.5 0.5B Π²ΠΌΠ΅ΡΡΠΎ Llama 2 7B.
ΠΠ±ΡΡΠ΅Π½ΠΈΠ΅ ΡΠ·ΡΠΊΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΎ Π½Π° Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅ Llava-1.5-Instruct VQA, Π°Π½Π°Π»ΠΎΠ³ΠΈΡΠ½ΠΎ Π±Π°Π·ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Prismatic VLM Π² OpenVLA. ΠΠ΅ΡΠΌΠΎΡΡΡ Π½Π° ΡΠΌΠ΅Π½ΡΡΠ΅Π½ΠΈΠ΅ ΡΠ°Π·ΠΌΠ΅ΡΠ°, MiniVLA Π΄Π΅ΠΌΠΎΠ½ΡΡΡΠΈΡΡΠ΅Ρ ΡΠΎΠΏΠΎΡΡΠ°Π²ΠΈΠΌΡΡ Ρ OpenVLA ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΡ Π² ΡΠ°ΠΌΠΊΠ°Ρ
Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ° Libero-90 (61.4% ΠΏΡΠΎΡΠΈΠ² 62%).
ΠΠ΄Π½ΠΎ Π³Π»Π°Π²Π½ΡΡ
ΡΡΠΎΠ²Π΅ΡΡΠ΅Π½ΡΡΠ²ΠΎΠ²Π°Π½ΠΈΠΉ MiniVLA - ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π²Π΅ΠΊΡΠΎΡΠ½ΠΎΠ³ΠΎ ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½ΠΈΡ (VQ) Π΄Π»Ρ ΠΊΠ»Π°ΡΡΠ΅ΡΠΈΠ·Π°ΡΠΈΠΈ Π΄Π΅ΠΉΡΡΠ²ΠΈΠΉ (action chunking). ΠΠΌΠ΅ΡΡΠΎ Π΄ΠΈΡΠΊΡΠ΅ΡΠ½ΠΎΠ³ΠΎ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΡ Π΄Π΅ΠΉΡΡΠ²ΠΈΠΉ, ΠΌΠΎΠ΄Π΅Π»Ρ ΠΏΡΠΎΠ³Π½ΠΎΠ·ΠΈΡΡΠ΅Ρ ΠΈΡ
ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ, ΠΊΠΎΡΠΎΡΡΠ΅ ΠΊΠΎΠ΄ΠΈΡΡΡΡΡΡ Π² Π²ΠΈΠ΄Π΅ M ΠΊΠΎΠ΄ΠΎΠ²ΡΡ
ΠΈΠ½Π΄Π΅ΠΊΡΠΎΠ² Ρ ΠΏΠΎΠΌΠΎΡΡΡ VQ-BeT5. ΠΡΠΎ ΡΡΡΠ΅ΡΡΠ²Π΅Π½Π½ΠΎ ΠΏΠΎΠ²ΡΡΠ°Π΅Ρ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΡ Π½Π° Libero-90.
Π’Π°ΠΊ, MiniVLA Ρ VQ h8 (action chunks) Π΄ΠΎΡΡΠΈΠ³Π°Π΅Ρ 77% ΡΡΠΏΠ΅Ρ
Π°, Π² ΡΠΎ Π²ΡΠ΅ΠΌΡ ΠΊΠ°ΠΊ Π±Π°Π·ΠΎΠ²Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ MiniVLA ΠΈ OpenVLA Π΄Π΅ΠΌΠΎΠ½ΡΡΡΠΈΡΡΡΡ 61.4% ΠΈ 62% ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²Π΅Π½Π½ΠΎ.
MiniVLA ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅Ρ ΠΏΠΎΠ΄Π°ΡΡ Π½Π° Π²Ρ
ΠΎΠ΄ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ
ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ, ΡΡΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ "ΠΈΡΡΠΎΡΠΈΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ" ΠΈ ΡΠ΅ΡΠΈΡ ΡΠ½ΠΈΠΌΠΊΠΎΠ² Ρ Π½ΠΎΡΠΈΠΌΡΡ
ΡΠ΅Π»Π΅Π²ΡΠΌ ΡΠΎΠ±ΠΎΡΠΎΠΌ ΠΊΠ°ΠΌΠ΅Ρ. ΠΡΠ»ΡΡΠΈ-ΠΊΠ°Π΄ΡΠΎΠ²Π°Ρ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΡ ΡΠΏΠΎΡΠΎΠ±ΡΡΠ²ΡΠ΅Ρ ΠΏΠΎΠ²ΡΡΠ΅Π½ΠΈΡ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ Π½Π° Libero-90: ΠΌΠΎΠ΄Π΅Π»Ρ MiniVLA Ρ VQ h8 ΠΈ ΠΈΡΡΠΎΡΠΈΠ΅ΠΉ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ (history=2) Π΄ΠΎΡΡΠΈΠ³Π°Π΅Ρ 82% ΡΡΠΏΠ΅ΡΠ½ΠΎΡΡΠΈ, Π° Ρ ΠΊΠ°Π΄ΡΠ°ΠΌΠΈ Ρ Π½ΠΎΠ²ΠΈΠΌΠΎΠΉ ΠΊΠ°ΠΌΠ΅ΡΡ β 82.1%.
ΠΠΎ ΡΠ΄Π΅Π»Π°Π½Π½ΡΠΌ Π·Π°ΠΌΠ΅ΡΠ°ΠΌ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ, MiniVLA ΠΏΠΎΠΊΠ°Π·ΡΠ²Π°Π΅Ρ Π² 2.5 ΡΠ°Π·Π° Π±ΠΎΠ»Π΅Π΅ Π²ΡΡΠΎΠΊΡΡ ΡΠΊΠΎΡΠΎΡΡΡ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ°, ΡΠ΅ΠΌ OpenVLA (12.5Hz ΠΏΡΠΎΡΠΈΠ² 5Hz) Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU NVIDIA L40s.
@ai_machinelearning_big_data
#AI #ML #VLA #MiniVLA