Warning: file_put_contents(aCache/aDaily/post/bigdatai/-1041-1042-1041-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Big Data AI@bigdatai P.1041
BIGDATAI Telegram 1041
Forwarded from Machinelearning
🌟 MiniVLA: компактная Vision-Language-Action модСль для Ρ€ΠΎΠ±ΠΎΡ‚ΠΎΡ‚Π΅Ρ…Π½ΠΈΠΊΠΈ.

AI-лаборатория БтСнфордского унивСрситСта прСдставила модСль MiniVLA β€” ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½Π½ΡƒΡŽ Π²Π΅Ρ€ΡΠΈΡŽ Vision-Language-Action (VLA), ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ OpenVLA.

ΠžΡ‚Π»ΠΈΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ MiniVLA - сокращСнноС Π² 7 Ρ€Π°Π· количСство ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² (1 ΠΌΠ»Ρ€Π΄. ΠΏΡ€ΠΎΡ‚ΠΈΠ² 7 ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄ΠΎΠ² Ρƒ OpenVLA), Ρ‡Ρ‚ΠΎ Π΄Π°Π΅Ρ‚ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ускорСниС процСссов обучСния ΠΈ инфСрСнса.

Π’ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ MiniVLA ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Ρ‚ΠΎΡ‚ ΠΆΠ΅ ViT для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, Ρ‡Ρ‚ΠΎ ΠΈ Π² OpenVLA, ΠΎΠ΄Π½Π°ΠΊΠΎ Π² качСствС языковой ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Qwen 2.5 0.5B вмСсто Llama 2 7B.

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ языковой ΠΌΠΎΠ΄Π΅Π»ΠΈ основано Π½Π° датасСтС Llava-1.5-Instruct VQA, Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ Π±Π°Π·ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Prismatic VLM Π² OpenVLA. НСсмотря Π½Π° ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠ΅ Ρ€Π°Π·ΠΌΠ΅Ρ€Π°, MiniVLA дСмонстрируСт ΡΠΎΠΏΠΎΡΡ‚Π°Π²ΠΈΠΌΡƒΡŽ с OpenVLA ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π² Ρ€Π°ΠΌΠΊΠ°Ρ… Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ° Libero-90 (61.4% ΠΏΡ€ΠΎΡ‚ΠΈΠ² 62%).

Одно Π³Π»Π°Π²Π½Ρ‹Ρ… ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½ΠΈΠΉ MiniVLA - ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ квантования (VQ) для кластСризации дСйствий (action chunking). ВмСсто дискрСтного прСдставлСния дСйствий, модСль ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΈΡ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΊΠΎΠ΄ΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π² Π²ΠΈΠ΄Π΅ M ΠΊΠΎΠ΄ΠΎΠ²Ρ‹Ρ… индСксов с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ VQ-BeT5. Π­Ρ‚ΠΎ сущСствСнно ΠΏΠΎΠ²Ρ‹ΡˆΠ°Π΅Ρ‚ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π½Π° Libero-90.

Π’Π°ΠΊ, MiniVLA с VQ h8 (action chunks) достигаСт 77% успСха, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ базовая модСль MiniVLA ΠΈ OpenVLA Π΄Π΅ΠΌΠΎΠ½ΡΡ‚Ρ€ΠΈΡ€ΡƒΡŽΡ‚ 61.4% ΠΈ 62% соотвСтствСнно.

MiniVLA ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ ΠΏΠΎΠ΄Π°Ρ‡Ρƒ Π½Π° Π²Ρ…ΠΎΠ΄ Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, Ρ‡Ρ‚ΠΎ позволяСт ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ "ΠΈΡΡ‚ΠΎΡ€ΠΈΡŽ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ" ΠΈ ΡΠ΅Ρ€ΠΈΡŽ снимков с носимых Ρ†Π΅Π»Π΅Π²Ρ‹ΠΌ Ρ€ΠΎΠ±ΠΎΡ‚ΠΎΠΌ ΠΊΠ°ΠΌΠ΅Ρ€. ΠœΡƒΠ»ΡŒΡ‚ΠΈ-кадровая Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ способствуСт ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡŽ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π½Π° Libero-90: модСль MiniVLA с VQ h8 ΠΈ историСй ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ (history=2) достигаСт 82% ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎΡΡ‚ΠΈ, Π° с ΠΊΠ°Π΄Ρ€Π°ΠΌΠΈ с Π½ΠΎΠ²ΠΈΠΌΠΎΠΉ ΠΊΠ°ΠΌΠ΅Ρ€Ρ‹ β€” 82.1%.

По сдСланным Π·Π°ΠΌΠ΅Ρ€Π°ΠΌ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, MiniVLA ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ Π² 2.5 Ρ€Π°Π·Π° Π±ΠΎΠ»Π΅Π΅ Π²Ρ‹ΡΠΎΠΊΡƒΡŽ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ инфСрСнса, Ρ‡Π΅ΠΌ OpenVLA (12.5Hz ΠΏΡ€ΠΎΡ‚ΠΈΠ² 5Hz) Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU NVIDIA L40s.

▢️В Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Π½Π° HF ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Ρ‹ нСсколько Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ΠΎΠ² MiniVLA:

🟒Prism with Qwen 2.5 0.5B backbone
🟒MiniVLA 1B Wrist VQ
🟒MiniVLA VQ 1B
🟒MiniVLA Image History (T=2) VQ 1B
🟒MiniVLA 1B
🟒MiniVLA 1B VQ Trained on Bridge V2


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: MIT License.


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #VLA #MiniVLA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘5❀3πŸ–•1



tgoop.com/bigdatai/1041
Create:
Last Update:

🌟 MiniVLA: компактная Vision-Language-Action модСль для Ρ€ΠΎΠ±ΠΎΡ‚ΠΎΡ‚Π΅Ρ…Π½ΠΈΠΊΠΈ.

AI-лаборатория БтСнфордского унивСрситСта прСдставила модСль MiniVLA β€” ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½Π½ΡƒΡŽ Π²Π΅Ρ€ΡΠΈΡŽ Vision-Language-Action (VLA), ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ OpenVLA.

ΠžΡ‚Π»ΠΈΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ MiniVLA - сокращСнноС Π² 7 Ρ€Π°Π· количСство ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² (1 ΠΌΠ»Ρ€Π΄. ΠΏΡ€ΠΎΡ‚ΠΈΠ² 7 ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄ΠΎΠ² Ρƒ OpenVLA), Ρ‡Ρ‚ΠΎ Π΄Π°Π΅Ρ‚ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ускорСниС процСссов обучСния ΠΈ инфСрСнса.

Π’ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ MiniVLA ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Ρ‚ΠΎΡ‚ ΠΆΠ΅ ViT для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, Ρ‡Ρ‚ΠΎ ΠΈ Π² OpenVLA, ΠΎΠ΄Π½Π°ΠΊΠΎ Π² качСствС языковой ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Qwen 2.5 0.5B вмСсто Llama 2 7B.

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ языковой ΠΌΠΎΠ΄Π΅Π»ΠΈ основано Π½Π° датасСтС Llava-1.5-Instruct VQA, Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ Π±Π°Π·ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Prismatic VLM Π² OpenVLA. НСсмотря Π½Π° ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠ΅ Ρ€Π°Π·ΠΌΠ΅Ρ€Π°, MiniVLA дСмонстрируСт ΡΠΎΠΏΠΎΡΡ‚Π°Π²ΠΈΠΌΡƒΡŽ с OpenVLA ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π² Ρ€Π°ΠΌΠΊΠ°Ρ… Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ° Libero-90 (61.4% ΠΏΡ€ΠΎΡ‚ΠΈΠ² 62%).

Одно Π³Π»Π°Π²Π½Ρ‹Ρ… ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½ΠΈΠΉ MiniVLA - ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ квантования (VQ) для кластСризации дСйствий (action chunking). ВмСсто дискрСтного прСдставлСния дСйствий, модСль ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΈΡ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΊΠΎΠ΄ΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π² Π²ΠΈΠ΄Π΅ M ΠΊΠΎΠ΄ΠΎΠ²Ρ‹Ρ… индСксов с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ VQ-BeT5. Π­Ρ‚ΠΎ сущСствСнно ΠΏΠΎΠ²Ρ‹ΡˆΠ°Π΅Ρ‚ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π½Π° Libero-90.

Π’Π°ΠΊ, MiniVLA с VQ h8 (action chunks) достигаСт 77% успСха, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ базовая модСль MiniVLA ΠΈ OpenVLA Π΄Π΅ΠΌΠΎΠ½ΡΡ‚Ρ€ΠΈΡ€ΡƒΡŽΡ‚ 61.4% ΠΈ 62% соотвСтствСнно.

MiniVLA ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ ΠΏΠΎΠ΄Π°Ρ‡Ρƒ Π½Π° Π²Ρ…ΠΎΠ΄ Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, Ρ‡Ρ‚ΠΎ позволяСт ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ "ΠΈΡΡ‚ΠΎΡ€ΠΈΡŽ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ" ΠΈ ΡΠ΅Ρ€ΠΈΡŽ снимков с носимых Ρ†Π΅Π»Π΅Π²Ρ‹ΠΌ Ρ€ΠΎΠ±ΠΎΡ‚ΠΎΠΌ ΠΊΠ°ΠΌΠ΅Ρ€. ΠœΡƒΠ»ΡŒΡ‚ΠΈ-кадровая Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ способствуСт ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡŽ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π½Π° Libero-90: модСль MiniVLA с VQ h8 ΠΈ историСй ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ (history=2) достигаСт 82% ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎΡΡ‚ΠΈ, Π° с ΠΊΠ°Π΄Ρ€Π°ΠΌΠΈ с Π½ΠΎΠ²ΠΈΠΌΠΎΠΉ ΠΊΠ°ΠΌΠ΅Ρ€Ρ‹ β€” 82.1%.

По сдСланным Π·Π°ΠΌΠ΅Ρ€Π°ΠΌ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, MiniVLA ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ Π² 2.5 Ρ€Π°Π·Π° Π±ΠΎΠ»Π΅Π΅ Π²Ρ‹ΡΠΎΠΊΡƒΡŽ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ инфСрСнса, Ρ‡Π΅ΠΌ OpenVLA (12.5Hz ΠΏΡ€ΠΎΡ‚ΠΈΠ² 5Hz) Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU NVIDIA L40s.

▢️В Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Π½Π° HF ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Ρ‹ нСсколько Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ΠΎΠ² MiniVLA:

🟒Prism with Qwen 2.5 0.5B backbone
🟒MiniVLA 1B Wrist VQ
🟒MiniVLA VQ 1B
🟒MiniVLA Image History (T=2) VQ 1B
🟒MiniVLA 1B
🟒MiniVLA 1B VQ Trained on Bridge V2


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: MIT License.


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #VLA #MiniVLA

BY Big Data AI





Share with your friend now:
tgoop.com/bigdatai/1041

View MORE
Open in Telegram


Telegram News

Date: |

So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with β€œ#meIRL.” It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click β€œInvite.” You can skip this step altogether.
from us


Telegram Big Data AI
FROM American