AI_MACHINELEARNING_BIG_DATA Telegram 7601
πŸ“ŒnanoVLM: простой ΠΈ ΠΌΠΎΡ‰Π½Ρ‹ΠΉ инструмСнт для экспСримСнтов с VLM.

nanoVLM - ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π²Π΄ΠΎΡ…Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ nanoGPT ΠΎΡ‚ Andrej Karpathy, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΠΈΡΡ‚ΠΈΡ‡Π½ΡƒΡŽ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ VLM Π½Π° чистом PyTorch.

Код ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ прост, Ρ‡Ρ‚ΠΎ Π΄Π°ΠΆΠ΅ Π½ΠΎΠ²ΠΈΡ‡ΠΎΠΊ быстро ΠΏΠΎΠΉΠΌΠ΅Ρ‚, ΠΊΠ°ΠΊ устроСны ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹: Vision Backbone (150 строк), Language Decoder (250 строк), проСкция ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (50 строк) ΠΈ сама модСль (100 строк). ВсС вмСстС с Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌ Ρ†ΠΈΠΊΠ»ΠΎΠΌ умСщаСтся Π² 750 строк β€” идСально для ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΉ.

Бозданная с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ nanoVLM модСль Π½Π΅ ΠΏΡ€Π΅Ρ‚Π΅Π½Π΄ΡƒΠ΅Ρ‚ Π½Π° Π·Π²Π°Π½ΠΈΠ΅ ΠΏΡ€ΠΎΡ€Ρ‹Π²Π½ΠΎΠΉ, Π½ΠΎ Π΄Π°Π΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡Π½ΡƒΡŽ Π±Π°Π·Ρƒ для экспСримСнтов. ΠšΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΡ SigLIP-B/16-224-85M (Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ Ρ‡Π°ΡΡ‚ΡŒ) ΠΈ SmolLM2-135M (языковая) создаСт ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ VLM Π½Π° 222 ΠΌΠ»Π½. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ПослС 6 часов обучСния Π½Π° ΠΎΠ΄Π½ΠΎΠΌ H100 GPU ΠΈ 1.7 ΠΌΠ»Π½. ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΈΠ· датасСта The Cauldron ΠΎΠ½Π° ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 35.3% точности Π½Π° MMStar.

ΠΠ°Ρ‡Π°Ρ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ ΠΌΠΎΠΆΠ½ΠΎ 3 способами: ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ, Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΉ Colab-Π½ΠΎΡƒΡ‚Π±ΡƒΠΊ ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΉ Ρ‚ΡƒΡ‚ΠΎΡ€ΠΈΠ°Π» Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ ipynb. Π”Π°ΠΆΠ΅ Ссли Ρƒ вас Π½Π΅Ρ‚ доступа ΠΊ Ρ‚ΠΎΠΏΠΎΠ²ΠΎΠΌΡƒ ΠΆΠ΅Π»Π΅Π·Ρƒ, экспСримСнты Π½Π° Google Colab Π½Π° бСсплатном Ρ‚ΠΈΠ΅Ρ€Π΅ Π²ΠΏΠΎΠ»Π½Π΅ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹. Установка максимально ΠΎΠ±Π»Π΅Π³Ρ‡Π΅Π½Π°: зависимости ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹, Π° Π»ΠΎΠ³ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΡƒΠΆΠ΅ встроСны.

nanoVLM ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ ΠΏΠΎΠ΄ΠΎΠΉΠ΄Π΅Ρ‚ ΠΊΠ°ΠΊ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ ΠΈΠ»ΠΈ Ρ‚Ρ€Π΅Π½Π°ΠΆΠ΅Ρ€ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·ΡƒΡ‡Π°Ρ‚ΡŒ VLM. Π’ Π½Π΅ΠΌ Π΅ΡΡ‚ΡŒ всС для старта β€” ΠΎΡ‚ понятного ΠΊΠΎΠ΄Π° Π΄ΠΎ Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². Если Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ свою ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΡƒΡŽ модСль, Π½ΠΎ Π±ΠΎΠΈΡ‚Π΅ΡΡŒ слоТностСй, nanoVLM станСт ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎΠΉ пСсочницСй для экспСримСнтов.


🟑МодСль
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #NanoVLM #Github
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/ai_machinelearning_big_data/7601
Create:
Last Update:

πŸ“ŒnanoVLM: простой ΠΈ ΠΌΠΎΡ‰Π½Ρ‹ΠΉ инструмСнт для экспСримСнтов с VLM.

nanoVLM - ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π²Π΄ΠΎΡ…Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ nanoGPT ΠΎΡ‚ Andrej Karpathy, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΠΈΡΡ‚ΠΈΡ‡Π½ΡƒΡŽ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ VLM Π½Π° чистом PyTorch.

Код ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ прост, Ρ‡Ρ‚ΠΎ Π΄Π°ΠΆΠ΅ Π½ΠΎΠ²ΠΈΡ‡ΠΎΠΊ быстро ΠΏΠΎΠΉΠΌΠ΅Ρ‚, ΠΊΠ°ΠΊ устроСны ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹: Vision Backbone (150 строк), Language Decoder (250 строк), проСкция ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (50 строк) ΠΈ сама модСль (100 строк). ВсС вмСстС с Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌ Ρ†ΠΈΠΊΠ»ΠΎΠΌ умСщаСтся Π² 750 строк β€” идСально для ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΉ.

Бозданная с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ nanoVLM модСль Π½Π΅ ΠΏΡ€Π΅Ρ‚Π΅Π½Π΄ΡƒΠ΅Ρ‚ Π½Π° Π·Π²Π°Π½ΠΈΠ΅ ΠΏΡ€ΠΎΡ€Ρ‹Π²Π½ΠΎΠΉ, Π½ΠΎ Π΄Π°Π΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡Π½ΡƒΡŽ Π±Π°Π·Ρƒ для экспСримСнтов. ΠšΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΡ SigLIP-B/16-224-85M (Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ Ρ‡Π°ΡΡ‚ΡŒ) ΠΈ SmolLM2-135M (языковая) создаСт ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ VLM Π½Π° 222 ΠΌΠ»Π½. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ПослС 6 часов обучСния Π½Π° ΠΎΠ΄Π½ΠΎΠΌ H100 GPU ΠΈ 1.7 ΠΌΠ»Π½. ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΈΠ· датасСта The Cauldron ΠΎΠ½Π° ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 35.3% точности Π½Π° MMStar.

ΠΠ°Ρ‡Π°Ρ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ ΠΌΠΎΠΆΠ½ΠΎ 3 способами: ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ, Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΉ Colab-Π½ΠΎΡƒΡ‚Π±ΡƒΠΊ ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΉ Ρ‚ΡƒΡ‚ΠΎΡ€ΠΈΠ°Π» Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ ipynb. Π”Π°ΠΆΠ΅ Ссли Ρƒ вас Π½Π΅Ρ‚ доступа ΠΊ Ρ‚ΠΎΠΏΠΎΠ²ΠΎΠΌΡƒ ΠΆΠ΅Π»Π΅Π·Ρƒ, экспСримСнты Π½Π° Google Colab Π½Π° бСсплатном Ρ‚ΠΈΠ΅Ρ€Π΅ Π²ΠΏΠΎΠ»Π½Π΅ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹. Установка максимально ΠΎΠ±Π»Π΅Π³Ρ‡Π΅Π½Π°: зависимости ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹, Π° Π»ΠΎΠ³ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΡƒΠΆΠ΅ встроСны.

nanoVLM ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ ΠΏΠΎΠ΄ΠΎΠΉΠ΄Π΅Ρ‚ ΠΊΠ°ΠΊ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ ΠΈΠ»ΠΈ Ρ‚Ρ€Π΅Π½Π°ΠΆΠ΅Ρ€ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·ΡƒΡ‡Π°Ρ‚ΡŒ VLM. Π’ Π½Π΅ΠΌ Π΅ΡΡ‚ΡŒ всС для старта β€” ΠΎΡ‚ понятного ΠΊΠΎΠ΄Π° Π΄ΠΎ Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². Если Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ свою ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΡƒΡŽ модСль, Π½ΠΎ Π±ΠΎΠΈΡ‚Π΅ΡΡŒ слоТностСй, nanoVLM станСт ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎΠΉ пСсочницСй для экспСримСнтов.


🟑МодСль
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #NanoVLM #Github

BY Machinelearning




Share with your friend now:
tgoop.com/ai_machinelearning_big_data/7601

View MORE
Open in Telegram


Telegram News

Date: |

Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October.
from us


Telegram Machinelearning
FROM American