MACHINELEARNING_INTERVIEW Telegram 1318
Forwarded from Machinelearning
🌟 Run:ai Model Streamer - ускорСниС Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ LLM.

Run:ai Model Streamer – Python SDK, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ для ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ машинного обучСния. Он ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π°Ρ… (.pt, .h5, .safetensors ΠΈ Π΄Ρ€.) ΠΈΠ· сСтСвых Ρ„Π°ΠΉΠ»ΠΎΠ²Ρ‹Ρ… систСм, Ρ…Ρ€Π°Π½ΠΈΠ»ΠΈΡ‰ S3 ΠΈ Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… дисков.

ΠžΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ Streamer - использованиС многопоточности для ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½ΠΎΠΉ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ Ρ‚Π΅Π½Π·ΠΎΡ€ΠΎΠ² ΠΈΠ· Ρ„Π°ΠΉΠ»Π° Π² Π²Ρ‹Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΉ Π±ΡƒΡ„Π΅Ρ€ ΠΎΠΏΠ΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ памяти.

ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ‚Π΅Π½Π·ΠΎΡ€ идСнтифицируСтся ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΌ ΠΊΠ»ΡŽΡ‡ΠΎΠΌ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ впослСдствии ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ΠΌ для Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ Ρ‚Π΅Π½Π·ΠΎΡ€Π° Π² ΠΏΠ°ΠΌΡΡ‚ΡŒ GPU. Π­Ρ‚ΠΎ Π΄Π°Π΅Ρ‚ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ Π·Π°Π³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒ Ρ‚Π΅Π½Π·ΠΎΡ€Ρ‹ Π² ΠΏΠ°ΠΌΡΡ‚ΡŒ GPU ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ с Ρ‡Ρ‚Π΅Π½ΠΈΠ΅ΠΌ Π΄Ρ€ΡƒΠ³ΠΈΡ… Ρ‚Π΅Π½Π·ΠΎΡ€ΠΎΠ² ΠΈΠ· Ρ…Ρ€Π°Π½ΠΈΠ»ΠΈΡ‰Π° Π² ΠΎΠΏΠ΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΡƒΡŽ ΠΏΠ°ΠΌΡΡ‚ΡŒ, минимизируя врСмя простоя GPU.

Streamer ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Π²Ρ‹ΡΠΎΠΊΠΎΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ слой Π½Π° C++, Π° Python API обСспСчиваСт ΡƒΠ΄ΠΎΠ±Π½ΡƒΡŽ ΠΈΠ½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΡŽ Streamer Π² ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Ρ‹, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, для Π°Π²Ρ‚ΠΎΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… сСрвСров инфСрСнса, Π³Π΄Π΅ минимизация Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ простоя GPU критичСски Π²Π°ΠΆΠ½Π°.

ВСст ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Run:ai Model Streamer выполнялся Π½Π° NVIDIA A10G с модСлью Llama-3-8B (15 GB) ΠΈ сравнивался с Π·Π°Π³Ρ€ΡƒΠ·Ρ‡ΠΈΠΊΠ°ΠΌΠΈ SafeTensors ΠΎΡ‚ Hugging Face ΠΈ Tensorizer ΠΎΡ‚ CoreWeave.

ΠŸΡ€ΠΈ использовании Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… SSD, Run:ai Model Streamer достигал максимальной пропускной способности SSD (1 Π“Π‘/с для GP3 ΠΈ 2 Π“Π‘/с для IO2), сокращая врСмя Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² 6 Ρ€Π°Π· ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с SafeTensors Loader.

На Amazon S3 Run:ai Model Streamer Π·Π°Π³Ρ€ΡƒΠΆΠ°Π» модСль Π·Π° 4.88 сСкунды, Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ прСвосходя Tensorizer (37.36 сСкунд).


⚠️ Streamer ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ прилоТСния PyTorch.

⚠️ Π Π°Π·ΠΌΠ΅Ρ€ Π±ΡƒΡ„Π΅Ρ€Π° ΠΎΠΏΠ΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ памяти рСгулируСтся ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠΌ RUNAI_STREAMER_MEMORY_LIMIT


▢️ ΠŸΡ€ΠΈΠΌΠ΅Ρ€ запуска с локального диска:

# Install streamer from pip
pip install runai-model-streamer

# Load the tensors to the buffer and stream to the GPU
from runai_model_streamer import SafetensorsStreamer

file_path = "/path/to/file.safetensors"

with SafetensorsStreamer() as streamer:
streamer.stream_file(file_path)
for name, tensor in streamer.get_tensors():
tensor.to('CUDA:0')



πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠΈ Π² Π±Π»ΠΎΠ³Π΅ RunAI
πŸŸ‘Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΡ
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RunAI #ModelStramer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘9❀3πŸ”₯2



tgoop.com/machinelearning_interview/1318
Create:
Last Update:

🌟 Run:ai Model Streamer - ускорСниС Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ LLM.

Run:ai Model Streamer – Python SDK, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ для ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ машинного обучСния. Он ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π°Ρ… (.pt, .h5, .safetensors ΠΈ Π΄Ρ€.) ΠΈΠ· сСтСвых Ρ„Π°ΠΉΠ»ΠΎΠ²Ρ‹Ρ… систСм, Ρ…Ρ€Π°Π½ΠΈΠ»ΠΈΡ‰ S3 ΠΈ Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… дисков.

ΠžΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ Streamer - использованиС многопоточности для ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½ΠΎΠΉ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ Ρ‚Π΅Π½Π·ΠΎΡ€ΠΎΠ² ΠΈΠ· Ρ„Π°ΠΉΠ»Π° Π² Π²Ρ‹Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΉ Π±ΡƒΡ„Π΅Ρ€ ΠΎΠΏΠ΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ памяти.

ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ‚Π΅Π½Π·ΠΎΡ€ идСнтифицируСтся ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΌ ΠΊΠ»ΡŽΡ‡ΠΎΠΌ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ впослСдствии ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ΠΌ для Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ Ρ‚Π΅Π½Π·ΠΎΡ€Π° Π² ΠΏΠ°ΠΌΡΡ‚ΡŒ GPU. Π­Ρ‚ΠΎ Π΄Π°Π΅Ρ‚ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ Π·Π°Π³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒ Ρ‚Π΅Π½Π·ΠΎΡ€Ρ‹ Π² ΠΏΠ°ΠΌΡΡ‚ΡŒ GPU ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ с Ρ‡Ρ‚Π΅Π½ΠΈΠ΅ΠΌ Π΄Ρ€ΡƒΠ³ΠΈΡ… Ρ‚Π΅Π½Π·ΠΎΡ€ΠΎΠ² ΠΈΠ· Ρ…Ρ€Π°Π½ΠΈΠ»ΠΈΡ‰Π° Π² ΠΎΠΏΠ΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΡƒΡŽ ΠΏΠ°ΠΌΡΡ‚ΡŒ, минимизируя врСмя простоя GPU.

Streamer ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Π²Ρ‹ΡΠΎΠΊΠΎΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ слой Π½Π° C++, Π° Python API обСспСчиваСт ΡƒΠ΄ΠΎΠ±Π½ΡƒΡŽ ΠΈΠ½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΡŽ Streamer Π² ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Ρ‹, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, для Π°Π²Ρ‚ΠΎΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… сСрвСров инфСрСнса, Π³Π΄Π΅ минимизация Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ простоя GPU критичСски Π²Π°ΠΆΠ½Π°.

ВСст ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Run:ai Model Streamer выполнялся Π½Π° NVIDIA A10G с модСлью Llama-3-8B (15 GB) ΠΈ сравнивался с Π·Π°Π³Ρ€ΡƒΠ·Ρ‡ΠΈΠΊΠ°ΠΌΠΈ SafeTensors ΠΎΡ‚ Hugging Face ΠΈ Tensorizer ΠΎΡ‚ CoreWeave.

ΠŸΡ€ΠΈ использовании Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… SSD, Run:ai Model Streamer достигал максимальной пропускной способности SSD (1 Π“Π‘/с для GP3 ΠΈ 2 Π“Π‘/с для IO2), сокращая врСмя Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² 6 Ρ€Π°Π· ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с SafeTensors Loader.

На Amazon S3 Run:ai Model Streamer Π·Π°Π³Ρ€ΡƒΠΆΠ°Π» модСль Π·Π° 4.88 сСкунды, Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ прСвосходя Tensorizer (37.36 сСкунд).


⚠️ Streamer ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ прилоТСния PyTorch.

⚠️ Π Π°Π·ΠΌΠ΅Ρ€ Π±ΡƒΡ„Π΅Ρ€Π° ΠΎΠΏΠ΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ памяти рСгулируСтся ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠΌ RUNAI_STREAMER_MEMORY_LIMIT


▢️ ΠŸΡ€ΠΈΠΌΠ΅Ρ€ запуска с локального диска:

# Install streamer from pip
pip install runai-model-streamer

# Load the tensors to the buffer and stream to the GPU
from runai_model_streamer import SafetensorsStreamer

file_path = "/path/to/file.safetensors"

with SafetensorsStreamer() as streamer:
streamer.stream_file(file_path)
for name, tensor in streamer.get_tensors():
tensor.to('CUDA:0')



πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠΈ Π² Π±Π»ΠΎΠ³Π΅ RunAI
πŸŸ‘Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΡ
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RunAI #ModelStramer

BY Machine learning Interview





Share with your friend now:
tgoop.com/machinelearning_interview/1318

View MORE
Open in Telegram


Telegram News

Date: |

Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. Invite up to 200 users from your contacts to join your channel Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp.
from us


Telegram Machine learning Interview
FROM American