Machine learning Interview@machinelearning

🌟 Run:ai Model Streamer - ускорение загрузки LLM.

Run:ai Model Streamer – Python SDK, разработанный для оптимизации загрузки моделей машинного обучения. Он поддерживает загрузку моделей в различных форматах (.pt, .h5, .safetensors и др.) из сетевых файловых систем, хранилищ S3 и локальных дисков.

Особенность Streamer - использование многопоточности для параллельной загрузки тензоров из файла в выделенный буфер оперативной памяти.

Каждый тензор идентифицируется уникальным ключом, который впоследствии используется приложением для загрузки тензора в память GPU. Это дает возможность загружать тензоры в память GPU одновременно с чтением других тензоров из хранилища в оперативную память, минимизируя время простоя GPU.

Streamer использует высокопроизводительный слой на C++, а Python API обеспечивает удобную интеграцию Streamer в существующие проекты, например, для автомасштабируемых серверов инференса, где минимизация времени простоя GPU критически важна.

Тест производительности Run:ai Model Streamer выполнялся на NVIDIA A10G с моделью Llama-3-8B (15 GB) и сравнивался с загрузчиками SafeTensors от Hugging Face и Tensorizer от CoreWeave.

При использовании локальных SSD, Run:ai Model Streamer достигал максимальной пропускной способности SSD (1 ГБ/с для GP3 и 2 ГБ/с для IO2), сокращая время загрузки модели в 6 раз по сравнению с SafeTensors Loader.

На Amazon S3 Run:ai Model Streamer загружал модель за 4.88 секунды, значительно превосходя Tensorizer (37.36 секунд).

⚠️ Streamer поддерживает только приложения PyTorch.

⚠️ Размер буфера оперативной памяти регулируется параметром RUNAI_STREAMER_MEMORY_LIMIT

▶️ Пример запуска с локального диска:

# Install streamer from pip
pip install runai-model-streamer

# Load the tensors to the buffer and stream to the GPU
from runai_model_streamer import SafetensorsStreamer

file_path = "/path/to/file.safetensors"

with SafetensorsStreamer() as streamer:
    streamer.stream_file(file_path)
    for name, tensor in streamer.get_tensors():
        tensor.to('CUDA:0')

📌Лицензирование: Apache 2.0 License.

🟡

Бенчмарки в блоге RunAI

🟡

Документация

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #RunAI #ModelStramer

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤3🔥2

www.tgoop.com/machinelearning_interview/1318

3.68K viewsNov 4, 2024 at 11:10

tgoop.com/machinelearning_interview/1319

Create: 2024-11-04
Last Update: 2025-07-13 13:01:33

# Install streamer from pip
pip install runai-model-streamer

# Load the tensors to the buffer and stream to the GPU
from runai_model_streamer import SafetensorsStreamer

file_path = "/path/to/file.safetensors"

with SafetensorsStreamer() as streamer:
    streamer.stream_file(file_path)
    for name, tensor in streamer.get_tensors():
        tensor.to('CUDA:0')

📌Лицензирование: Apache 2.0 License.

🟡

Бенчмарки в блоге RunAI

🟡

Документация

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #RunAI #ModelStramer

Telegram News

🌟 Run:ai Model Streamer - ускорение загрузки LLM.