tgoop.com/bigdata_1/947
Last Update:
GuideLLM - ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½Ρ Π΄Π»Ρ ΠΎΡΠ΅Π½ΠΊΠΈ ΠΈ ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΠΈ ΡΠ°Π·Π²Π΅ΡΡΡΠ²Π°Π½ΠΈΡ LLM. ΠΠΎΠ΄Π΅Π»ΠΈΡΡΡ ΡΠ°Π±ΠΎΡΠΈΠ΅ Π½Π°Π³ΡΡΠ·ΠΊΠΈ ΠΏΠΎ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΡ Π² ΡΠ΅Π°Π»ΡΠ½ΡΡ
ΡΡΠ»ΠΎΠ²ΠΈΡΡ
, GuideLLM ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ ΠΎΡΠ΅Π½ΠΈΡΡ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΡ, ΠΏΠΎΡΡΠ΅Π±Π½ΠΎΡΡΠΈ Π² ΡΠ΅ΡΡΡΡΠ°Ρ
ΠΈ ΠΏΡΠΈΠ½ΡΡΡ ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ ΠΏΠΎ Π½Π΅ΠΎΠ±Ρ
ΠΎΠ΄ΠΈΠΌΠΎΠΉ Π°ΠΏΠΏΠ°ΡΠ°ΡΠ½ΠΎΠΉ ΠΊΠΎΠ½ΡΠΈΠ³ΡΡΠ°ΡΠΈΠΈ Π΄Π»Ρ Π·Π°ΠΏΡΡΠΊΠ° LLM.
ΠΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠΈ :
ΠΠ»Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ GuideLLM ΡΡΠ΅Π±ΡΠ΅ΡΡΡ OpenAI-ΡΠΎΠ²ΠΌΠ΅ΡΡΠΈΠΌΡΠΉ ΡΠ΅ΡΠ²Π΅Ρ, Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, vLLM. Π¦Π΅Π»Π΅Π²Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ Π΄Π»Ρ ΠΎΡΠ΅Π½ΠΊΠΈ ΠΌΠΎΠΆΠ΅Ρ Π±ΡΡΡ ΡΠ°Π·ΠΌΠ΅ΡΠ΅Π½Π° ΠΊΠ°ΠΊ Π»ΠΎΠΊΠ°Π»ΡΠ½ΠΎ, ΡΠ°ΠΊ ΠΈ Π² ΡΠ΅ΡΠΈ.
# Π£ΡΡΠ°Π½ΠΎΠ²ΠΊΠ° ΠΈΠ· pip
pip install guidellm
# ΠΠ°ΠΏΡΡΠΊ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² vLLM
vllm serve "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16"
# ΠΠ°ΠΏΡΡΠΊ GuideLLM
guidellm \
--target "http://localhost:8000/v1" \
--model "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16" \
--data-type emulated \
--data "prompt_tokens=512,generated_tokens=128"
ΠΠΎ ΡΠΌΠΎΠ»ΡΠ°Π½ΠΈΡ, GuideLLM ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΡ ΡΠ΅ΡΠΈΡ ΠΎΡΠ΅Π½ΠΎΠΊ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ Ρ ΡΠ°Π·Π½ΠΎΠΉ ΡΠ°ΡΡΠΎΡΠΎΠΉ Π·Π°ΠΏΡΠΎΡΠΎΠ², ΠΊΠ°ΠΆΠ΄Π°Ρ ΠΈΠ· ΠΊΠΎΡΠΎΡΡΡ Π΄Π»ΠΈΡΡΡ 120 ΡΠ΅ΠΊΡΠ½Π΄, ΠΈ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ Π²ΡΠ²ΠΎΠ΄ΡΡΡΡ Π² ΡΠ΅ΡΠΌΠΈΠ½Π°Π».
ΠΠΎΡΠ»Π΅ Π·Π°Π²Π΅ΡΡΠ΅Π½ΠΈΡ ΠΎΡΠ΅Π½ΠΊΠΈ GuideLLM ΠΏΠΎΠ΄Π²Π΅Π΄Π΅Ρ ΠΈΡΠΎΠ³ΠΈ, Π² ΡΠΎΠΌ ΡΠΈΡΠ»Π΅ - ΠΌΠ΅ΡΡΠΈΠΊΠΈ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΠΈ.
ΠΠΎΠΊΡΠΌΠ΅Π½ΡΠ°ΡΠΈΡ ΠΊ Π½Π°Ρ ΠΎΠ΄ΠΈΡΡΡ Π² ΡΡΠ°Π΄ΠΈΠΈ ΡΠ°Π·ΡΠ°Π±ΠΎΡΠΊΠΈ. ΠΠΎΠ»Π½ΡΠΉ Π½Π°Π±ΠΎΡ ΠΎΠΏΡΠΈΠΉ Π·Π°ΠΏΡΡΠΊΠ° ΠΈ ΠΊΠΎΠ½ΡΠΈΠ³ΡΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ GuideLLM ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡΠΌΠΎΡΡΠ΅ΡΡ ΠΊΠΎΠΌΠ°Π½Π΄Π°ΠΌΠΈ
guidellm --help
ΠΈ guidellm-config
https://github.com/neuralmagic/guidellm
π @bigdata_1