AI_MACHINELEARNING_BIG_DATA Telegram 6833
🌟 InfiniteHiP: Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΈΠ΅ контСкста LLM Π΄ΠΎ 3 ΠΌΠ»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP - опСнсорсный инструмСнт, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ сСрвисом deepauto.ai, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ позволяСт Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π°ΡΡˆΠΈΡ€ΠΈΡ‚ΡŒ контСкст LLM, обрабатывая Π΄ΠΎ 3 ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΌΠΎΠ΄ΡƒΠ»ΡŒΠ½Ρ‹ΠΉ иСрархичСский Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΏΡ€ΡƒΠ½ΠΈΠ½Π³Π° Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², динамичСски отсСивая Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ элСмСнты контСкста. Π­Ρ‚ΠΎ позволяСт ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ ΠΈ ΠΎΠ±ΠΎΠΉΡ‚ΠΈ ограничСния GPU ΠΏΠΎ памяти, пСрСнося KV-кэш Π² ΠΏΠ°ΠΌΡΡ‚ΡŒ хоста.

ΠŸΡ€ΡƒΠ½ΠΈΠ½Π³-ΠΌΠΎΠ΄ΡƒΠ»ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΈΠ·Π±ΠΈΡ€Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ ΠΌΠ΅Π½Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹Π΅ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹, ΠΎΠΏΠΈΡ€Π°ΡΡΡŒ Π½Π° Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½ΠΎΡΡ‚ΡŒ шаблонов ΠΈ ΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ Π»ΠΎΠΊΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Π² ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π°Ρ… внимания LLM.

Алгоритм Π΄Π΅Π»ΠΈΡ‚ Π²Ρ…ΠΎΠ΄Π½ΡƒΡŽ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π½Π° Ρ‡Π°Π½ΠΊΠΈ фиксированной Π΄Π»ΠΈΠ½Ρ‹ ΠΈ опрСдСляСт аппроксимированный top-1 Ρ‚ΠΎΠΊΠ΅Π½ с Π½Π°ΠΈΠ²Ρ‹ΡΡˆΠΈΠΌ attention score Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Ρ‡Π°Π½ΠΊΠ΅. Π—Π°Ρ‚Π΅ΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ top-K Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹Ρ… Ρ‡Π°Π½ΠΊΠΎΠ² ΠΏΠ΅Ρ€Π΅Π΄Π°ΡŽΡ‚ΡΡ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ, Π° ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ΡΡ.

Максимально эффСктивная рСализация InfiniteHiP Π½Π° SGLang Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ΅ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 7.24-ΠΊΡ€Π°Ρ‚Π½ΠΎΠ΅ ускорСниС Π² end-to-end Π΄Π΅ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π½Π° контСкстС Π² 3 ΠΌΠ»Π½. ΠΏΡ€ΠΈ использовании всСго 3.34% VRAM, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΠΉ для Flash Attention 2.

InfiniteHiP прСвосходит ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… QA ΠΏΠΎ ΠΎΠ±ΡŠΠ΅ΠΌΠ½Ρ‹ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌ, ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΠΈ ΠΈ Π² ΠΌΡƒΠ»ΡŒΡ‚ΠΈ-ΡˆΠΎΡ‚ Ρ€ΠΈΠ·ΠΎΠ½ΠΈΠ½Π³Π΅. HiP дСмонстрируСт ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹Π΅ OOL (out-of-likelihood) способности, сохраняя ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠΈ Π΄Π»ΠΈΠ½Ρ‹ контСкста, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π½Π° Ρ‚Π°ΠΊΠΈΡ… Π·Π°Π΄Π°Ρ‡Π°Ρ… ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ Π΄Π΅Π³Ρ€Π°Π΄ΠΈΡ€ΡƒΡŽΡ‚.

InfiniteHiP ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ с Π»ΡŽΠ±Ρ‹ΠΌΠΈ модСлями Π½Π° Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Transformers.

▢️ Π›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ использованиС:

git clone [email protected]:DeepAuto-AI/hip-attention.git
cd hip-attention

conda create --name hip python=3.11
conda activate hip

pip install -e "."
# Optional for development
pip install -e ".[dev]"

# Optional, depends on your CUDA environment
export CUDACXX=/usr/local/cuda/bin/nvcc
# Dependencies that requires --no-build-isolation
pip install -e ".[no_build_iso]" \
--no-build-isolation \
--verbose
# SGLang with OpenAI API support for serving
pip install -e ".[sglang]" \
--no-build-isolation \
--verbose \
--find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

# Access the `hip` package from any project
import torch
from hip import hip_attention_12, HiPAttentionArgs12

device = 'cuda'

batch_size = 1
kv_len = 128 * 1024
q_len = 32 * 1024
num_heads = 32
num_kv_heads = 8
head_dims = 128
dtype = torch.bfloat16

q = torch.randn(
(batch_size, q_len, num_heads, head_dims),
dtype=dtype,
device=device
)
k = torch.randn(
(batch_size, kv_len, num_kv_heads, head_dims),
dtype=dtype,
device=device,
)
v = k.clone()

output, metadata = hip_attention_12(q=q, k=k, v=v, args=HiPAttentionArgs12())
print(output.shape)

# > torch.Size([1, 32768, 32, 128])


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: FSL-1.1-MIT


🟑Arxiv
🟑Demo
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #InfiniteHiP #Framework
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ”₯44πŸ‘23❀7πŸ€”3🀝1



tgoop.com/ai_machinelearning_big_data/6833
Create:
Last Update:

🌟 InfiniteHiP: Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΈΠ΅ контСкста LLM Π΄ΠΎ 3 ΠΌΠ»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP - опСнсорсный инструмСнт, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ сСрвисом deepauto.ai, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ позволяСт Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π°ΡΡˆΠΈΡ€ΠΈΡ‚ΡŒ контСкст LLM, обрабатывая Π΄ΠΎ 3 ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΌΠΎΠ΄ΡƒΠ»ΡŒΠ½Ρ‹ΠΉ иСрархичСский Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΏΡ€ΡƒΠ½ΠΈΠ½Π³Π° Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², динамичСски отсСивая Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ элСмСнты контСкста. Π­Ρ‚ΠΎ позволяСт ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ ΠΈ ΠΎΠ±ΠΎΠΉΡ‚ΠΈ ограничСния GPU ΠΏΠΎ памяти, пСрСнося KV-кэш Π² ΠΏΠ°ΠΌΡΡ‚ΡŒ хоста.

ΠŸΡ€ΡƒΠ½ΠΈΠ½Π³-ΠΌΠΎΠ΄ΡƒΠ»ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΈΠ·Π±ΠΈΡ€Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ ΠΌΠ΅Π½Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹Π΅ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹, ΠΎΠΏΠΈΡ€Π°ΡΡΡŒ Π½Π° Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½ΠΎΡΡ‚ΡŒ шаблонов ΠΈ ΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ Π»ΠΎΠΊΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Π² ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π°Ρ… внимания LLM.

Алгоритм Π΄Π΅Π»ΠΈΡ‚ Π²Ρ…ΠΎΠ΄Π½ΡƒΡŽ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π½Π° Ρ‡Π°Π½ΠΊΠΈ фиксированной Π΄Π»ΠΈΠ½Ρ‹ ΠΈ опрСдСляСт аппроксимированный top-1 Ρ‚ΠΎΠΊΠ΅Π½ с Π½Π°ΠΈΠ²Ρ‹ΡΡˆΠΈΠΌ attention score Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Ρ‡Π°Π½ΠΊΠ΅. Π—Π°Ρ‚Π΅ΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ top-K Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹Ρ… Ρ‡Π°Π½ΠΊΠΎΠ² ΠΏΠ΅Ρ€Π΅Π΄Π°ΡŽΡ‚ΡΡ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ, Π° ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ΡΡ.

Максимально эффСктивная рСализация InfiniteHiP Π½Π° SGLang Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ΅ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 7.24-ΠΊΡ€Π°Ρ‚Π½ΠΎΠ΅ ускорСниС Π² end-to-end Π΄Π΅ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π½Π° контСкстС Π² 3 ΠΌΠ»Π½. ΠΏΡ€ΠΈ использовании всСго 3.34% VRAM, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΠΉ для Flash Attention 2.

InfiniteHiP прСвосходит ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… QA ΠΏΠΎ ΠΎΠ±ΡŠΠ΅ΠΌΠ½Ρ‹ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌ, ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΠΈ ΠΈ Π² ΠΌΡƒΠ»ΡŒΡ‚ΠΈ-ΡˆΠΎΡ‚ Ρ€ΠΈΠ·ΠΎΠ½ΠΈΠ½Π³Π΅. HiP дСмонстрируСт ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹Π΅ OOL (out-of-likelihood) способности, сохраняя ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠΈ Π΄Π»ΠΈΠ½Ρ‹ контСкста, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π½Π° Ρ‚Π°ΠΊΠΈΡ… Π·Π°Π΄Π°Ρ‡Π°Ρ… ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ Π΄Π΅Π³Ρ€Π°Π΄ΠΈΡ€ΡƒΡŽΡ‚.

InfiniteHiP ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ с Π»ΡŽΠ±Ρ‹ΠΌΠΈ модСлями Π½Π° Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Transformers.

▢️ Π›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ использованиС:

git clone [email protected]:DeepAuto-AI/hip-attention.git
cd hip-attention

conda create --name hip python=3.11
conda activate hip

pip install -e "."
# Optional for development
pip install -e ".[dev]"

# Optional, depends on your CUDA environment
export CUDACXX=/usr/local/cuda/bin/nvcc
# Dependencies that requires --no-build-isolation
pip install -e ".[no_build_iso]" \
--no-build-isolation \
--verbose
# SGLang with OpenAI API support for serving
pip install -e ".[sglang]" \
--no-build-isolation \
--verbose \
--find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

# Access the `hip` package from any project
import torch
from hip import hip_attention_12, HiPAttentionArgs12

device = 'cuda'

batch_size = 1
kv_len = 128 * 1024
q_len = 32 * 1024
num_heads = 32
num_kv_heads = 8
head_dims = 128
dtype = torch.bfloat16

q = torch.randn(
(batch_size, q_len, num_heads, head_dims),
dtype=dtype,
device=device
)
k = torch.randn(
(batch_size, kv_len, num_kv_heads, head_dims),
dtype=dtype,
device=device,
)
v = k.clone()

output, metadata = hip_attention_12(q=q, k=k, v=v, args=HiPAttentionArgs12())
print(output.shape)

# > torch.Size([1, 32768, 32, 128])


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: FSL-1.1-MIT


🟑Arxiv
🟑Demo
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #InfiniteHiP #Framework

BY Machinelearning





Share with your friend now:
tgoop.com/ai_machinelearning_big_data/6833

View MORE
Open in Telegram


Telegram News

Date: |

Unlimited number of subscribers per channel Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians.
from us


Telegram Machinelearning
FROM American