AI_MACHINELEARNING_BIG_DATA Telegram 6833
🌟 InfiniteHiP: Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΈΠ΅ контСкста LLM Π΄ΠΎ 3 ΠΌΠ»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP - опСнсорсный инструмСнт, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ сСрвисом deepauto.ai, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ позволяСт Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π°ΡΡˆΠΈΡ€ΠΈΡ‚ΡŒ контСкст LLM, обрабатывая Π΄ΠΎ 3 ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΌΠΎΠ΄ΡƒΠ»ΡŒΠ½Ρ‹ΠΉ иСрархичСский Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΏΡ€ΡƒΠ½ΠΈΠ½Π³Π° Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², динамичСски отсСивая Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ элСмСнты контСкста. Π­Ρ‚ΠΎ позволяСт ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ ΠΈ ΠΎΠ±ΠΎΠΉΡ‚ΠΈ ограничСния GPU ΠΏΠΎ памяти, пСрСнося KV-кэш Π² ΠΏΠ°ΠΌΡΡ‚ΡŒ хоста.

ΠŸΡ€ΡƒΠ½ΠΈΠ½Π³-ΠΌΠΎΠ΄ΡƒΠ»ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΈΠ·Π±ΠΈΡ€Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ ΠΌΠ΅Π½Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹Π΅ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹, ΠΎΠΏΠΈΡ€Π°ΡΡΡŒ Π½Π° Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½ΠΎΡΡ‚ΡŒ шаблонов ΠΈ ΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ Π»ΠΎΠΊΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Π² ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π°Ρ… внимания LLM.

Алгоритм Π΄Π΅Π»ΠΈΡ‚ Π²Ρ…ΠΎΠ΄Π½ΡƒΡŽ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π½Π° Ρ‡Π°Π½ΠΊΠΈ фиксированной Π΄Π»ΠΈΠ½Ρ‹ ΠΈ опрСдСляСт аппроксимированный top-1 Ρ‚ΠΎΠΊΠ΅Π½ с Π½Π°ΠΈΠ²Ρ‹ΡΡˆΠΈΠΌ attention score Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Ρ‡Π°Π½ΠΊΠ΅. Π—Π°Ρ‚Π΅ΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ top-K Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹Ρ… Ρ‡Π°Π½ΠΊΠΎΠ² ΠΏΠ΅Ρ€Π΅Π΄Π°ΡŽΡ‚ΡΡ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ, Π° ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ΡΡ.

Максимально эффСктивная рСализация InfiniteHiP Π½Π° SGLang Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ΅ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 7.24-ΠΊΡ€Π°Ρ‚Π½ΠΎΠ΅ ускорСниС Π² end-to-end Π΄Π΅ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π½Π° контСкстС Π² 3 ΠΌΠ»Π½. ΠΏΡ€ΠΈ использовании всСго 3.34% VRAM, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΠΉ для Flash Attention 2.

InfiniteHiP прСвосходит ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… QA ΠΏΠΎ ΠΎΠ±ΡŠΠ΅ΠΌΠ½Ρ‹ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌ, ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΠΈ ΠΈ Π² ΠΌΡƒΠ»ΡŒΡ‚ΠΈ-ΡˆΠΎΡ‚ Ρ€ΠΈΠ·ΠΎΠ½ΠΈΠ½Π³Π΅. HiP дСмонстрируСт ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹Π΅ OOL (out-of-likelihood) способности, сохраняя ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠΈ Π΄Π»ΠΈΠ½Ρ‹ контСкста, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π½Π° Ρ‚Π°ΠΊΠΈΡ… Π·Π°Π΄Π°Ρ‡Π°Ρ… ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ Π΄Π΅Π³Ρ€Π°Π΄ΠΈΡ€ΡƒΡŽΡ‚.

InfiniteHiP ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ с Π»ΡŽΠ±Ρ‹ΠΌΠΈ модСлями Π½Π° Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Transformers.

▢️ Π›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ использованиС:

git clone [email protected]:DeepAuto-AI/hip-attention.git
cd hip-attention

conda create --name hip python=3.11
conda activate hip

pip install -e "."
# Optional for development
pip install -e ".[dev]"

# Optional, depends on your CUDA environment
export CUDACXX=/usr/local/cuda/bin/nvcc
# Dependencies that requires --no-build-isolation
pip install -e ".[no_build_iso]" \
--no-build-isolation \
--verbose
# SGLang with OpenAI API support for serving
pip install -e ".[sglang]" \
--no-build-isolation \
--verbose \
--find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

# Access the `hip` package from any project
import torch
from hip import hip_attention_12, HiPAttentionArgs12

device = 'cuda'

batch_size = 1
kv_len = 128 * 1024
q_len = 32 * 1024
num_heads = 32
num_kv_heads = 8
head_dims = 128
dtype = torch.bfloat16

q = torch.randn(
(batch_size, q_len, num_heads, head_dims),
dtype=dtype,
device=device
)
k = torch.randn(
(batch_size, kv_len, num_kv_heads, head_dims),
dtype=dtype,
device=device,
)
v = k.clone()

output, metadata = hip_attention_12(q=q, k=k, v=v, args=HiPAttentionArgs12())
print(output.shape)

# > torch.Size([1, 32768, 32, 128])


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: FSL-1.1-MIT


🟑Arxiv
🟑Demo
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #InfiniteHiP #Framework
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/ai_machinelearning_big_data/6833
Create:
Last Update:

🌟 InfiniteHiP: Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΈΠ΅ контСкста LLM Π΄ΠΎ 3 ΠΌΠ»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP - опСнсорсный инструмСнт, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ сСрвисом deepauto.ai, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ позволяСт Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π°ΡΡˆΠΈΡ€ΠΈΡ‚ΡŒ контСкст LLM, обрабатывая Π΄ΠΎ 3 ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΌΠΎΠ΄ΡƒΠ»ΡŒΠ½Ρ‹ΠΉ иСрархичСский Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΏΡ€ΡƒΠ½ΠΈΠ½Π³Π° Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², динамичСски отсСивая Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ элСмСнты контСкста. Π­Ρ‚ΠΎ позволяСт ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ ΠΈ ΠΎΠ±ΠΎΠΉΡ‚ΠΈ ограничСния GPU ΠΏΠΎ памяти, пСрСнося KV-кэш Π² ΠΏΠ°ΠΌΡΡ‚ΡŒ хоста.

ΠŸΡ€ΡƒΠ½ΠΈΠ½Π³-ΠΌΠΎΠ΄ΡƒΠ»ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΈΠ·Π±ΠΈΡ€Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ ΠΌΠ΅Π½Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹Π΅ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹, ΠΎΠΏΠΈΡ€Π°ΡΡΡŒ Π½Π° Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½ΠΎΡΡ‚ΡŒ шаблонов ΠΈ ΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ Π»ΠΎΠΊΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Π² ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π°Ρ… внимания LLM.

Алгоритм Π΄Π΅Π»ΠΈΡ‚ Π²Ρ…ΠΎΠ΄Π½ΡƒΡŽ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π½Π° Ρ‡Π°Π½ΠΊΠΈ фиксированной Π΄Π»ΠΈΠ½Ρ‹ ΠΈ опрСдСляСт аппроксимированный top-1 Ρ‚ΠΎΠΊΠ΅Π½ с Π½Π°ΠΈΠ²Ρ‹ΡΡˆΠΈΠΌ attention score Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Ρ‡Π°Π½ΠΊΠ΅. Π—Π°Ρ‚Π΅ΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ top-K Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹Ρ… Ρ‡Π°Π½ΠΊΠΎΠ² ΠΏΠ΅Ρ€Π΅Π΄Π°ΡŽΡ‚ΡΡ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ, Π° ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ΡΡ.

Максимально эффСктивная рСализация InfiniteHiP Π½Π° SGLang Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ΅ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 7.24-ΠΊΡ€Π°Ρ‚Π½ΠΎΠ΅ ускорСниС Π² end-to-end Π΄Π΅ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π½Π° контСкстС Π² 3 ΠΌΠ»Π½. ΠΏΡ€ΠΈ использовании всСго 3.34% VRAM, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΠΉ для Flash Attention 2.

InfiniteHiP прСвосходит ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… QA ΠΏΠΎ ΠΎΠ±ΡŠΠ΅ΠΌΠ½Ρ‹ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌ, ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΠΈ ΠΈ Π² ΠΌΡƒΠ»ΡŒΡ‚ΠΈ-ΡˆΠΎΡ‚ Ρ€ΠΈΠ·ΠΎΠ½ΠΈΠ½Π³Π΅. HiP дСмонстрируСт ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹Π΅ OOL (out-of-likelihood) способности, сохраняя ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠΈ Π΄Π»ΠΈΠ½Ρ‹ контСкста, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π½Π° Ρ‚Π°ΠΊΠΈΡ… Π·Π°Π΄Π°Ρ‡Π°Ρ… ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ Π΄Π΅Π³Ρ€Π°Π΄ΠΈΡ€ΡƒΡŽΡ‚.

InfiniteHiP ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ с Π»ΡŽΠ±Ρ‹ΠΌΠΈ модСлями Π½Π° Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Transformers.

▢️ Π›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ использованиС:

git clone [email protected]:DeepAuto-AI/hip-attention.git
cd hip-attention

conda create --name hip python=3.11
conda activate hip

pip install -e "."
# Optional for development
pip install -e ".[dev]"

# Optional, depends on your CUDA environment
export CUDACXX=/usr/local/cuda/bin/nvcc
# Dependencies that requires --no-build-isolation
pip install -e ".[no_build_iso]" \
--no-build-isolation \
--verbose
# SGLang with OpenAI API support for serving
pip install -e ".[sglang]" \
--no-build-isolation \
--verbose \
--find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

# Access the `hip` package from any project
import torch
from hip import hip_attention_12, HiPAttentionArgs12

device = 'cuda'

batch_size = 1
kv_len = 128 * 1024
q_len = 32 * 1024
num_heads = 32
num_kv_heads = 8
head_dims = 128
dtype = torch.bfloat16

q = torch.randn(
(batch_size, q_len, num_heads, head_dims),
dtype=dtype,
device=device
)
k = torch.randn(
(batch_size, kv_len, num_kv_heads, head_dims),
dtype=dtype,
device=device,
)
v = k.clone()

output, metadata = hip_attention_12(q=q, k=k, v=v, args=HiPAttentionArgs12())
print(output.shape)

# > torch.Size([1, 32768, 32, 128])


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: FSL-1.1-MIT


🟑Arxiv
🟑Demo
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #InfiniteHiP #Framework

BY Machinelearning





Share with your friend now:
tgoop.com/ai_machinelearning_big_data/6833

View MORE
Open in Telegram


Telegram News

Date: |

Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click β€œSave”.! How to create a business channel on Telegram? (Tutorial) Matt Hussey, editorial director at NEAR Protocol also responded to this news with β€œ#meIRL”. Just as you search β€œBear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. Select β€œNew Channel”
from us


Telegram Machinelearning
FROM American