AI_MACHINELEARNING_BIG_DATA Telegram 6831
🌟 InfiniteHiP: Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΈΠ΅ контСкста LLM Π΄ΠΎ 3 ΠΌΠ»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP - опСнсорсный инструмСнт, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ сСрвисом deepauto.ai, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ позволяСт Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π°ΡΡˆΠΈΡ€ΠΈΡ‚ΡŒ контСкст LLM, обрабатывая Π΄ΠΎ 3 ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΌΠΎΠ΄ΡƒΠ»ΡŒΠ½Ρ‹ΠΉ иСрархичСский Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΏΡ€ΡƒΠ½ΠΈΠ½Π³Π° Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², динамичСски отсСивая Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ элСмСнты контСкста. Π­Ρ‚ΠΎ позволяСт ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ ΠΈ ΠΎΠ±ΠΎΠΉΡ‚ΠΈ ограничСния GPU ΠΏΠΎ памяти, пСрСнося KV-кэш Π² ΠΏΠ°ΠΌΡΡ‚ΡŒ хоста.

ΠŸΡ€ΡƒΠ½ΠΈΠ½Π³-ΠΌΠΎΠ΄ΡƒΠ»ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΈΠ·Π±ΠΈΡ€Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ ΠΌΠ΅Π½Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹Π΅ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹, ΠΎΠΏΠΈΡ€Π°ΡΡΡŒ Π½Π° Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½ΠΎΡΡ‚ΡŒ шаблонов ΠΈ ΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ Π»ΠΎΠΊΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Π² ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π°Ρ… внимания LLM.

Алгоритм Π΄Π΅Π»ΠΈΡ‚ Π²Ρ…ΠΎΠ΄Π½ΡƒΡŽ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π½Π° Ρ‡Π°Π½ΠΊΠΈ фиксированной Π΄Π»ΠΈΠ½Ρ‹ ΠΈ опрСдСляСт аппроксимированный top-1 Ρ‚ΠΎΠΊΠ΅Π½ с Π½Π°ΠΈΠ²Ρ‹ΡΡˆΠΈΠΌ attention score Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Ρ‡Π°Π½ΠΊΠ΅. Π—Π°Ρ‚Π΅ΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ top-K Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹Ρ… Ρ‡Π°Π½ΠΊΠΎΠ² ΠΏΠ΅Ρ€Π΅Π΄Π°ΡŽΡ‚ΡΡ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ, Π° ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ΡΡ.

Максимально эффСктивная рСализация InfiniteHiP Π½Π° SGLang Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ΅ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 7.24-ΠΊΡ€Π°Ρ‚Π½ΠΎΠ΅ ускорСниС Π² end-to-end Π΄Π΅ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π½Π° контСкстС Π² 3 ΠΌΠ»Π½. ΠΏΡ€ΠΈ использовании всСго 3.34% VRAM, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΠΉ для Flash Attention 2.

InfiniteHiP прСвосходит ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… QA ΠΏΠΎ ΠΎΠ±ΡŠΠ΅ΠΌΠ½Ρ‹ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌ, ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΠΈ ΠΈ Π² ΠΌΡƒΠ»ΡŒΡ‚ΠΈ-ΡˆΠΎΡ‚ Ρ€ΠΈΠ·ΠΎΠ½ΠΈΠ½Π³Π΅. HiP дСмонстрируСт ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹Π΅ OOL (out-of-likelihood) способности, сохраняя ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠΈ Π΄Π»ΠΈΠ½Ρ‹ контСкста, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π½Π° Ρ‚Π°ΠΊΠΈΡ… Π·Π°Π΄Π°Ρ‡Π°Ρ… ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ Π΄Π΅Π³Ρ€Π°Π΄ΠΈΡ€ΡƒΡŽΡ‚.

InfiniteHiP ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ с Π»ΡŽΠ±Ρ‹ΠΌΠΈ модСлями Π½Π° Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Transformers.

▢️ Π›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ использованиС:

git clone [email protected]:DeepAuto-AI/hip-attention.git
cd hip-attention

conda create --name hip python=3.11
conda activate hip

pip install -e "."
# Optional for development
pip install -e ".[dev]"

# Optional, depends on your CUDA environment
export CUDACXX=/usr/local/cuda/bin/nvcc
# Dependencies that requires --no-build-isolation
pip install -e ".[no_build_iso]" \
--no-build-isolation \
--verbose
# SGLang with OpenAI API support for serving
pip install -e ".[sglang]" \
--no-build-isolation \
--verbose \
--find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

# Access the `hip` package from any project
import torch
from hip import hip_attention_12, HiPAttentionArgs12

device = 'cuda'

batch_size = 1
kv_len = 128 * 1024
q_len = 32 * 1024
num_heads = 32
num_kv_heads = 8
head_dims = 128
dtype = torch.bfloat16

q = torch.randn(
(batch_size, q_len, num_heads, head_dims),
dtype=dtype,
device=device
)
k = torch.randn(
(batch_size, kv_len, num_kv_heads, head_dims),
dtype=dtype,
device=device,
)
v = k.clone()

output, metadata = hip_attention_12(q=q, k=k, v=v, args=HiPAttentionArgs12())
print(output.shape)

# > torch.Size([1, 32768, 32, 128])


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: FSL-1.1-MIT


🟑Arxiv
🟑Demo
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #InfiniteHiP #Framework
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ”₯44πŸ‘23❀7πŸ€”3🀝1



tgoop.com/ai_machinelearning_big_data/6831
Create:
Last Update:

🌟 InfiniteHiP: Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΈΠ΅ контСкста LLM Π΄ΠΎ 3 ΠΌΠ»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP - опСнсорсный инструмСнт, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ сСрвисом deepauto.ai, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ позволяСт Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π°ΡΡˆΠΈΡ€ΠΈΡ‚ΡŒ контСкст LLM, обрабатывая Π΄ΠΎ 3 ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU.

InfiniteHiP ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΌΠΎΠ΄ΡƒΠ»ΡŒΠ½Ρ‹ΠΉ иСрархичСский Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΏΡ€ΡƒΠ½ΠΈΠ½Π³Π° Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², динамичСски отсСивая Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ элСмСнты контСкста. Π­Ρ‚ΠΎ позволяСт ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ ΠΈ ΠΎΠ±ΠΎΠΉΡ‚ΠΈ ограничСния GPU ΠΏΠΎ памяти, пСрСнося KV-кэш Π² ΠΏΠ°ΠΌΡΡ‚ΡŒ хоста.

ΠŸΡ€ΡƒΠ½ΠΈΠ½Π³-ΠΌΠΎΠ΄ΡƒΠ»ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΈΠ·Π±ΠΈΡ€Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ ΠΌΠ΅Π½Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹Π΅ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹, ΠΎΠΏΠΈΡ€Π°ΡΡΡŒ Π½Π° Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½ΠΎΡΡ‚ΡŒ шаблонов ΠΈ ΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ Π»ΠΎΠΊΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Π² ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π°Ρ… внимания LLM.

Алгоритм Π΄Π΅Π»ΠΈΡ‚ Π²Ρ…ΠΎΠ΄Π½ΡƒΡŽ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π½Π° Ρ‡Π°Π½ΠΊΠΈ фиксированной Π΄Π»ΠΈΠ½Ρ‹ ΠΈ опрСдСляСт аппроксимированный top-1 Ρ‚ΠΎΠΊΠ΅Π½ с Π½Π°ΠΈΠ²Ρ‹ΡΡˆΠΈΠΌ attention score Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Ρ‡Π°Π½ΠΊΠ΅. Π—Π°Ρ‚Π΅ΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ top-K Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹Ρ… Ρ‡Π°Π½ΠΊΠΎΠ² ΠΏΠ΅Ρ€Π΅Π΄Π°ΡŽΡ‚ΡΡ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ, Π° ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚ΡΡ.

Максимально эффСктивная рСализация InfiniteHiP Π½Π° SGLang Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ΅ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 7.24-ΠΊΡ€Π°Ρ‚Π½ΠΎΠ΅ ускорСниС Π² end-to-end Π΄Π΅ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π½Π° контСкстС Π² 3 ΠΌΠ»Π½. ΠΏΡ€ΠΈ использовании всСго 3.34% VRAM, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΠΉ для Flash Attention 2.

InfiniteHiP прСвосходит ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… QA ΠΏΠΎ ΠΎΠ±ΡŠΠ΅ΠΌΠ½Ρ‹ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌ, ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΠΈ ΠΈ Π² ΠΌΡƒΠ»ΡŒΡ‚ΠΈ-ΡˆΠΎΡ‚ Ρ€ΠΈΠ·ΠΎΠ½ΠΈΠ½Π³Π΅. HiP дСмонстрируСт ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹Π΅ OOL (out-of-likelihood) способности, сохраняя ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠΈ Π΄Π»ΠΈΠ½Ρ‹ контСкста, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π½Π° Ρ‚Π°ΠΊΠΈΡ… Π·Π°Π΄Π°Ρ‡Π°Ρ… ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ Π΄Π΅Π³Ρ€Π°Π΄ΠΈΡ€ΡƒΡŽΡ‚.

InfiniteHiP ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ с Π»ΡŽΠ±Ρ‹ΠΌΠΈ модСлями Π½Π° Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Transformers.

▢️ Π›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ использованиС:

git clone [email protected]:DeepAuto-AI/hip-attention.git
cd hip-attention

conda create --name hip python=3.11
conda activate hip

pip install -e "."
# Optional for development
pip install -e ".[dev]"

# Optional, depends on your CUDA environment
export CUDACXX=/usr/local/cuda/bin/nvcc
# Dependencies that requires --no-build-isolation
pip install -e ".[no_build_iso]" \
--no-build-isolation \
--verbose
# SGLang with OpenAI API support for serving
pip install -e ".[sglang]" \
--no-build-isolation \
--verbose \
--find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

# Access the `hip` package from any project
import torch
from hip import hip_attention_12, HiPAttentionArgs12

device = 'cuda'

batch_size = 1
kv_len = 128 * 1024
q_len = 32 * 1024
num_heads = 32
num_kv_heads = 8
head_dims = 128
dtype = torch.bfloat16

q = torch.randn(
(batch_size, q_len, num_heads, head_dims),
dtype=dtype,
device=device
)
k = torch.randn(
(batch_size, kv_len, num_kv_heads, head_dims),
dtype=dtype,
device=device,
)
v = k.clone()

output, metadata = hip_attention_12(q=q, k=k, v=v, args=HiPAttentionArgs12())
print(output.shape)

# > torch.Size([1, 32768, 32, 128])


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: FSL-1.1-MIT


🟑Arxiv
🟑Demo
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #InfiniteHiP #Framework

BY Machinelearning





Share with your friend now:
tgoop.com/ai_machinelearning_big_data/6831

View MORE
Open in Telegram


Telegram News

Date: |

According to media reports, the privacy watchdog was considering β€œblacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select β€œNew Channel” from the drop-down menu. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that β€œscream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Click β€œSave” ; Telegram iOS app: In the β€œChats” tab, click the new message icon in the right upper corner. Select β€œNew Channel.”
from us


Telegram Machinelearning
FROM American