Warning: file_put_contents(aCache/aDaily/post/bigdatai/-784-785-786-787-784-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Big Data AI@bigdatai P.787
BIGDATAI Telegram 787
Forwarded from Machinelearning
🌟Zamba2-mini: компактная ΠΈ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ модСль с Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΎΠΉ.

Zamba2-mini - гибридная модСль c 1.2B ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², построСнная ΠΈΠ· Π±Π»ΠΎΠΊΠΎΠ² state-space Mamba (SSM) ΠΈ transformer.

МодСль создана Π½Π° ΠΎΠ±Ρ‰Π΅ΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Zamba, Π½ΠΎ отличаСтся ΠΎΡ‚ большСй ΠΌΠΎΠ΄Π΅Π»ΠΈ 2.7B трСмя особСнностями:

πŸŸ’Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ rotary position embeddings;

πŸŸ’Ρ‡Π΅Ρ€Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ΡΡ трансформСрныС Π±Π»ΠΎΠΊΠΈ Π·Π°ΠΌΠ΅Π½Π΅Π½Ρ‹ ΠΎΠ΄Π½ΠΈΠΌ ΠΎΠ±Ρ‰ΠΈΠΌ;

πŸŸ’Π²ΠΌΠ΅ΡΡ‚ΠΎ LoRA Π½Π° Π±Π»ΠΎΠΊΠ΅ MLP Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΎΡ€Ρ‹ LoRA Π² Π±Π»ΠΎΠΊΠΈ внимания.

Zamba2-mini ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ Mistral v0.1 ΠΈ Π±Ρ‹Π»Π° ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±ΡƒΡ‡Π΅Π½Π° Π½Π° 3 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½Π°Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² тСкстовых Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΊΠΎΠ΄Π΅ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… языков программирования, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… ΠΈΠ· ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… Π²Π΅Π±-Π½Π°Π±ΠΎΡ€ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π±Ρ‹Π» Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ собствСнный ΠΊΠΎΡ€ΠΏΡƒ Π΄Π°Π½Π½Ρ‹Ρ… Zyda.

ВпослСдствии, Π½Π° Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС Zamba2-mini Π±Ρ‹Π»Π° ΠΏΠΎΠ΄Π²Π΅Ρ€Π³Π½ΡƒΡ‚Π° Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ„Π°Π·Π΅ агрСссивного сниТСния скорости обучСния Π½Π° смСси ΠΈΠ· 100B высококачСствСнных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ².

Zamba2-mini ΠΏΠΎΠΊΠ°Π·Π°Π»Π° Π² тСстах Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹, сопоставимыС с модСлями с ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ <2B ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΊΠΎΠ½ΠΊΡƒΡ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ LLM большСго Ρ€Π°Π·ΠΌΠ΅Ρ€Π°.

Благодаря ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠΉ Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ SSM Zamba2-mini дСмонстрируСт Π½ΠΈΠ·ΠΊΠΈΠ΅ Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠΈ логичСского Π²Ρ‹Π²ΠΎΠ΄Π° ΠΈ Π±Ρ‹ΡΡ‚Ρ€ΡƒΡŽ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ ΠΏΡ€ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ мСньшСм ΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠΈ VRAM, Ρ‡Π΅ΠΌ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‚Π°ΠΊΠΎΠΉ ΠΆΠ΅ плотности ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π½Π° основС трансформСров.
Π’Π°ΠΊΠΈΠ΅ характСристики Π΄Π΅Π»Π°Π΅Ρ‚ Π΅Π΅ идСальной ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½ΠΎΠΉ модСлью для ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ Π½Π° устройствах.

⚠️ ΠŸΡ€ΠΈΠΌΠ΅Ρ‡Π°Π½ΠΈΠ΅: Zamba2-mini Π΅Ρ‰Π΅ Π½Π΅ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ совмСстима со всСми Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ°ΠΌΠΈ ΠΈ инструмСнтами HuggingFace.

Π Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Zamba2-1.2B для Pytorch ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ здСсь.

β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ инфСрСнс:

# Clone repositiry
git clone https://github.com/Zyphra/transformers_zamba2.git

#Install requirments:
cd transformers_zamba2
pip install -e .
pip install accelerate

#Inference
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-1.2B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-1.2B", device_map="cuda", torch_dtype=torch.bfloat16)

input_text = "A funny prompt would be "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))


▢️Для запускС Π½Π° CPU - only, ΡƒΠΊΠ°ΠΆΠΈΡ‚Π΅ use_mamba_kernels=False ΠΏΡ€ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ AutoModelForCausalLM.from_pretrained.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ : Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
🟑Arxiv
🟑МодСль


@ai_machinelearning_big_data

#AI #SLM #Mamba #ML #Zamba2mini
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘5❀1πŸ”₯1



tgoop.com/bigdatai/787
Create:
Last Update:

🌟Zamba2-mini: компактная ΠΈ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ модСль с Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΎΠΉ.

Zamba2-mini - гибридная модСль c 1.2B ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², построСнная ΠΈΠ· Π±Π»ΠΎΠΊΠΎΠ² state-space Mamba (SSM) ΠΈ transformer.

МодСль создана Π½Π° ΠΎΠ±Ρ‰Π΅ΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Zamba, Π½ΠΎ отличаСтся ΠΎΡ‚ большСй ΠΌΠΎΠ΄Π΅Π»ΠΈ 2.7B трСмя особСнностями:

πŸŸ’Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ rotary position embeddings;

πŸŸ’Ρ‡Π΅Ρ€Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ΡΡ трансформСрныС Π±Π»ΠΎΠΊΠΈ Π·Π°ΠΌΠ΅Π½Π΅Π½Ρ‹ ΠΎΠ΄Π½ΠΈΠΌ ΠΎΠ±Ρ‰ΠΈΠΌ;

πŸŸ’Π²ΠΌΠ΅ΡΡ‚ΠΎ LoRA Π½Π° Π±Π»ΠΎΠΊΠ΅ MLP Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΎΡ€Ρ‹ LoRA Π² Π±Π»ΠΎΠΊΠΈ внимания.

Zamba2-mini ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ Mistral v0.1 ΠΈ Π±Ρ‹Π»Π° ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±ΡƒΡ‡Π΅Π½Π° Π½Π° 3 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½Π°Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² тСкстовых Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΊΠΎΠ΄Π΅ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… языков программирования, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… ΠΈΠ· ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… Π²Π΅Π±-Π½Π°Π±ΠΎΡ€ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π±Ρ‹Π» Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ собствСнный ΠΊΠΎΡ€ΠΏΡƒ Π΄Π°Π½Π½Ρ‹Ρ… Zyda.

ВпослСдствии, Π½Π° Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС Zamba2-mini Π±Ρ‹Π»Π° ΠΏΠΎΠ΄Π²Π΅Ρ€Π³Π½ΡƒΡ‚Π° Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ„Π°Π·Π΅ агрСссивного сниТСния скорости обучСния Π½Π° смСси ΠΈΠ· 100B высококачСствСнных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ².

Zamba2-mini ΠΏΠΎΠΊΠ°Π·Π°Π»Π° Π² тСстах Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹, сопоставимыС с модСлями с ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ <2B ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΊΠΎΠ½ΠΊΡƒΡ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ LLM большСго Ρ€Π°Π·ΠΌΠ΅Ρ€Π°.

Благодаря ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠΉ Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ SSM Zamba2-mini дСмонстрируСт Π½ΠΈΠ·ΠΊΠΈΠ΅ Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠΈ логичСского Π²Ρ‹Π²ΠΎΠ΄Π° ΠΈ Π±Ρ‹ΡΡ‚Ρ€ΡƒΡŽ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ ΠΏΡ€ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ мСньшСм ΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠΈ VRAM, Ρ‡Π΅ΠΌ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‚Π°ΠΊΠΎΠΉ ΠΆΠ΅ плотности ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π½Π° основС трансформСров.
Π’Π°ΠΊΠΈΠ΅ характСристики Π΄Π΅Π»Π°Π΅Ρ‚ Π΅Π΅ идСальной ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½ΠΎΠΉ модСлью для ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ Π½Π° устройствах.

⚠️ ΠŸΡ€ΠΈΠΌΠ΅Ρ‡Π°Π½ΠΈΠ΅: Zamba2-mini Π΅Ρ‰Π΅ Π½Π΅ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ совмСстима со всСми Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ°ΠΌΠΈ ΠΈ инструмСнтами HuggingFace.

Π Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Zamba2-1.2B для Pytorch ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ здСсь.

β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ инфСрСнс:

# Clone repositiry
git clone https://github.com/Zyphra/transformers_zamba2.git

#Install requirments:
cd transformers_zamba2
pip install -e .
pip install accelerate

#Inference
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-1.2B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-1.2B", device_map="cuda", torch_dtype=torch.bfloat16)

input_text = "A funny prompt would be "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))


▢️Для запускС Π½Π° CPU - only, ΡƒΠΊΠ°ΠΆΠΈΡ‚Π΅ use_mamba_kernels=False ΠΏΡ€ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ AutoModelForCausalLM.from_pretrained.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ : Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
🟑Arxiv
🟑МодСль


@ai_machinelearning_big_data

#AI #SLM #Mamba #ML #Zamba2mini

BY Big Data AI







Share with your friend now:
tgoop.com/bigdatai/787

View MORE
Open in Telegram


Telegram News

Date: |

How to build a private or public channel on Telegram? During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to β€œvoice” their feelings. According to media reports, the privacy watchdog was considering β€œblacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. best-secure-messaging-apps-shutterstock-1892950018.jpg
from us


Telegram Big Data AI
FROM American