Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/neuraldeep/-984-985-986-): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Neural Deep@neuraldeep P.984
NEURALDEEP Telegram 984
Провел тесты новой LLaMA на нашем железе, а именно на сервере с 4090 в одиночном и х2 виде.


Сейчас выложу, что в итоге я получил на 24GB VRAM на одной 4090:



Имеем огромный бессмысленный текст на 27k токенов (так считает токенайзер OpenAI).

Имеем нашу RAG платформу. Включен классический поиск, в настройках контекста стоит промпт на 200 токенов + отдача топ 3 чанков (гибридный поиск отключен). История отключена.


Далее кидаем это все в наш чат и получаем, что модель это "прожевала". Получаем утилизацию на 23GB, сверху от загрузки есть небольшой запас, но я по напутсвию из документов по vllm указал "--max-model-len", "18700".


Понимаю, что токенайзеры LLaMA и OpenAI считают по-разному, но если ориентироваться на их подсчеты, то теперь в наш RAG со всеми настройками помещается примерно 67+ тысяч символов, что составляет примерно 30 страниц документов.


Я знал, что не стоит упираться в обучение и поиск кастомных тюнов для увеличения контекста.


Далее сегодня проведу тесты на двух 4090 и расскажу, сколько контекста туда помещается, так как LLaMA 3.1 теперь поддерживает 128k контекста!

P.S пытался найти готовые калькуляторы но лучше уж проверить на практики! И на своем железе
🔥81



tgoop.com/neuraldeep/984
Create:
Last Update:

Провел тесты новой LLaMA на нашем железе, а именно на сервере с 4090 в одиночном и х2 виде.


Сейчас выложу, что в итоге я получил на 24GB VRAM на одной 4090:



Имеем огромный бессмысленный текст на 27k токенов (так считает токенайзер OpenAI).

Имеем нашу RAG платформу. Включен классический поиск, в настройках контекста стоит промпт на 200 токенов + отдача топ 3 чанков (гибридный поиск отключен). История отключена.


Далее кидаем это все в наш чат и получаем, что модель это "прожевала". Получаем утилизацию на 23GB, сверху от загрузки есть небольшой запас, но я по напутсвию из документов по vllm указал "--max-model-len", "18700".


Понимаю, что токенайзеры LLaMA и OpenAI считают по-разному, но если ориентироваться на их подсчеты, то теперь в наш RAG со всеми настройками помещается примерно 67+ тысяч символов, что составляет примерно 30 страниц документов.


Я знал, что не стоит упираться в обучение и поиск кастомных тюнов для увеличения контекста.


Далее сегодня проведу тесты на двух 4090 и расскажу, сколько контекста туда помещается, так как LLaMA 3.1 теперь поддерживает 128k контекста!

P.S пытался найти готовые калькуляторы но лучше уж проверить на практики! И на своем железе

BY Neural Deep






Share with your friend now:
tgoop.com/neuraldeep/984

View MORE
Open in Telegram


Telegram News

Date: |

‘Ban’ on Telegram Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar.
from us


Telegram Neural Deep
FROM American