NEURALDEEP Telegram 1628
Экономная экономика on-premise LLM


Итак, когда я начинал работать с локальным инференсом и закрытым контуром, я как и вы искал API, которые мне покажут, как оно работает и что могут такие модели

Но я очень быстро понял, что я не могу проверить что же происходит на бэкенде у API провайдера и есть только карточка модели, в которой информация не всегда совпадает с реальностью

Такой подход для оценки потребности в клиентских решениях мне не подходил


Что я для себя понял за 2 года закупая разного рода оборудование

Да, есть Китай MTT, но очень не стабильна поддержка определённых версий фреймворков

Да, есть NVIDIA A100/H100, дорого богато

Есть игровой сегмент, надежно ли?

Учитывая мой опыт работы с железом на предыдущих местах работы, я принял решение попробовать закупить модификацию 4090(48), для предоставления новых топовых моделей от open-source, в целях повышения продуктивности сотрудников и прикладных тестов


Что я получил за 2.5 млн рублей?

qwen3-32b
qwen2.5-32b-VL-Instruct
qwen2.5-32b-coder

Важно отметить, что платформы(сами сервера) уже были приобретены ранее и сейчас идет замена RTX A4000 на 4090(48)

Данный набор моделей позволил обеспечить часть сотрудников и RND отдел постоянно доступными мощностями для экспериментов и базовых запросов

Сейчас прошел год с момента покупки первой такой карты и за это время в ней были заменены термаха и убрана пыль

Брать ли мой опыт на вооружение решать вам, я лишь транслирую наблюдения и примерную стоимость такого решения

Про скорость генерации на такой карточке можно найти по каналу
4090(48)
2👍27🔥8👏5💯3



tgoop.com/neuraldeep/1628
Create:
Last Update:

Экономная экономика on-premise LLM


Итак, когда я начинал работать с локальным инференсом и закрытым контуром, я как и вы искал API, которые мне покажут, как оно работает и что могут такие модели

Но я очень быстро понял, что я не могу проверить что же происходит на бэкенде у API провайдера и есть только карточка модели, в которой информация не всегда совпадает с реальностью

Такой подход для оценки потребности в клиентских решениях мне не подходил


Что я для себя понял за 2 года закупая разного рода оборудование

Да, есть Китай MTT, но очень не стабильна поддержка определённых версий фреймворков

Да, есть NVIDIA A100/H100, дорого богато

Есть игровой сегмент, надежно ли?

Учитывая мой опыт работы с железом на предыдущих местах работы, я принял решение попробовать закупить модификацию 4090(48), для предоставления новых топовых моделей от open-source, в целях повышения продуктивности сотрудников и прикладных тестов


Что я получил за 2.5 млн рублей?

qwen3-32b
qwen2.5-32b-VL-Instruct
qwen2.5-32b-coder

Важно отметить, что платформы(сами сервера) уже были приобретены ранее и сейчас идет замена RTX A4000 на 4090(48)

Данный набор моделей позволил обеспечить часть сотрудников и RND отдел постоянно доступными мощностями для экспериментов и базовых запросов

Сейчас прошел год с момента покупки первой такой карты и за это время в ней были заменены термаха и убрана пыль

Брать ли мой опыт на вооружение решать вам, я лишь транслирую наблюдения и примерную стоимость такого решения

Про скорость генерации на такой карточке можно найти по каналу
4090(48)

BY Neural Kovalskii








Share with your friend now:
tgoop.com/neuraldeep/1628

View MORE
Open in Telegram


Telegram News

Date: |

Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. A vandalised bank during the 2019 protest. File photo: May James/HKFP. The Standard Channel The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar.
from us


Telegram Neural Kovalskii
FROM American