Экономная экономика on-premise LLM
Итак, когда я начинал работать с локальным инференсом и закрытым контуром, я как и вы искал API, которые мне покажут, как оно работает и что могут такие модели
Но я очень быстро понял, что я не могу проверить что же происходит на бэкенде у API провайдера и есть только карточка модели, в которой информация не всегда совпадает с реальностью
Такой подход для оценки потребности в клиентских решениях мне не подходил
Что я для себя понял за 2 года закупая разного рода оборудование
Да, есть Китай MTT, но очень не стабильна поддержка определённых версий фреймворков
Да, есть NVIDIA A100/H100, дорого богато
Есть игровой сегмент, надежно ли?
Учитывая мой опыт работы с железом на предыдущих местах работы, я принял решение попробовать закупить модификацию 4090(48), для предоставления новых топовых моделей от open-source, в целях повышения продуктивности сотрудников и прикладных тестов
Что я получил за 2.5 млн рублей?
qwen3-32b
qwen2.5-32b-VL-Instruct
qwen2.5-32b-coder
Важно отметить, что платформы(сами сервера) уже были приобретены ранее и сейчас идет замена RTX A4000 на 4090(48)
Данный набор моделей позволил обеспечить часть сотрудников и RND отдел постоянно доступными мощностями для экспериментов и базовых запросов
Сейчас прошел год с момента покупки первой такой карты и за это время в ней были заменены термаха и убрана пыль
Брать ли мой опыт на вооружение решать вам, я лишь транслирую наблюдения и примерную стоимость такого решения
Про скорость генерации на такой карточке можно найти по каналу
Итак, когда я начинал работать с локальным инференсом и закрытым контуром, я как и вы искал API, которые мне покажут, как оно работает и что могут такие модели
Но я очень быстро понял, что я не могу проверить что же происходит на бэкенде у API провайдера и есть только карточка модели, в которой информация не всегда совпадает с реальностью
Такой подход для оценки потребности в клиентских решениях мне не подходил
Что я для себя понял за 2 года закупая разного рода оборудование
Да, есть Китай MTT, но очень не стабильна поддержка определённых версий фреймворков
Да, есть NVIDIA A100/H100, дорого богато
Есть игровой сегмент, надежно ли?
Учитывая мой опыт работы с железом на предыдущих местах работы, я принял решение попробовать закупить модификацию 4090(48), для предоставления новых топовых моделей от open-source, в целях повышения продуктивности сотрудников и прикладных тестов
Что я получил за 2.5 млн рублей?
qwen3-32b
qwen2.5-32b-VL-Instruct
qwen2.5-32b-coder
Важно отметить, что платформы(сами сервера) уже были приобретены ранее и сейчас идет замена RTX A4000 на 4090(48)
Данный набор моделей позволил обеспечить часть сотрудников и RND отдел постоянно доступными мощностями для экспериментов и базовых запросов
Сейчас прошел год с момента покупки первой такой карты и за это время в ней были заменены термаха и убрана пыль
Брать ли мой опыт на вооружение решать вам, я лишь транслирую наблюдения и примерную стоимость такого решения
Про скорость генерации на такой карточке можно найти по каналу
4090(48)
2👍27🔥8👏5💯3
tgoop.com/neuraldeep/1631
Create:
Last Update:
Last Update:
Экономная экономика on-premise LLM
Итак, когда я начинал работать с локальным инференсом и закрытым контуром, я как и вы искал API, которые мне покажут, как оно работает и что могут такие модели
Но я очень быстро понял, что я не могу проверить что же происходит на бэкенде у API провайдера и есть только карточка модели, в которой информация не всегда совпадает с реальностью
Такой подход для оценки потребности в клиентских решениях мне не подходил
Что я для себя понял за 2 года закупая разного рода оборудование
Да, есть Китай MTT, но очень не стабильна поддержка определённых версий фреймворков
Да, есть NVIDIA A100/H100, дорого богато
Есть игровой сегмент, надежно ли?
Учитывая мой опыт работы с железом на предыдущих местах работы, я принял решение попробовать закупить модификацию 4090(48), для предоставления новых топовых моделей от open-source, в целях повышения продуктивности сотрудников и прикладных тестов
Что я получил за 2.5 млн рублей?
qwen3-32b
qwen2.5-32b-VL-Instruct
qwen2.5-32b-coder
Важно отметить, что платформы(сами сервера) уже были приобретены ранее и сейчас идет замена RTX A4000 на 4090(48)
Данный набор моделей позволил обеспечить часть сотрудников и RND отдел постоянно доступными мощностями для экспериментов и базовых запросов
Сейчас прошел год с момента покупки первой такой карты и за это время в ней были заменены термаха и убрана пыль
Брать ли мой опыт на вооружение решать вам, я лишь транслирую наблюдения и примерную стоимость такого решения
Про скорость генерации на такой карточке можно найти по каналу
Итак, когда я начинал работать с локальным инференсом и закрытым контуром, я как и вы искал API, которые мне покажут, как оно работает и что могут такие модели
Но я очень быстро понял, что я не могу проверить что же происходит на бэкенде у API провайдера и есть только карточка модели, в которой информация не всегда совпадает с реальностью
Такой подход для оценки потребности в клиентских решениях мне не подходил
Что я для себя понял за 2 года закупая разного рода оборудование
Да, есть Китай MTT, но очень не стабильна поддержка определённых версий фреймворков
Да, есть NVIDIA A100/H100, дорого богато
Есть игровой сегмент, надежно ли?
Учитывая мой опыт работы с железом на предыдущих местах работы, я принял решение попробовать закупить модификацию 4090(48), для предоставления новых топовых моделей от open-source, в целях повышения продуктивности сотрудников и прикладных тестов
Что я получил за 2.5 млн рублей?
qwen3-32b
qwen2.5-32b-VL-Instruct
qwen2.5-32b-coder
Важно отметить, что платформы(сами сервера) уже были приобретены ранее и сейчас идет замена RTX A4000 на 4090(48)
Данный набор моделей позволил обеспечить часть сотрудников и RND отдел постоянно доступными мощностями для экспериментов и базовых запросов
Сейчас прошел год с момента покупки первой такой карты и за это время в ней были заменены термаха и убрана пыль
Брать ли мой опыт на вооружение решать вам, я лишь транслирую наблюдения и примерную стоимость такого решения
Про скорость генерации на такой карточке можно найти по каналу
4090(48)
BY Neural Kovalskii





Share with your friend now:
tgoop.com/neuraldeep/1631