BUILDING_SINGULARITY Telegram 111
H100 девешле A100

Я уже писал про тренд на уменьшение цены инференса LLM. Недавно на работе столкнулся с ещё одним примером этого.

Мы перешли на H100 для инференса, и стали
- тратить меньше $$$ на сервера
- отвечать немного быстрее (10% меньше time per output token и 50% меньше time to first token)

В нашем случае с LLM в fp8 получилось так, что H100 80gb держит в 2.5 раза больше нагрузки, чем A100 40gb.

А стоит она не в 2.5 раза дороже. Вот и экономия 💸

То, что H100 для обучения и инференса LLM кратно выгоднее, чем карты старого поколения - ещё один драйвер цен вниз.

Большая конкуренция на передовом крае между OpenAI, Anthropic, xAI, etc будет их вынуждать покупать (точнее арендовать у Oracle, Azure, AWS, etc), самые новые карты, чтобы обучать LLM быстрее и больше. Но у них уже миллиарды вложены в слегка устаревшую инфраструктуру, которую клауд провайдеры будут готовы сдать подешевле каким нибудь стартапам.

В общем,
- если GPU стоит дороже, это не значит, что инференс вам выйдет дороже
- не стоит брать лонг терм контракты на старые карты, потому что с течением времени они будут заметно дешеветь; если у вас не бесплатные стартап кредиты конечно, которые можно только так потратить. Это кстати наш случай, поэтому частично мы ещё всё таки на A100, который на условном runpod можно сейчас снять дешевле

(перевел статью на английский, чуть добавил контекста и запостил в свой LinkedIn)

@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍96



tgoop.com/building_singularity/111
Create:
Last Update:

H100 девешле A100

Я уже писал про тренд на уменьшение цены инференса LLM. Недавно на работе столкнулся с ещё одним примером этого.

Мы перешли на H100 для инференса, и стали
- тратить меньше $$$ на сервера
- отвечать немного быстрее (10% меньше time per output token и 50% меньше time to first token)

В нашем случае с LLM в fp8 получилось так, что H100 80gb держит в 2.5 раза больше нагрузки, чем A100 40gb.

А стоит она не в 2.5 раза дороже. Вот и экономия 💸

То, что H100 для обучения и инференса LLM кратно выгоднее, чем карты старого поколения - ещё один драйвер цен вниз.

Большая конкуренция на передовом крае между OpenAI, Anthropic, xAI, etc будет их вынуждать покупать (точнее арендовать у Oracle, Azure, AWS, etc), самые новые карты, чтобы обучать LLM быстрее и больше. Но у них уже миллиарды вложены в слегка устаревшую инфраструктуру, которую клауд провайдеры будут готовы сдать подешевле каким нибудь стартапам.

В общем,
- если GPU стоит дороже, это не значит, что инференс вам выйдет дороже
- не стоит брать лонг терм контракты на старые карты, потому что с течением времени они будут заметно дешеветь; если у вас не бесплатные стартап кредиты конечно, которые можно только так потратить. Это кстати наш случай, поэтому частично мы ещё всё таки на A100, который на условном runpod можно сейчас снять дешевле

(перевел статью на английский, чуть добавил контекста и запостил в свой LinkedIn)

@building_singularity

BY Приближаем сингулярность


Share with your friend now:
tgoop.com/building_singularity/111

View MORE
Open in Telegram


Telegram News

Date: |

Telegram users themselves will be able to flag and report potentially false content. Clear The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. best-secure-messaging-apps-shutterstock-1892950018.jpg
from us


Telegram Приближаем сингулярность
FROM American