tgoop.com/building_singularity/111
Last Update:
H100 девешле A100
Я уже писал про тренд на уменьшение цены инференса LLM. Недавно на работе столкнулся с ещё одним примером этого.
Мы перешли на H100 для инференса, и стали
- тратить меньше $$$ на сервера
- отвечать немного быстрее (10% меньше time per output token и 50% меньше time to first token)
В нашем случае с LLM в fp8 получилось так, что H100 80gb держит в 2.5 раза больше нагрузки, чем A100 40gb.
А стоит она не в 2.5 раза дороже. Вот и экономия
То, что H100 для обучения и инференса LLM кратно выгоднее, чем карты старого поколения - ещё один драйвер цен вниз.
Большая конкуренция на передовом крае между OpenAI, Anthropic, xAI, etc будет их вынуждать покупать (точнее арендовать у Oracle, Azure, AWS, etc), самые новые карты, чтобы обучать LLM быстрее и больше. Но у них уже миллиарды вложены в слегка устаревшую инфраструктуру, которую клауд провайдеры будут готовы сдать подешевле каким нибудь стартапам.
В общем,
- если GPU стоит дороже, это не значит, что инференс вам выйдет дороже
- не стоит брать лонг терм контракты на старые карты, потому что с течением времени они будут заметно дешеветь; если у вас не бесплатные стартап кредиты конечно, которые можно только так потратить. Это кстати наш случай, поэтому частично мы ещё всё таки на A100, который на условном runpod можно сейчас снять дешевле
(перевел статью на английский, чуть добавил контекста и запостил в свой LinkedIn)
@building_singularity
