tgoop.com/ai_volution/1242
Last Update:
Как сэкономить до 4 раз на длинных промптах в OpenAI API
Если вы (ваш стартап/продукт/сервис) часто отправляете в OpenAI один и тот же системный промпт — вы можете значительно сэкономить за счёт кеширования Prompt Caching (мне кажется мало кто об этом знает и использует эту экономию по максимуму).
Что это такое
OpenAI автоматически кеширует начало промпта (префикс), если оно уже обрабатывалось недавно. Это позволяет не пересчитывать его заново при каждом запросе.
Результат:
– задержка может снизиться до -80%,
– стоимость токенов для префикса — до -50%.
Когда работает кеш
– Срабатывает, если промпт длиннее 1024 токенов
– Проверяется, не был ли этот префикс использован недавно
– Время жизни кеша — 5–10 минут, иногда до часа (если не было запросов, кеш очищается).
Подходит для случаев, когда много запросов отправляются с одинаковым началом.
Что считается совпадением
Промпт должен совпадать с точностью до символа: пробелы, порядок строк и даже кавычки имеют значение. Кеш работает блоками: 1024, 1152, 1280 токенов и далее с шагом 128 токенов (в зависимости от длины вашего входного промпта).
Что кешируется
– System-промпт
– Инструкции, примеры, структура вывода
– Список инструментов
– Изображения (когда они передаются как base64 и если одинаковые каждый раз)
Важно: Все эти элементы должны быть в начале промпта.
Как понять, что кеш сработал
Смотрите поле cached_tokens в ответе API. Если значение больше нуля — часть промпта взята из кеша.
Нужно ли что-то включать
Нет. Кеш работает автоматически, без настроек и доплат. Он встроен во все модели начиная с gpt-4o.
Рекомендации
– Фиксируйте начало промпта (префикс должен оставаться статичным)
– Избегайте мелких правок и случайных изменений
– Динамический контент — в конец
Если вы работаете с длинными и повторяющимися промптами — кеш поможет значительно сократить расходы и ускорить работу. Подробнее о кешировании в OpenAI API читать тут.
ИИволюция
BY ИИволюция 👾
Share with your friend now:
tgoop.com/ai_volution/1242