AI_VOLUTION Telegram 1242
Как сэкономить до 4 раз на длинных промптах в OpenAI API

Если вы (ваш стартап/продукт/сервис) часто отправляете в OpenAI один и тот же системный промпт — вы можете значительно сэкономить за счёт кеширования Prompt Caching (мне кажется мало кто об этом знает и использует эту экономию по максимуму).

Что это такое
OpenAI автоматически кеширует начало промпта (префикс), если оно уже обрабатывалось недавно. Это позволяет не пересчитывать его заново при каждом запросе.

Результат:
– задержка может снизиться до -80%,
– стоимость токенов для префикса — до -50%.

Когда работает кеш
– Срабатывает, если промпт длиннее 1024 токенов
– Проверяется, не был ли этот префикс использован недавно
– Время жизни кеша — 5–10 минут, иногда до часа (если не было запросов, кеш очищается).

Подходит для случаев, когда много запросов отправляются с одинаковым началом.

Что считается совпадением
Промпт должен совпадать с точностью до символа: пробелы, порядок строк и даже кавычки имеют значение. Кеш работает блоками: 1024, 1152, 1280 токенов и далее с шагом 128 токенов (в зависимости от длины вашего входного промпта).

Что кешируется
– System-промпт
– Инструкции, примеры, структура вывода
– Список инструментов
– Изображения (когда они передаются как base64 и если одинаковые каждый раз)
Важно: Все эти элементы должны быть в начале промпта.

Как понять, что кеш сработал
Смотрите поле cached_tokens в ответе API. Если значение больше нуля — часть промпта взята из кеша.

Нужно ли что-то включать
Нет. Кеш работает автоматически, без настроек и доплат. Он встроен во все модели начиная с gpt-4o.

Рекомендации
– Фиксируйте начало промпта (префикс должен оставаться статичным)
– Избегайте мелких правок и случайных изменений
– Динамический контент — в конец

Если вы работаете с длинными и повторяющимися промптами — кеш поможет значительно сократить расходы и ускорить работу. Подробнее о кешировании в OpenAI API читать тут.

ИИволюция



tgoop.com/ai_volution/1242
Create:
Last Update:

Как сэкономить до 4 раз на длинных промптах в OpenAI API

Если вы (ваш стартап/продукт/сервис) часто отправляете в OpenAI один и тот же системный промпт — вы можете значительно сэкономить за счёт кеширования Prompt Caching (мне кажется мало кто об этом знает и использует эту экономию по максимуму).

Что это такое
OpenAI автоматически кеширует начало промпта (префикс), если оно уже обрабатывалось недавно. Это позволяет не пересчитывать его заново при каждом запросе.

Результат:
– задержка может снизиться до -80%,
– стоимость токенов для префикса — до -50%.

Когда работает кеш
– Срабатывает, если промпт длиннее 1024 токенов
– Проверяется, не был ли этот префикс использован недавно
– Время жизни кеша — 5–10 минут, иногда до часа (если не было запросов, кеш очищается).

Подходит для случаев, когда много запросов отправляются с одинаковым началом.

Что считается совпадением
Промпт должен совпадать с точностью до символа: пробелы, порядок строк и даже кавычки имеют значение. Кеш работает блоками: 1024, 1152, 1280 токенов и далее с шагом 128 токенов (в зависимости от длины вашего входного промпта).

Что кешируется
– System-промпт
– Инструкции, примеры, структура вывода
– Список инструментов
– Изображения (когда они передаются как base64 и если одинаковые каждый раз)
Важно: Все эти элементы должны быть в начале промпта.

Как понять, что кеш сработал
Смотрите поле cached_tokens в ответе API. Если значение больше нуля — часть промпта взята из кеша.

Нужно ли что-то включать
Нет. Кеш работает автоматически, без настроек и доплат. Он встроен во все модели начиная с gpt-4o.

Рекомендации
– Фиксируйте начало промпта (префикс должен оставаться статичным)
– Избегайте мелких правок и случайных изменений
– Динамический контент — в конец

Если вы работаете с длинными и повторяющимися промптами — кеш поможет значительно сократить расходы и ускорить работу. Подробнее о кешировании в OpenAI API читать тут.

ИИволюция

BY ИИволюция 👾


Share with your friend now:
tgoop.com/ai_volution/1242

View MORE
Open in Telegram


Telegram News

Date: |

Healing through screaming therapy Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. fire bomb molotov November 18 Dylan Hollingsworth yau ma tei Hashtags
from us


Telegram ИИволюция 👾
FROM American