O cache de prompts otimiza o uso da sua API permitindo retomar a partir de prefixos específicos em seus prompts. Isso reduz significativamente o tempo de processamento e os custos para tarefas repetitivas ou prompts com elementos consistentes.
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
Existem duas maneiras de ativar o cache de prompts:
cache_control no nível superior da sua solicitação. O sistema aplica automaticamente o ponto de interrupção do cache ao último bloco armazenável em cache e o move para frente conforme as conversas crescem. Melhor para conversas multi-turno onde o histórico de mensagens crescente deve ser armazenado em cache automaticamente.cache_control diretamente em blocos de conteúdo individuais para controle fino sobre exatamente o que é armazenado em cache.A maneira mais simples de começar é com o cache automático:
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=1024,
cache_control={"type": "ephemeral"},
system="You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.",
messages=[
{
"role": "user",
"content": "Analyze the major themes in 'Pride and Prejudice'.",
}
],
)
print(response.usage.model_dump_json())Com o cache automático, o sistema armazena em cache todo o conteúdo até e incluindo o último bloco armazenável em cache. Em solicitações subsequentes com o mesmo prefixo, o conteúdo em cache é reutilizado automaticamente.
Quando você envia uma solicitação com o cache de prompts ativado:
Isso é especialmente útil para:
Por padrão, o cache tem uma vida útil de 5 minutos. O cache é atualizado sem custo adicional cada vez que o conteúdo em cache é usado.
Se você achar que 5 minutos é muito curto, Anthropic também oferece uma duração de cache de 1 hora com custo adicional.
Para mais informações, consulte duração de cache de 1 hora.
O cache de prompts armazena em cache o prefixo completo
O cache de prompts referencia o prompt inteiro - tools, system e messages (nessa ordem) até e incluindo o bloco designado com cache_control.
O cache de prompts introduz uma nova estrutura de preços. A tabela abaixo mostra o preço por milhão de tokens para cada modelo suportado:
| Model | Base Input Tokens | 5m Cache Writes | 1h Cache Writes | Cache Hits & Refreshes | Output Tokens |
|---|---|---|---|---|---|
| Claude Opus 4.7 | $5 / MTok | $6.25 / MTok | $10 / MTok | $0.50 / MTok | $25 / MTok |
| Claude Opus 4.6 | $5 / MTok | $6.25 / MTok | $10 / MTok | $0.50 / MTok | $25 / MTok |
| Claude Opus 4.5 | $5 / MTok | $6.25 / MTok | $10 / MTok | $0.50 / MTok | $25 / MTok |
| Claude Opus 4.1 | $15 / MTok | $18.75 / MTok | $30 / MTok | $1.50 / MTok | $75 / MTok |
| Claude Opus 4 (deprecated) | $15 / MTok | $18.75 / MTok | $30 / MTok | $1.50 / MTok | $75 / MTok |
| Claude Sonnet 4.6 | $3 / MTok | $3.75 / MTok | $6 / MTok | $0.30 / MTok | $15 / MTok |
| Claude Sonnet 4.5 | $3 / MTok | $3.75 / MTok | $6 / MTok | $0.30 / MTok | $15 / MTok |
| Claude Sonnet 4 (deprecated) | $3 / MTok | $3.75 / MTok | $6 / MTok | $0.30 / MTok | $15 / MTok |
| Claude Haiku 4.5 | $1 / MTok | $1.25 / MTok | $2 / MTok | $0.10 / MTok | $5 / MTok |
| Claude Haiku 3.5 (retired, except on Bedrock and Vertex AI) | $0.80 / MTok | $1 / MTok | $1.60 / MTok | $0.08 / MTok | $4 / MTok |
A tabela acima reflete os seguintes multiplicadores de preço para cache de prompts:
Esses multiplicadores se acumulam com outros modificadores de preço, como o desconto da API em lote e residência de dados. Consulte preços para detalhes completos.
O cache de prompts (automático e explícito) é suportado em todos os modelos Claude ativos.
O cache automático é a maneira mais simples de ativar o cache de prompts. Em vez de colocar cache_control em blocos de conteúdo individuais, adicione um único campo cache_control no nível superior do corpo da sua solicitação. O sistema aplica automaticamente o ponto de interrupção do cache ao último bloco armazenável em cache.
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=1024,
cache_control={"type": "ephemeral"},
system="You are a helpful assistant that remembers our conversation.",
messages=[
{"role": "user", "content": "My name is Alex. I work on machine learning."},
{
"role": "assistant",
"content": "Nice to meet you, Alex! How can I help with your ML work today?",
},
{"role": "user", "content": "What did I say I work on?"},
],
)
print(response.usage.model_dump_json())Com o cache automático, o ponto de cache se move para frente automaticamente conforme as conversas crescem. Cada nova solicitação armazena em cache tudo até o último bloco armazenável em cache, e o conteúdo anterior é lido do cache.
| Solicitação | Conteúdo | Comportamento do cache |
|---|---|---|
| Solicitação 1 | Sistema + Usuário(1) + Asst(1) + Usuário(2) ◀ cache | Tudo escrito no cache |
| Solicitação 2 | Sistema + Usuário(1) + Asst(1) + Usuário(2) + Asst(2) + Usuário(3) ◀ cache | Sistema até Usuário(2) lido do cache; Asst(2) + Usuário(3) escrito no cache |
| Solicitação 3 | Sistema + Usuário(1) + Asst(1) + Usuário(2) + Asst(2) + Usuário(3) + Asst(3) + Usuário(4) ◀ cache | Sistema até Usuário(3) lido do cache; Asst(3) + Usuário(4) escrito no cache |
O ponto de interrupção do cache se move automaticamente para o último bloco armazenável em cache em cada solicitação, portanto você não precisa atualizar nenhum marcador cache_control conforme a conversa cresce.
Por padrão, o cache automático usa um TTL de 5 minutos. Você pode especificar um TTL de 1 hora a 2x o preço do token de entrada base:
{ "cache_control": { "type": "ephemeral", "ttl": "1h" } }O cache automático é compatível com pontos de interrupção de cache explícitos. Quando usados juntos, o ponto de interrupção de cache automático usa um dos 4 slots de ponto de interrupção disponíveis.
Isso permite combinar ambas as abordagens. Por exemplo, use pontos de interrupção explícitos para armazenar em cache seu prompt de sistema e ferramentas independentemente, enquanto o cache automático lida com a conversa:
{
"model": "claude-opus-4-7",
"max_tokens": 1024,
"cache_control": { "type": "ephemeral" },
"system": [
{
"type": "text",
"text": "You are a helpful assistant.",
"cache_control": { "type": "ephemeral" }
}
],
"messages": [{ "role": "user", "content": "What are the key terms?" }]
}O cache automático usa a mesma infraestrutura de cache subjacente. Preços, limites mínimos de tokens, requisitos de ordenação de contexto e a janela de lookback de 20 blocos se aplicam da mesma forma que com pontos de interrupção explícitos.
cache_control explícito com o mesmo TTL, o cache automático é uma operação nula.cache_control explícito com um TTL diferente, a API retorna um erro 400.O cache automático está disponível na Claude API e Azure AI Foundry (visualização). O suporte para Amazon Bedrock e Google Vertex AI virá mais tarde.
Para mais controle sobre o cache, você pode colocar cache_control diretamente em blocos de conteúdo individuais. Isso é útil quando você precisa armazenar em cache diferentes seções que mudam em frequências diferentes, ou precisa de controle fino sobre exatamente o que é armazenado em cache.
Coloque conteúdo estático (definições de ferramentas, instruções do sistema, contexto, exemplos) no início do seu prompt. Marque o final do conteúdo reutilizável para cache usando o parâmetro cache_control.
Os prefixos de cache são criados na seguinte ordem: tools, system, depois messages. Essa ordem forma uma hierarquia onde cada nível se baseia nos anteriores.
Você pode usar apenas um ponto de interrupção de cache no final do seu conteúdo estático, e o sistema encontrará automaticamente o prefixo mais longo que uma solicitação anterior já escreveu no cache. Entender como isso funciona ajuda você a otimizar sua estratégia de cache.
Três princípios principais:
As escritas de cache acontecem apenas no seu ponto de interrupção. Marcar um bloco com cache_control escreve exatamente uma entrada de cache: um hash do prefixo terminando naquele bloco. O sistema não escreve entradas para nenhuma posição anterior. Como o hash é cumulativo, cobrindo tudo até e incluindo o ponto de interrupção, alterar qualquer bloco no ou antes do ponto de interrupção produz um hash diferente na próxima solicitação.
As leituras de cache procuram para trás por entradas que solicitações anteriores escreveram. Em cada solicitação, o sistema calcula o hash do prefixo no seu ponto de interrupção e verifica uma entrada de cache correspondente. Se nenhuma existir, ele caminha para trás um bloco por vez, verificando se o hash do prefixo em cada posição anterior corresponde a algo já no cache. Está procurando por escritas anteriores, não por conteúdo estável.
A janela de lookback é de 20 blocos. O sistema verifica no máximo 20 posições por ponto de interrupção, contando o ponto de interrupção em si como o primeiro. Se o sistema não encontrar nenhuma entrada correspondente nessa janela, a verificação para (ou retoma do próximo ponto de interrupção explícito, se houver).
Exemplo: Lookback em uma conversa crescente
Você anexa novos blocos a cada turno e define cache_control no bloco final de cada solicitação:
Erro comum: Ponto de interrupção em conteúdo que muda a cada solicitação
Seu prompt tem um grande contexto de sistema estático (blocos 1 a 5) seguido por um bloco por solicitação contendo um timestamp e a mensagem do usuário (bloco 6). Você define cache_control no bloco 6:
O lookback não encontra conteúdo estável atrás do seu ponto de interrupção e o armazena em cache. Ele encontra entradas que solicitações anteriores já escreveram, e as escritas acontecem apenas em pontos de interrupção. Mova cache_control para o bloco 5, o último bloco que permanece igual entre solicitações, e cada solicitação subsequente lê o prefixo em cache. O cache automático cai na mesma armadilha: coloca o ponto de interrupção no último bloco armazenável em cache, que nessa estrutura é aquele que muda a cada solicitação, então use um ponto de interrupção explícito no bloco 5 em vez disso.
Conclusão principal: Coloque cache_control no último bloco cujo prefixo é idêntico entre as solicitações que você deseja compartilhar um cache. Em uma conversa crescente, o bloco final funciona desde que cada turno adicione menos de 20 blocos: o conteúdo anterior nunca muda, então o lookback da próxima solicitação encontra a escrita anterior. Para um prompt com um sufixo variável (timestamps, contexto por solicitação, a mensagem recebida), coloque o ponto de interrupção no final do prefixo estático, não no bloco variável.
Você pode definir até 4 pontos de interrupção de cache se quiser:
Limitação importante: O lookback só pode encontrar entradas que solicitações anteriores já escreveram. Se uma conversa crescente move seu ponto de interrupção 20 ou mais blocos além da última escrita, a janela de lookback a perde. Adicione um segundo ponto de interrupção mais próximo a essa posição desde o início para que uma escrita se acumule lá antes de você precisar dela.
Os pontos de interrupção de cache em si não adicionam nenhum custo. Você é cobrado apenas por:
Adicionar mais pontos de interrupção cache_control não aumenta seus custos - você ainda paga a mesma quantidade com base no que é realmente armazenado em cache e lido. Os pontos de interrupção simplesmente lhe dão controle sobre quais seções podem ser armazenadas em cache independentemente.
O comprimento mínimo de prompt armazenável em cache é:
Prompts mais curtos não podem ser armazenados em cache, mesmo se marcados com cache_control. Qualquer solicitação para armazenar em cache menos que esse número de tokens será processada sem cache, e nenhum erro é retornado. Para verificar se um prompt foi armazenado em cache, verifique os campos de uso da resposta: se ambos cache_creation_input_tokens e cache_read_input_tokens forem 0, o prompt não foi armazenado em cache (provavelmente porque não atendeu ao requisito de comprimento mínimo).
Se seu prompt ficar um pouco abaixo do mínimo para o modelo que você está usando, expandir o conteúdo em cache para atingir o limite geralmente vale a pena. As leituras de cache custam significativamente menos que tokens de entrada não armazenados em cache, então atingir o mínimo pode reduzir custos para prompts frequentemente reutilizados.
Para solicitações simultâneas, observe que uma entrada de cache só fica disponível após o início da primeira resposta. Se você precisar de acertos de cache para solicitações paralelas, aguarde a primeira resposta antes de enviar solicitações subsequentes.
Atualmente, "ephemeral" é o único tipo de cache suportado, que por padrão tem uma vida útil de 5 minutos.
A maioria dos blocos na solicitação pode ser armazenada em cache. Isso inclui:
toolssystemmessages.content, para turnos de usuário e assistentemessages.content, em turnos de usuáriomessages.content, em turnos de usuário e assistenteCada um desses elementos pode ser armazenado em cache, automaticamente ou marcando-os com cache_control.
Embora a maioria dos blocos de solicitação possa ser armazenada em cache, existem algumas exceções:
Blocos de pensamento não podem ser armazenados em cache diretamente com cache_control. No entanto, blocos de pensamento PODEM ser armazenados em cache junto com outro conteúdo quando aparecem em turnos anteriores do assistente. Quando armazenados em cache dessa forma, eles CONTAM como tokens de entrada quando lidos do cache.
Blocos de sub-conteúdo (como citações) em si não podem ser armazenados em cache diretamente. Em vez disso, armazene em cache o bloco de nível superior.
No caso de citações, os blocos de conteúdo de documento de nível superior que servem como material de origem para citações podem ser armazenados em cache. Isso permite que você use cache de prompts com citações efetivamente armazenando em cache os documentos que as citações referenciarão.
Blocos de texto vazios não podem ser armazenados em cache.
Modificações no conteúdo em cache podem invalidar parte ou todo o cache.
Conforme descrito em Estruturando seu prompt, o cache segue a hierarquia: tools → system → messages. Alterações em cada nível invalidam esse nível e todos os níveis subsequentes.
A tabela a seguir mostra quais partes do cache são invalidadas por diferentes tipos de alterações. ✘ indica que o cache é invalidado, enquanto ✓ indica que o cache permanece válido.
| O que muda | Cache de ferramentas | Cache de sistema | Cache de mensagens | Impacto |
|---|---|---|---|---|
| Definições de ferramentas | ✘ | ✘ | ✘ | Modificar definições de ferramentas (nomes, descrições, parâmetros) invalida todo o cache |
| Alternância de busca na web | ✓ | ✘ | ✘ | Ativar/desativar busca na web modifica o prompt do sistema |
| Alternância de citações | ✓ | ✘ | ✘ | Ativar/desativar citações modifica o prompt do sistema |
| Configuração de velocidade | ✓ | ✘ | ✘ | Alternar entre speed: "fast" e velocidade padrão invalida caches de sistema e mensagens |
| Escolha de ferramenta | ✓ | ✓ | ✘ | Alterações no parâmetro tool_choice afetam apenas blocos de mensagens |
| Imagens | ✓ | ✓ | ✘ | Adicionar/remover imagens em qualquer lugar no prompt afeta blocos de mensagens |
| Parâmetros de pensamento | ✓ | ✓ | ✘ | Alterações nas configurações de pensamento estendido (ativar/desativar, orçamento) afetam blocos de mensagens |
| Resultados não-ferramenta passados para solicitações de pensamento estendido | ✓ | ✓ | ✘ | Quando resultados não-ferramenta são passados em solicitações enquanto o pensamento estendido está ativado, todos os blocos de pensamento previamente em cache são removidos do contexto, e quaisquer mensagens no contexto que seguem esses blocos de pensamento são removidas do cache. Para mais detalhes, consulte Cache com blocos de pensamento. |
Monitore o desempenho do cache usando esses campos de resposta da API, dentro de usage na resposta (ou evento message_start se streaming):
cache_creation_input_tokens: Número de tokens escritos no cache ao criar uma nova entrada.cache_read_input_tokens: Número de tokens recuperados do cache para esta solicitação.input_tokens: Número de tokens de entrada que não foram lidos ou usados para criar um cache (ou seja, tokens após o último ponto de interrupção de cache).Entendendo a divisão de tokens
O campo input_tokens representa apenas os tokens que vêm após o último ponto de interrupção de cache em sua solicitação - não todos os tokens de entrada que você enviou.
Para calcular o total de tokens de entrada:
total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokensExplicação espacial:
cache_read_input_tokens = tokens antes do ponto de interrupção já em cache (leituras)cache_creation_input_tokens = tokens antes do ponto de interrupção sendo armazenados em cache agora (escritas)input_tokens = tokens após seu último ponto de interrupção (não elegíveis para cache)Exemplo: Se você tiver uma solicitação com 100.000 tokens de conteúdo em cache (lido do cache), 0 tokens de novo conteúdo sendo armazenado em cache e 50 tokens em sua mensagem de usuário (após o ponto de interrupção de cache):
cache_read_input_tokens: 100.000cache_creation_input_tokens: 0input_tokens: 50Isso é importante para entender tanto custos quanto limites de taxa, pois input_tokens será tipicamente muito menor que seu total de entrada ao usar cache efetivamente.
Ao usar pensamento estendido com cache de prompt, blocos de pensamento têm comportamento especial:
Cache automático junto com outro conteúdo: Embora blocos de pensamento não possam ser explicitamente marcados com cache_control, eles são armazenados em cache como parte do conteúdo da solicitação quando você faz chamadas de API subsequentes com resultados de ferramentas. Isso ocorre comumente durante o uso de ferramentas quando você passa blocos de pensamento de volta para continuar a conversa.
Contagem de tokens de entrada: Quando blocos de pensamento são lidos do cache, eles contam como tokens de entrada em suas métricas de uso. Isso é importante para cálculo de custo e orçamento de tokens.
Padrões de invalidação de cache:
cache_control explícitosPara mais detalhes sobre invalidação de cache, consulte O que invalida o cache.
Exemplo com uso de ferramentas:
Request 1: User: "What's the weather in Paris?"
Response: [thinking_block_1] + [tool_use block 1]
Request 2:
User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True]
Response: [thinking_block_2] + [text block 2]
# Request 2 caches its request content (not the response)
# The cache includes: user message, thinking_block_1, tool_use block 1, and tool_result_1
Request 3:
User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [thinking_block_2] + [text block 2],
User: [Text response, cache=True]
# Non-tool-result user block causes all thinking blocks to be ignored
# This request is processed as if thinking blocks were never presentQuando um bloco de usuário que não é resultado de ferramenta é incluído, ele designa um novo loop de assistente e todos os blocos de pensamento anteriores são removidos do contexto.
Para informações mais detalhadas, consulte a documentação de pensamento estendido.
A partir de 5 de fevereiro de 2026, o cache de prompt usará isolamento no nível do workspace em vez de isolamento no nível da organização. Os caches serão isolados por workspace, garantindo separação de dados entre workspaces dentro da mesma organização. Esta mudança se aplica à Claude API e Azure AI Foundry (preview); Amazon Bedrock e Google Vertex AI manterão isolamento de cache no nível da organização. Se você usar múltiplos workspaces, revise sua estratégia de cache para levar em conta esta mudança.
Isolamento de Organização: Os caches são isolados entre organizações. Diferentes organizações nunca compartilham caches, mesmo que usem prompts idênticos.
Correspondência Exata: Os cache hits requerem segmentos de prompt 100% idênticos, incluindo todo o texto e imagens até e incluindo o bloco marcado com controle de cache.
Geração de Token de Saída: O cache de prompt não tem efeito na geração de token de saída. A resposta que você recebe será idêntica ao que você obteria se o cache de prompt não fosse usado.
Para otimizar o desempenho do cache de prompt:
Adapte sua estratégia de cache de prompt ao seu cenário:
Se experimentar comportamento inesperado:
cache_control estão nos mesmos locaistool_choice e o uso de imagem permanecem consistentes entre chamadascache_creation_input_tokens quanto cache_read_input_tokens serão 0tool_use têm ordenação estável, pois algumas linguagens (por exemplo, Swift, Go) randomizam a ordem das chaves durante a conversão JSON, quebrando cachesMudanças em tool_choice ou a presença/ausência de imagens em qualquer lugar no prompt invalidarão o cache, exigindo que uma nova entrada de cache seja criada. Para mais detalhes sobre invalidação de cache, consulte O que invalida o cache.
Se você achar que 5 minutos é muito curto, Anthropic também oferece uma duração de cache de 1 hora com custo adicional.
Para usar o cache estendido, inclua ttl na definição cache_control assim:
"cache_control": {
"type": "ephemeral",
"ttl": "1h"
}A resposta incluirá informações detalhadas de cache como a seguinte:
{
"usage": {
"input_tokens": 2048,
"cache_read_input_tokens": 1800,
"cache_creation_input_tokens": 248,
"output_tokens": 503,
"cache_creation": {
"ephemeral_5m_input_tokens": 456,
"ephemeral_1h_input_tokens": 100
}
}
}Observe que o campo cache_creation_input_tokens atual é igual à soma dos valores no objeto cache_creation.
Se você tiver prompts que são usados em uma cadência regular (ou seja, prompts do sistema que são usados com mais frequência do que a cada 5 minutos), continue usando o cache de 5 minutos, pois isso continuará sendo atualizado sem custo adicional.
O cache de 1 hora é melhor usado nos seguintes cenários:
O cache de 5 minutos e 1 hora se comportam da mesma forma com relação à latência. Você geralmente verá tempo-para-primeiro-token melhorado para documentos longos.
Você pode usar controles de cache de 1 hora e 5 minutos na mesma solicitação, mas com uma restrição importante: Entradas de cache com TTL mais longo devem aparecer antes de TTLs mais curtos (ou seja, uma entrada de cache de 1 hora deve aparecer antes de qualquer entrada de cache de 5 minutos).
Ao misturar TTLs, a API determina três locais de faturamento em seu prompt:
A: A contagem de tokens no cache hit mais alto (ou 0 se não houver hits).B: A contagem de tokens no bloco cache_control de 1 hora mais alto após A (ou igual a A se nenhum existir).C: A contagem de tokens no último bloco cache_control.Se B e/ou C forem maiores que A, eles serão necessariamente cache misses, porque A é o cache hit mais alto.
Você será cobrado por:
A.(B - A).(C - B).Aqui estão 3 exemplos. Isso mostra os tokens de entrada de 3 solicitações, cada uma com diferentes cache hits e cache misses. Cada um tem um preço calculado diferente, mostrado nas caixas coloridas, como resultado.
Para ajudá-lo a começar com o cache de prompt, o cookbook de cache de prompt fornece exemplos detalhados e melhores práticas.
Os seguintes trechos de código demonstram vários padrões de cache de prompt. Estes exemplos mostram como implementar o cache em diferentes cenários, ajudando você a entender as aplicações práticas deste recurso:
O cache de prompts (automático e explícito) é elegível para ZDR. A Anthropic não armazena o texto bruto de seus prompts ou das respostas do Claude.
As representações de cache KV (chave-valor) e hashes criptográficos do conteúdo em cache são mantidos apenas na memória e não são armazenados em repouso. As entradas em cache têm um tempo de vida mínimo de 5 minutos (padrão) ou 60 minutos (estendido), após o qual são prontamente, embora não imediatamente, deletadas. As entradas de cache são isoladas entre organizações.
Para elegibilidade de ZDR em todos os recursos, consulte API and data retention.
Was this page helpful?