Mise en cache des invites

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 1024,
    "system": [
      {
        "type": "text",
        "text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n"
      },
      {
        "type": "text",
        "text": "<the entire contents of Pride and Prejudice>",
        "cache_control": {"type": "ephemeral"}
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Analyze the major themes in Pride and Prejudice."
      }
    ]
  }'

# Call the model again with the same inputs up to the cache checkpoint
curl https://api.anthropic.com/v1/messages # rest of input

JSON

{"cache_creation_input_tokens":188086,"cache_read_input_tokens":0,"input_tokens":21,"output_tokens":393}
{"cache_creation_input_tokens":0,"cache_read_input_tokens":188086,"input_tokens":21,"output_tokens":393}

Model	Base Input Tokens	5m Cache Writes	1h Cache Writes	Cache Hits & Refreshes	Output Tokens
Claude Opus 4.5	$5 / MTok	$6.25 / MTok	$10 / MTok	$0.50 / MTok	$25 / MTok
Claude Opus 4.1	$15 / MTok	$18.75 / MTok	$30 / MTok	$1.50 / MTok	$75 / MTok
Claude Opus 4	$15 / MTok	$18.75 / MTok	$30 / MTok	$1.50 / MTok	$75 / MTok
Claude Sonnet 4.5	$3 / MTok	$3.75 / MTok	$6 / MTok	$0.30 / MTok	$15 / MTok
Claude Sonnet 4	$3 / MTok	$3.75 / MTok	$6 / MTok	$0.30 / MTok	$15 / MTok
Claude Sonnet 3.7 (deprecated)	$3 / MTok	$3.75 / MTok	$6 / MTok	$0.30 / MTok	$15 / MTok
Claude Haiku 4.5	$1 / MTok	$1.25 / MTok	$2 / MTok	$0.10 / MTok	$5 / MTok
Claude Haiku 3.5	$0.80 / MTok	$1 / MTok	$1.6 / MTok	$0.08 / MTok	$4 / MTok
Claude Opus 3 (deprecated)	$15 / MTok	$18.75 / MTok	$30 / MTok	$1.50 / MTok	$75 / MTok
Claude Haiku 3	$0.25 / MTok	$0.30 / MTok	$0.50 / MTok	$0.03 / MTok	$1.25 / MTok

Ce qui change	Cache des outils	Cache système	Cache des messages	Impact
Définitions d'outils	✘	✘	✘	La modification des définitions d'outils (noms, descriptions, paramètres) invalide l'intégralité du cache
Basculement de recherche Web	✓	✘	✘	L'activation/désactivation de la recherche Web modifie l'invite système
Basculement des citations	✓	✘	✘	L'activation/désactivation des citations modifie l'invite système
Choix d'outil	✓	✓	✘	Les modifications du paramètre `tool_choice` n'affectent que les blocs de messages
Images	✓	✓	✘	L'ajout/suppression d'images n'importe où dans l'invite affecte les blocs de messages
Paramètres de réflexion	✓	✓	✘	Les modifications des paramètres de réflexion étendue (activation/désactivation, budget) affectent les blocs de messages
Résultats non-outils transmis aux demandes de réflexion étendue	✓	✓	✘	Lorsque des résultats non-outils sont transmis dans les demandes tandis que la réflexion étendue est activée, tous les blocs de réflexion précédemment mis en cache sont supprimés du contexte, et tous les messages en contexte qui suivent ces blocs de réflexion sont supprimés du cache. Pour plus de détails, voir Mise en cache avec blocs de réflexion.

Comprendre la répartition des jetons

Le champ input_tokens représente uniquement les jetons qui viennent après le dernier point de rupture de cache dans votre demande - pas tous les jetons d'entrée que vous avez envoyés.

Pour calculer le nombre total de jetons d'entrée :

total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens

Explication spatiale :

cache_read_input_tokens = jetons avant le point de rupture déjà mis en cache (lectures)
cache_creation_input_tokens = jetons avant le point de rupture en cours de mise en cache maintenant (écritures)
input_tokens = jetons après votre dernier point de rupture (non éligibles pour le cache)

Exemple : Si vous avez une demande avec 100 000 jetons de contenu mis en cache (lus à partir du cache), 0 jetons de nouveau contenu en cours de mise en cache, et 50 jetons dans votre message utilisateur (après le point de rupture de cache) :

cache_read_input_tokens : 100 000
cache_creation_input_tokens : 0
input_tokens : 50
Nombre total de jetons d'entrée traités : 100 050 jetons

Ceci est important pour comprendre à la fois les coûts et les limites de débit, car input_tokens sera généralement beaucoup plus petit que votre entrée totale lors de l'utilisation efficace de la mise en cache.

Request 1: User: "What's the weather in Paris?"
Response: [thinking_block_1] + [tool_use block 1]

Request 2:
User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True]
Response: [thinking_block_2] + [text block 2]
# Request 2 caches its request content (not the response)
# The cache includes: user message, thinking_block_1, tool_use block 1, and tool_result_1

Request 3:
User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [thinking_block_2] + [text block 2],
User: [Text response, cache=True]
# Non-tool-result user block causes all thinking blocks to be ignored
# This request is processed as if thinking blocks were never present

{
    "usage": {
        "input_tokens": ...,
        "cache_read_input_tokens": ...,
        "cache_creation_input_tokens": ...,
        "output_tokens": ...,

        "cache_creation": {
            "ephemeral_5m_input_tokens": 456,
            "ephemeral_1h_input_tokens": 100,
        }
    }
}

Mise en cache des invites

Mise en cache des invites

Fonctionnement de la mise en cache des invites

Tarification

Comment implémenter la mise en cache des invites

Modèles pris en charge

Structuration de votre invite

Fonctionnement de la vérification automatique des préfixes

Quand utiliser plusieurs points de rupture

Limitations du cache

Comprendre les coûts des points de rupture de cache

Ce qui peut être mis en cache

Ce qui ne peut pas être mis en cache

Ce qui invalide le cache

Suivi des performances du cache

Meilleures pratiques pour une mise en cache efficace

Optimisation pour différents cas d'utilisation

Dépannage des problèmes courants

Mise en cache avec blocs de réflexion

Stockage et partage du cache

Durée de cache d'1 heure

Quand utiliser le cache d'1 heure

Mélange de différents TTL

Exemples de mise en cache des invites

FAQ

Fonctionnement de la mise en cache des invites

Tarification

Comment implémenter la mise en cache des invites

Modèles pris en charge

Structuration de votre invite

Fonctionnement de la vérification automatique des préfixes

Quand utiliser plusieurs points de rupture

Limitations du cache

Comprendre les coûts des points de rupture de cache

Ce qui peut être mis en cache

Ce qui ne peut pas être mis en cache

Ce qui invalide le cache

Suivi des performances du cache

Meilleures pratiques pour une mise en cache efficace

Optimisation pour différents cas d'utilisation

Dépannage des problèmes courants

Mise en cache avec blocs de réflexion

Stockage et partage du cache

Durée de cache d'1 heure

Quand utiliser le cache d'1 heure

Mélange de différents TTL

Exemples de mise en cache des invites

Exemple de mise en cache de contexte volumineux

Mise en cache des définitions d'outils

Continuation d'une conversation multi-tours

Tout mettre ensemble : Points de rupture de cache multiples

FAQ

Ai-je besoin de plusieurs points de rupture de cache ou un seul à la fin suffit-il ?

Les points de rupture de cache ajoutent-ils un coût supplémentaire ?

Comment calculer le total des jetons d'entrée à partir des champs d'utilisation ?

Quelle est la durée de vie du cache ?

Combien de points de rupture de cache puis-je utiliser ?

La mise en cache des invites est-elle disponible pour tous les modèles ?

Comment fonctionne la mise en cache des invites avec la réflexion étendue ?

Comment activer la mise en cache des invites ?

Puis-je utiliser la mise en cache des invites avec d'autres fonctionnalités de l'API ?

Comment la mise en cache des invites affecte-t-elle la tarification ?

Puis-je effacer manuellement le cache ?

Comment puis-je suivre l'efficacité de ma stratégie de mise en cache ?

Qu'est-ce qui peut casser le cache ?

Comment la mise en cache des invites gère-t-elle la confidentialité et la séparation des données ?

Puis-je utiliser la mise en cache des invites avec l'API Batches ?

Pourquoi je vois l'erreur `AttributeError: 'Beta' object has no attribute 'prompt_caching'` en Python ?

Pourquoi je vois 'TypeError: Cannot read properties of undefined (reading 'messages')'?