MessagesEntwickeln mit Claude

Fallback-Credit

Vermeide es, die Prompt-Cache-Kosten doppelt zu zahlen, wenn du eine abgelehnte Claude Fable 5-Anfrage auf einem anderen Modell erneut versuchst.

Prompt-Caches sind modellspezifisch. Wenn Claude Fable 5 eine Anfrage ablehnt und du sie auf einem anderen Modell erneut versuchst, muss das Gesprächspräfix, das bereits für Claude Fable 5 gecacht war, von Grund auf neu in den Cache des neuen Modells geschrieben werden. Cache-Schreibvorgänge kosten mehr als Cache-Lesevorgänge. Fallback-Credit beseitigt diese zusätzlichen Kosten. Die Ablehnung enthält ein Credit-Token, du gibst das Token beim erneuten Versuch zurück, und der erneute Versuch wird so abgerechnet, als wäre das Gespräch von Anfang an auf dem neuen Modell gewesen.

Du brauchst diese Seite nur, wenn du den erneuten Versuch selbst baust: über rohes HTTP oder mit eigener Retry-Logik. Server-seitiger Fallback und die SDK-Middleware wenden Fallback-Credit automatisch an. Wenn du eines von beiden verwendest, überspringe diese Seite.

Ablehnungen und Fallback behandelt das Erkennen von Ablehnungen und die Wahl eines Fallback-Ansatzes. Prompt-Caching erklärt Cache-Lesevorgänge und Cache-Schreibvorgänge, falls diese Begriffe neu für dich sind.

Der grundlegende Ablauf

Mit dem Beta-Header aktivieren
Sende die Anfrage, die abgelehnt werden könnte, mit dem Header anthropic-beta: fallback-credit-2026-07-01. Der Header server-side-fallback-2026-07-01 gewährt dieselben Felder, und der frühere Header fallback-credit-2026-06-01 wird weiterhin akzeptiert und gewährt dieselben Felder.
Zwei Felder aus der Ablehnung lesen
Bei einer Ablehnung enthält stop_details zwei Felder:
- fallback_credit_token: ein opaker String, der das Guthaben repräsentiert.
- fallback_has_prefill_claim: ein Boolean, der dir sagt, welche Form des Retry-Bodys du verwenden sollst.
Beide sind null, wenn für die Ablehnung kein Guthaben verfügbar ist.
Den erneuten Versuch aufbauen
Beginne mit dem Body der abgelehnten Anfrage. Setze model auf das Fallback-Modell und füge das Token als Top-Level-Parameter fallback_credit_token hinzu. Wähle die Body-Form aus der folgenden Tabelle.
Den erneuten Versuch mit demselben Header senden
Sende den erneuten Versuch mit demselben Beta-Header fallback-credit-2026-07-01. Der erneute Versuch benötigt den Header, um das Token einzulösen.

Das Feld fallback_has_prefill_claim sagt dir, ob der erneute Versuch die partielle Ausgabe des abgelehnten Modells fortsetzen kann, anstatt von vorne zu beginnen:

`fallback_has_prefill_claim`	Retry-Body
`true`	Der Body der abgelehnten Anfrage, unverändert, plus eine angehängte Assistant-Nachricht, deren `content` den `content` der abgelehnten Antwort wiedergibt. Das Retry-Modell setzt die Antwort dort fort, wo das abgelehnte Modell aufgehört hat, und abgeschlossene Server-Tool-Aufrufe werden nicht erneut ausgeführt.
`false`	Der Body der abgelehnten Anfrage, unverändert.

Beispiel

Das folgende Beispiel stellt eine Anfrage, die abgelehnt werden könnte, und löst das Credit-Token bei einem erneuten Versuch gegen Claude Opus 4.8 ein. Wenn ein Retry-Versuch zurückgewiesen wird, arbeitet sich das Beispiel durch die Zurückweisungsleiter: die Abfolge zunehmend einfacherer Retry-Formen, die in Wenn ein erneuter Versuch zurückgewiesen wird behandelt wird.

client = Anthropic()

request = {
    "max_tokens": 1024,
    "messages": [{"role": "user", "content": "Hello, Claude"}],
}


def send(model: str, body: dict[str, object]) -> BetaMessage:
    return client.beta.messages.create(
        model=model, betas=["fallback-credit-2026-07-01"], **body
    )


response = send("claude-fable-5", request)

if (
    response.stop_reason == "refusal"
    and (details := response.stop_details)
    and (token := details.fallback_credit_token)
):
    exact_body = request | {"fallback_credit_token": token}
    # Bevorzuge die Fortsetzungsform, sofern die Behauptung nicht False ist
    if details.fallback_has_prefill_claim is not False:
        echoed = [block.model_dump() for block in response.content]
        match echoed:
            case [*_, {"type": "text"} as final_block]:
                final_block["text"] = final_block["text"].rstrip()
        attempt = exact_body | {
            "messages": [
                *request["messages"],
                {"role": "assistant", "content": echoed},
            ]
        }
    else:
        attempt = exact_body

    try:
        response = send("claude-opus-4-8", attempt)
    except BadRequestError as error:
        if "redemption temporarily unavailable" in error.message:
            raise  # Transient: retry with the token within its five-minute window
        try:
            # Greife auf den unveränderten Body zurück, weiterhin mit dem Token
            response = send("claude-opus-4-8", exact_body)
        except BadRequestError as retry_error:
            if "redemption temporarily unavailable" in retry_error.message:
                raise  # Transient: retry with the token within its five-minute window
            # Das Token selbst wurde abgelehnt: gib es auf und versuche es ohne erneut.
            response = send("claude-opus-4-8", request)

print(json.dumps({"stop_reason": response.stop_reason, "model": response.model}))

Wo es funktioniert

Fallback-Credit ist in der Beta auf der Claude API, Amazon Bedrock, Claude Platform auf AWS, Google Cloud und Microsoft Foundry verfügbar. Ablehnungen in Message Batches erzeugen keine Credit-Tokens, und die Einlösung gilt nur für direkte Messages-API-Anfragen: Ein Token, das bei einer Batch-Anfrage übergeben wird, wird akzeptiert, aber ignoriert.

Das Retry-Modell muss eines der zulässigen Fallback-Ziele des abgelehnten Modells sein. Die zulässigen Ziele von Claude Fable 5 sind Claude Opus 4.8 (claude-opus-4-8) und Claude Opus 5 (claude-opus-5).

Prüfen, ob das Guthaben angewendet wurde

Die Rückerstattung ist in der usage des erneuten Versuchs sichtbar. Verglichen mit dem, was dieselbe Anfrage ohne das Token melden würde, ist cache_creation_input_tokens niedriger und cache_read_input_tokens um denselben Betrag höher. Eine Verschiebung von null bedeutet, dass das Token berücksichtigt wurde, aber nichts neu zu bepreisen war, zum Beispiel weil der Cache des Retry-Modells bereits warm war.

Wenn ein erneuter Versuch zurückgewiesen wird

Die meisten erneuten Versuche werden beim ersten Versuch eingelöst. Wenn einer nicht eingelöst wird, gibt die API einen 400-Fehler zurück, der dir sagt, was du als Nächstes versuchen sollst.

Fortsetzung zurückgewiesen: den unveränderten Body erneut senden
Wenn der erneute Versuch, der die Assistant-Nachricht anhängt, mit einem 400-Fehler zurückgewiesen wird, sende den Body der abgelehnten Anfrage unverändert erneut, weiterhin mit dem Token.
Token zurückgewiesen: das Token weglassen
Wenn der unveränderte Body ebenfalls mit einem 400-Fehler zurückgewiesen wird, dessen Meldung fallback_credit_token nennt, versuche es erneut ohne das Token. Das Guthaben verfällt, aber der erneute Versuch selbst geht durch.

Wenn die abgelehnte Anfrage Server-Tools ausgeführt hat, führt ein erneuter Versuch ohne Token diese Tools erneut aus und berechnet sie erneut. Gib in diesem Fall den 400-Fehler an deinen Aufrufer weiter, anstatt auf einen erneuten Versuch ohne Token zurückzufallen.

Referenz

Die folgenden Abschnitte behandeln Randfälle und die vollständigen Einlösungsregeln. Die meisten Integrationen benötigen sie nicht.

Nächste Schritte

Ablehnungen und Fallback

Erkenne Ablehnungen und wähle zwischen server-seitigem Fallback, der SDK-Middleware und einem manuellen erneuten Versuch.

Prompt-Caching

Wie Cache-Lesevorgänge und Cache-Schreibvorgänge abgerechnet werden.

Stop-Gründe und Fallback

Jeder stop_reason-Wert und wie du ihn behandelst.

SDK-Middleware

Der SDK-Helfer, der Fallback-Credit automatisch anwendet.

Was this page helpful?

MessagesEntwickeln mit Claude

Fallback-Credit

Vermeide es, die Prompt-Cache-Kosten doppelt zu zahlen, wenn du eine abgelehnte Claude Fable 5-Anfrage auf einem anderen Modell erneut versuchst.

Der grundlegende Ablauf

Mit dem Beta-Header aktivieren
Sende die Anfrage, die abgelehnt werden könnte, mit dem Header anthropic-beta: fallback-credit-2026-07-01. Der Header server-side-fallback-2026-07-01 gewährt dieselben Felder, und der frühere Header fallback-credit-2026-06-01 wird weiterhin akzeptiert und gewährt dieselben Felder.
Zwei Felder aus der Ablehnung lesen
Bei einer Ablehnung enthält stop_details zwei Felder:
- fallback_credit_token: ein opaker String, der das Guthaben repräsentiert.
- fallback_has_prefill_claim: ein Boolean, der dir sagt, welche Form des Retry-Bodys du verwenden sollst.
Beide sind null, wenn für die Ablehnung kein Guthaben verfügbar ist.
Den erneuten Versuch aufbauen
Beginne mit dem Body der abgelehnten Anfrage. Setze model auf das Fallback-Modell und füge das Token als Top-Level-Parameter fallback_credit_token hinzu. Wähle die Body-Form aus der folgenden Tabelle.
Den erneuten Versuch mit demselben Header senden
Sende den erneuten Versuch mit demselben Beta-Header fallback-credit-2026-07-01. Der erneute Versuch benötigt den Header, um das Token einzulösen.

Das Feld fallback_has_prefill_claim sagt dir, ob der erneute Versuch die partielle Ausgabe des abgelehnten Modells fortsetzen kann, anstatt von vorne zu beginnen:

`fallback_has_prefill_claim`	Retry-Body
`true`	Der Body der abgelehnten Anfrage, unverändert, plus eine angehängte Assistant-Nachricht, deren `content` den `content` der abgelehnten Antwort wiedergibt. Das Retry-Modell setzt die Antwort dort fort, wo das abgelehnte Modell aufgehört hat, und abgeschlossene Server-Tool-Aufrufe werden nicht erneut ausgeführt.
`false`	Der Body der abgelehnten Anfrage, unverändert.

Beispiel

client = Anthropic()

request = {
    "max_tokens": 1024,
    "messages": [{"role": "user", "content": "Hello, Claude"}],
}


def send(model: str, body: dict[str, object]) -> BetaMessage:
    return client.beta.messages.create(
        model=model, betas=["fallback-credit-2026-07-01"], **body
    )


response = send("claude-fable-5", request)

if (
    response.stop_reason == "refusal"
    and (details := response.stop_details)
    and (token := details.fallback_credit_token)
):
    exact_body = request | {"fallback_credit_token": token}
    # Bevorzuge die Fortsetzungsform, sofern die Behauptung nicht False ist
    if details.fallback_has_prefill_claim is not False:
        echoed = [block.model_dump() for block in response.content]
        match echoed:
            case [*_, {"type": "text"} as final_block]:
                final_block["text"] = final_block["text"].rstrip()
        attempt = exact_body | {
            "messages": [
                *request["messages"],
                {"role": "assistant", "content": echoed},
            ]
        }
    else:
        attempt = exact_body

    try:
        response = send("claude-opus-4-8", attempt)
    except BadRequestError as error:
        if "redemption temporarily unavailable" in error.message:
            raise  # Transient: retry with the token within its five-minute window
        try:
            # Greife auf den unveränderten Body zurück, weiterhin mit dem Token
            response = send("claude-opus-4-8", exact_body)
        except BadRequestError as retry_error:
            if "redemption temporarily unavailable" in retry_error.message:
                raise  # Transient: retry with the token within its five-minute window
            # Das Token selbst wurde abgelehnt: gib es auf und versuche es ohne erneut.
            response = send("claude-opus-4-8", request)

print(json.dumps({"stop_reason": response.stop_reason, "model": response.model}))

Wo es funktioniert

Prüfen, ob das Guthaben angewendet wurde

Wenn ein erneuter Versuch zurückgewiesen wird

Die meisten erneuten Versuche werden beim ersten Versuch eingelöst. Wenn einer nicht eingelöst wird, gibt die API einen 400-Fehler zurück, der dir sagt, was du als Nächstes versuchen sollst.

Fortsetzung zurückgewiesen: den unveränderten Body erneut senden
Wenn der erneute Versuch, der die Assistant-Nachricht anhängt, mit einem 400-Fehler zurückgewiesen wird, sende den Body der abgelehnten Anfrage unverändert erneut, weiterhin mit dem Token.
Token zurückgewiesen: das Token weglassen
Wenn der unveränderte Body ebenfalls mit einem 400-Fehler zurückgewiesen wird, dessen Meldung fallback_credit_token nennt, versuche es erneut ohne das Token. Das Guthaben verfällt, aber der erneute Versuch selbst geht durch.

Referenz

Die folgenden Abschnitte behandeln Randfälle und die vollständigen Einlösungsregeln. Die meisten Integrationen benötigen sie nicht.

Nächste Schritte

Ablehnungen und Fallback

Erkenne Ablehnungen und wähle zwischen server-seitigem Fallback, der SDK-Middleware und einem manuellen erneuten Versuch.

Prompt-Caching

Wie Cache-Lesevorgänge und Cache-Schreibvorgänge abgerechnet werden.

Stop-Gründe und Fallback

Jeder stop_reason-Wert und wie du ihn behandelst.

SDK-Middleware

Der SDK-Helfer, der Fallback-Credit automatisch anwendet.

Was this page helpful?

Der grundlegende Ablauf

Beispiel

Wo es funktioniert

Zulässige Fallback-Ziele programmatisch nachschlagen

Prüfen, ob das Guthaben angewendet wurde

Wenn ein erneuter Versuch zurückgewiesen wird

Wenn der Fehler 'redemption temporarily unavailable' lautet

Referenz

Felder, die mit der abgelehnten Anfrage übereinstimmen müssen

Beta-Header müssen ebenfalls übereinstimmen

Wenn fallback_has_prefill_claim fehlt

Den Content der abgelehnten Antwort wiedergeben

Token-Geltungsbereich und Lebensdauer

Wenn ein Token mit keiner der beiden Formen eingelöst werden kann

Nächste Schritte

Der grundlegende Ablauf

Beispiel

Wo es funktioniert

Zulässige Fallback-Ziele programmatisch nachschlagen

Prüfen, ob das Guthaben angewendet wurde

Wenn ein erneuter Versuch zurückgewiesen wird

Wenn der Fehler 'redemption temporarily unavailable' lautet

Referenz

Felder, die mit der abgelehnten Anfrage übereinstimmen müssen

Beta-Header müssen ebenfalls übereinstimmen

Wenn fallback_has_prefill_claim fehlt

Den Content der abgelehnten Antwort wiedergeben

Token-Geltungsbereich und Lebensdauer

Wenn ein Token mit keiner der beiden Formen eingelöst werden kann

Nächste Schritte

Der grundlegende Ablauf

Beispiel

Wo es funktioniert

Prüfen, ob das Guthaben angewendet wurde

Wenn ein erneuter Versuch zurückgewiesen wird

Referenz

Nächste Schritte

Der grundlegende Ablauf

Beispiel

Wo es funktioniert

Prüfen, ob das Guthaben angewendet wurde

Wenn ein erneuter Versuch zurückgewiesen wird

Referenz

Nächste Schritte