MensajesDesarrollar con Claude

Crédito de fallback

Evita pagar dos veces el costo de la caché de prompts cuando reintentas en otro modelo una solicitud rechazada por Claude Fable 5.

Las cachés de prompts son por modelo. Cuando Claude Fable 5 rechaza una solicitud y reintentas en otro modelo, el prefijo de la conversación que ya estaba almacenado en caché para Claude Fable 5 debe escribirse desde cero en la caché del nuevo modelo. Las escrituras en caché cuestan más que las lecturas de caché. El "fallback credit" (crédito de fallback) elimina ese costo adicional. El rechazo lleva un token de crédito, tú devuelves el token en el reintento, y el reintento se factura como si la conversación hubiera estado en el nuevo modelo desde el principio.

Solo necesitas esta página cuando construyes el reintento tú mismo: sobre HTTP sin procesar o con lógica de reintento personalizada. El fallback del lado del servidor y el middleware del SDK aplican el crédito de fallback automáticamente. Si usas cualquiera de los dos, omite esta página.

Rechazos y fallback cubre la detección de rechazos y la elección de un enfoque de fallback. Almacenamiento en caché de prompts explica las lecturas de caché y las escrituras en caché si esos términos son nuevos para ti.

El flujo básico

Habilita la función con el encabezado beta
Envía la solicitud que puede ser rechazada con el encabezado anthropic-beta: fallback-credit-2026-07-01. El encabezado server-side-fallback-2026-07-01 también otorga los mismos campos, y el encabezado anterior fallback-credit-2026-06-01 sigue siendo aceptado y otorga los mismos campos.
Lee dos campos del rechazo
En un rechazo, stop_details incluye dos campos:
- fallback_credit_token: una cadena opaca que representa el crédito.
- fallback_has_prefill_claim: un booleano que te indica qué forma de cuerpo de reintento usar.
Ambos son null cuando no hay crédito disponible para el rechazo.
Construye el reintento
Parte del cuerpo de la solicitud rechazada. Establece model en el modelo de fallback y agrega el token como el parámetro de nivel superior fallback_credit_token. Elige la forma del cuerpo de la tabla a continuación.
Envía el reintento con el mismo encabezado
Envía el reintento con el mismo encabezado beta fallback-credit-2026-07-01. El reintento necesita el encabezado para canjear el token.

El campo fallback_has_prefill_claim te indica si el reintento puede continuar la salida parcial del modelo rechazado en lugar de empezar de nuevo:

`fallback_has_prefill_claim`	Cuerpo del reintento
`true`	El cuerpo de la solicitud rechazada, sin cambios, más un mensaje de asistente agregado al final cuyo `content` replica el `content` de la respuesta rechazada. El modelo del reintento continúa la respuesta desde donde el modelo rechazado se detuvo, y las llamadas a herramientas del servidor completadas no se vuelven a ejecutar.
`false`	El cuerpo de la solicitud rechazada, sin cambios.

Ejemplo

El siguiente ejemplo realiza una solicitud que puede ser rechazada y canjea el token de crédito en un reintento contra Claude Opus 4.8. Cuando un intento de reintento es rechazado, el ejemplo desciende por la escalera de rechazo: la secuencia de formas de reintento progresivamente más simples cubierta en Cuando un reintento es rechazado.

client = Anthropic()

request = {
    "max_tokens": 1024,
    "messages": [{"role": "user", "content": "Hello, Claude"}],
}


def send(model: str, body: dict[str, object]) -> BetaMessage:
    return client.beta.messages.create(
        model=model, betas=["fallback-credit-2026-07-01"], **body
    )


response = send("claude-fable-5", request)

if (
    response.stop_reason == "refusal"
    and (details := response.stop_details)
    and (token := details.fallback_credit_token)
):
    exact_body = request | {"fallback_credit_token": token}
    # Prefiere la forma de continuación a menos que la afirmación sea False
    if details.fallback_has_prefill_claim is not False:
        echoed = [block.model_dump() for block in response.content]
        match echoed:
            case [*_, {"type": "text"} as final_block]:
                final_block["text"] = final_block["text"].rstrip()
        attempt = exact_body | {
            "messages": [
                *request["messages"],
                {"role": "assistant", "content": echoed},
            ]
        }
    else:
        attempt = exact_body

    try:
        response = send("claude-opus-4-8", attempt)
    except BadRequestError as error:
        if "redemption temporarily unavailable" in error.message:
            raise  # Transient: retry with the token within its five-minute window
        try:
            # Recurre al cuerpo sin cambios, todavía con el token
            response = send("claude-opus-4-8", exact_body)
        except BadRequestError as retry_error:
            if "redemption temporarily unavailable" in retry_error.message:
                raise  # Transient: retry with the token within its five-minute window
            # El token en sí fue rechazado: descártalo y reintenta sin él.
            response = send("claude-opus-4-8", request)

print(json.dumps({"stop_reason": response.stop_reason, "model": response.model}))

Dónde funciona

El crédito de fallback está en beta en la Claude API, Amazon Bedrock, Claude Platform en AWS, Google Cloud y Microsoft Foundry. Los rechazos en Message Batches no generan tokens de crédito, y el canje se aplica solo a solicitudes directas a la Messages API: un token pasado en una solicitud por lotes es aceptado pero ignorado.

El modelo del reintento debe ser uno de los destinos de fallback permitidos del modelo rechazado. Los destinos permitidos de Claude Fable 5 son Claude Opus 4.8 (claude-opus-4-8) y Claude Opus 5 (claude-opus-5).

Verificar que el crédito se aplicó

El reembolso es visible en el usage del reintento. En comparación con lo que la misma solicitud reportaría sin el token, cache_creation_input_tokens es menor, y cache_read_input_tokens es mayor en la misma cantidad. Un cambio de cero significa que el token fue aceptado pero no había nada que volver a tarificar, por ejemplo porque la caché del modelo del reintento ya estaba caliente.

Cuando un reintento es rechazado

La mayoría de los reintentos se canjean en el primer intento. Cuando uno no lo hace, la API devuelve un error 400 que te indica qué intentar a continuación.

Continuación rechazada: reenvía el cuerpo sin cambios
Si el reintento que agrega el mensaje de asistente es rechazado con un error 400, reenvía el cuerpo de la solicitud rechazada sin cambios, todavía con el token.
Token rechazado: elimina el token
Si el cuerpo sin cambios también es rechazado con un error 400 cuyo mensaje menciona fallback_credit_token, reintenta sin el token. El crédito se pierde, pero el reintento en sí se procesa.

Si la solicitud rechazada ejecutó herramientas del servidor, un reintento sin token vuelve a ejecutar y a facturar esas herramientas. En ese caso, expón el error 400 a tu llamador en lugar de pasar a un reintento sin token.

Referencia

Las secciones a continuación cubren casos límite y las reglas completas de canje. La mayoría de las integraciones no las necesitan.

Próximos pasos

Rechazos y fallback

Detecta rechazos y elige entre el fallback del lado del servidor, el middleware del SDK y un reintento manual.

Almacenamiento en caché de prompts

Cómo se facturan las lecturas de caché y las escrituras en caché.

Razones de detención y fallback

Cada valor de stop_reason y cómo manejarlo.

Middleware del SDK

El asistente del SDK que aplica el crédito de fallback automáticamente.

Was this page helpful?

MensajesDesarrollar con Claude

Crédito de fallback

Evita pagar dos veces el costo de la caché de prompts cuando reintentas en otro modelo una solicitud rechazada por Claude Fable 5.

El flujo básico

Habilita la función con el encabezado beta
Envía la solicitud que puede ser rechazada con el encabezado anthropic-beta: fallback-credit-2026-07-01. El encabezado server-side-fallback-2026-07-01 también otorga los mismos campos, y el encabezado anterior fallback-credit-2026-06-01 sigue siendo aceptado y otorga los mismos campos.
Lee dos campos del rechazo
En un rechazo, stop_details incluye dos campos:
- fallback_credit_token: una cadena opaca que representa el crédito.
- fallback_has_prefill_claim: un booleano que te indica qué forma de cuerpo de reintento usar.
Ambos son null cuando no hay crédito disponible para el rechazo.
Construye el reintento
Parte del cuerpo de la solicitud rechazada. Establece model en el modelo de fallback y agrega el token como el parámetro de nivel superior fallback_credit_token. Elige la forma del cuerpo de la tabla a continuación.
Envía el reintento con el mismo encabezado
Envía el reintento con el mismo encabezado beta fallback-credit-2026-07-01. El reintento necesita el encabezado para canjear el token.

El campo fallback_has_prefill_claim te indica si el reintento puede continuar la salida parcial del modelo rechazado en lugar de empezar de nuevo:

`fallback_has_prefill_claim`	Cuerpo del reintento
`true`	El cuerpo de la solicitud rechazada, sin cambios, más un mensaje de asistente agregado al final cuyo `content` replica el `content` de la respuesta rechazada. El modelo del reintento continúa la respuesta desde donde el modelo rechazado se detuvo, y las llamadas a herramientas del servidor completadas no se vuelven a ejecutar.
`false`	El cuerpo de la solicitud rechazada, sin cambios.

Ejemplo

client = Anthropic()

request = {
    "max_tokens": 1024,
    "messages": [{"role": "user", "content": "Hello, Claude"}],
}


def send(model: str, body: dict[str, object]) -> BetaMessage:
    return client.beta.messages.create(
        model=model, betas=["fallback-credit-2026-07-01"], **body
    )


response = send("claude-fable-5", request)

if (
    response.stop_reason == "refusal"
    and (details := response.stop_details)
    and (token := details.fallback_credit_token)
):
    exact_body = request | {"fallback_credit_token": token}
    # Prefiere la forma de continuación a menos que la afirmación sea False
    if details.fallback_has_prefill_claim is not False:
        echoed = [block.model_dump() for block in response.content]
        match echoed:
            case [*_, {"type": "text"} as final_block]:
                final_block["text"] = final_block["text"].rstrip()
        attempt = exact_body | {
            "messages": [
                *request["messages"],
                {"role": "assistant", "content": echoed},
            ]
        }
    else:
        attempt = exact_body

    try:
        response = send("claude-opus-4-8", attempt)
    except BadRequestError as error:
        if "redemption temporarily unavailable" in error.message:
            raise  # Transient: retry with the token within its five-minute window
        try:
            # Recurre al cuerpo sin cambios, todavía con el token
            response = send("claude-opus-4-8", exact_body)
        except BadRequestError as retry_error:
            if "redemption temporarily unavailable" in retry_error.message:
                raise  # Transient: retry with the token within its five-minute window
            # El token en sí fue rechazado: descártalo y reintenta sin él.
            response = send("claude-opus-4-8", request)

print(json.dumps({"stop_reason": response.stop_reason, "model": response.model}))

Dónde funciona

Verificar que el crédito se aplicó

Cuando un reintento es rechazado

La mayoría de los reintentos se canjean en el primer intento. Cuando uno no lo hace, la API devuelve un error 400 que te indica qué intentar a continuación.

Continuación rechazada: reenvía el cuerpo sin cambios
Si el reintento que agrega el mensaje de asistente es rechazado con un error 400, reenvía el cuerpo de la solicitud rechazada sin cambios, todavía con el token.
Token rechazado: elimina el token
Si el cuerpo sin cambios también es rechazado con un error 400 cuyo mensaje menciona fallback_credit_token, reintenta sin el token. El crédito se pierde, pero el reintento en sí se procesa.

Referencia

Las secciones a continuación cubren casos límite y las reglas completas de canje. La mayoría de las integraciones no las necesitan.

Próximos pasos

Rechazos y fallback

Detecta rechazos y elige entre el fallback del lado del servidor, el middleware del SDK y un reintento manual.

Almacenamiento en caché de prompts

Cómo se facturan las lecturas de caché y las escrituras en caché.

Razones de detención y fallback

Cada valor de stop_reason y cómo manejarlo.

Middleware del SDK

El asistente del SDK que aplica el crédito de fallback automáticamente.

Was this page helpful?

El flujo básico

Ejemplo

Dónde funciona

Consultar los destinos de fallback permitidos de forma programática

Verificar que el crédito se aplicó

Cuando un reintento es rechazado

Si el error dice 'redemption temporarily unavailable'

Referencia

Campos que deben coincidir con la solicitud rechazada

Los encabezados beta también deben coincidir

Cuando fallback_has_prefill_claim está ausente

Replicar el contenido de la respuesta rechazada

Alcance y vigencia del token

Cuando un token no puede canjearse con ninguna de las dos formas

Próximos pasos

El flujo básico

Ejemplo

Dónde funciona

Consultar los destinos de fallback permitidos de forma programática

Verificar que el crédito se aplicó

Cuando un reintento es rechazado

Si el error dice 'redemption temporarily unavailable'

Referencia

Campos que deben coincidir con la solicitud rechazada

Los encabezados beta también deben coincidir

Cuando fallback_has_prefill_claim está ausente

Replicar el contenido de la respuesta rechazada

Alcance y vigencia del token

Cuando un token no puede canjearse con ninguna de las dos formas

Próximos pasos

El flujo básico

Ejemplo

Dónde funciona

Verificar que el crédito se aplicó

Cuando un reintento es rechazado

Referencia

Próximos pasos

El flujo básico

Ejemplo

Dónde funciona

Verificar que el crédito se aplicó

Cuando un reintento es rechazado

Referencia

Próximos pasos