Was this page helpful?
El modo rápido proporciona generación de tokens de salida significativamente más rápida para Claude Opus 4.6. Al establecer speed: "fast" en tu solicitud de API, obtienes hasta 2.5x más tokens de salida por segundo del mismo modelo con precios premium.
El modo rápido está actualmente en vista previa de investigación. Únete a la lista de espera para solicitar acceso. La disponibilidad es limitada mientras recopilamos comentarios.
El modo rápido es compatible con los siguientes modelos:
claude-opus-4-6)El modo rápido ejecuta el mismo modelo con una configuración de inferencia más rápida. No hay cambios en la inteligencia o capacidades.
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"speed": "fast",
"messages": [{
"role": "user",
"content": "Refactor this module to use dependency injection"
}]
}'El modo rápido tiene un precio de 6x las tarifas estándar de Opus para indicaciones ≤200K tokens, y 12x las tarifas estándar de Opus para indicaciones > 200K tokens. La siguiente tabla muestra los precios para Claude Opus 4.6 con modo rápido:
| Ventana de contexto | Entrada | Salida |
|---|---|---|
| ≤ 200K tokens de entrada | $30 / MTok | $150 / MTok |
| > 200K tokens de entrada | $60 / MTok | $225 / MTok |
Los precios del modo rápido se apilan con otros modificadores de precios:
Para obtener detalles completos de precios, consulta la página de precios.
El modo rápido tiene un límite de velocidad dedicado que es separado de los límites de velocidad estándar de Opus. A diferencia de la velocidad estándar, que tiene límites separados para tokens de entrada ≤200K y >200K, el modo rápido utiliza un único límite de velocidad que cubre el rango de contexto completo. Cuando se excede tu límite de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after que indica cuándo estará disponible la capacidad.
La respuesta incluye encabezados que indican el estado de tu límite de velocidad del modo rápido:
| Encabezado | Descripción |
|---|---|
anthropic-fast-input-tokens-limit | Máximo de tokens de entrada del modo rápido por minuto |
anthropic-fast-input-tokens-remaining | Tokens de entrada del modo rápido restantes |
anthropic-fast-input-tokens-reset | Hora en que se restablece el límite de tokens de entrada del modo rápido |
anthropic-fast-output-tokens-limit | Máximo de tokens de salida del modo rápido por minuto |
anthropic-fast-output-tokens-remaining | Tokens de salida del modo rápido restantes |
anthropic-fast-output-tokens-reset | Hora en que se restablece el límite de tokens de salida del modo rápido |
Para límites de velocidad específicos de nivel, consulta la página de límites de velocidad.
El objeto usage de la respuesta incluye un campo speed que indica qué velocidad se utilizó, ya sea "fast" o "standard":
Para rastrear el uso del modo rápido y los costos en toda tu organización, consulta la API de Uso y Costo.
Cuando se exceden los límites de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after. Los SDK de Anthropic reintentan automáticamente estas solicitudes hasta 2 veces por defecto (configurable a través de max_retries), esperando el retraso especificado por el servidor antes de cada reintento. Dado que el modo rápido utiliza reabastecimiento continuo de tokens, el retraso retry-after es típicamente corto y las solicitudes tienen éxito una vez que la capacidad está disponible.
Si prefieres retroceder a la velocidad estándar en lugar de esperar a que la capacidad del modo rápido esté disponible, captura el error de límite de velocidad y reintenta sin speed: "fast". Establece max_retries en 0 en la solicitud rápida inicial para omitir reintentos automáticos y fallar inmediatamente en errores de límite de velocidad.
El retroceso del modo rápido al modo estándar resultará en una falla de caché de indicaciones. Las solicitudes a diferentes velocidades no comparten prefijos en caché.
Dado que establecer max_retries en 0 también desactiva los reintentos para otros errores transitorios (sobrecargado, errores internos del servidor), los ejemplos a continuación vuelven a emitir la solicitud original con reintentos predeterminados para esos casos.
speed: "fast" con un modelo no compatible devuelve un error.curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"speed": "fast",
"messages": [{"role": "user", "content": "Hello"}]
}'
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
...
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}import anthropic
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)