El modo rápido proporciona generación de tokens de salida significativamente más rápida para Claude Opus 4.6. Al establecer speed: "fast" en tu solicitud de API, obtienes hasta 2.5x más tokens de salida por segundo del mismo modelo con precios premium.
El modo rápido está en beta (vista previa de investigación). Únete a la lista de espera para solicitar acceso. La disponibilidad es limitada mientras Anthropic recopila comentarios.
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
El modo rápido es compatible con los siguientes modelos:
claude-opus-4-6)El modo rápido ejecuta el mismo modelo con una configuración de inferencia más rápida. No hay cambios en la inteligencia o capacidades.
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)El modo rápido tiene un precio de 6x las tarifas estándar de Opus en toda la ventana de contexto, incluidas las solicitudes con más de 200k tokens de entrada. La siguiente tabla muestra los precios para Claude Opus 4.6 con modo rápido:
| Entrada | Salida |
|---|---|
| $30 / MTok | $150 / MTok |
Los precios del modo rápido se apilan con otros modificadores de precios:
Para obtener detalles completos de precios, consulta la página de precios.
El modo rápido tiene un límite de velocidad dedicado que es separado de los límites de velocidad estándar de Opus. Cuando se excede tu límite de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after que indica cuándo estará disponible la capacidad.
La respuesta incluye encabezados que indican el estado de tu límite de velocidad del modo rápido:
| Encabezado | Descripción |
|---|---|
anthropic-fast-input-tokens-limit | Máximo de tokens de entrada del modo rápido por minuto |
anthropic-fast-input-tokens-remaining | Tokens de entrada del modo rápido restantes |
anthropic-fast-input-tokens-reset | Hora en la que se restablece el límite de tokens de entrada del modo rápido |
anthropic-fast-output-tokens-limit | Máximo de tokens de salida del modo rápido por minuto |
anthropic-fast-output-tokens-remaining | Tokens de salida del modo rápido restantes |
anthropic-fast-output-tokens-reset | Hora en la que se restablece el límite de tokens de salida del modo rápido |
Para límites de velocidad específicos del nivel, consulta la página de límites de velocidad.
El objeto usage de la respuesta incluye un campo speed que indica qué velocidad se utilizó, ya sea "fast" o "standard":
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Para rastrear el uso del modo rápido y los costos en toda tu organización, consulta la API de Uso y Costo.
Cuando se exceden los límites de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after. Los SDK de Anthropic reintentan automáticamente estas solicitudes hasta 2 veces por defecto (configurable mediante max_retries), esperando el retraso especificado por el servidor antes de cada reintento. Dado que el modo rápido utiliza reposición continua de tokens, el retraso retry-after es típicamente corto y las solicitudes tienen éxito una vez que la capacidad está disponible.
Si prefieres respaldarte a velocidad estándar en lugar de esperar a que esté disponible la capacidad del modo rápido, captura el error de límite de velocidad e intenta nuevamente sin speed: "fast". Establece max_retries en 0 en la solicitud rápida inicial para omitir reintentos automáticos y fallar inmediatamente en errores de límite de velocidad.
El respaldo del modo rápido al estándar resultará en una falta de caché de indicación. Las solicitudes a diferentes velocidades no comparten prefijos en caché.
Dado que establecer max_retries en 0 también desactiva los reintentos para otros errores transitorios (sobrecargado, errores internos del servidor), los ejemplos a continuación vuelven a emitir la solicitud original con reintentos predeterminados para esos casos.
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" con un modelo no compatible devuelve un error.Ver información detallada de precios del modo rápido.
Verificar niveles de límites de velocidad para el modo rápido.
Controlar el uso de tokens con el parámetro de esfuerzo.
Was this page helpful?