MensajesCapacidades del modelo

Modo rápido (vista previa de investigación)

Obtén hasta 2,5 veces más tokens de salida por segundo con los modelos Claude Opus compatibles.

El modo rápido ofrece hasta 2,5 veces más tokens de salida por segundo con Claude Opus 4.8 y Claude Opus 4.7 a un precio premium. Establece speed: "fast" junto con el encabezado beta fast-mode-2026-02-01 en tu solicitud para activarlo.

El modo rápido está en vista previa de investigación. Contacta a tu gerente de cuenta para solicitar acceso. Si no tienes un gerente de cuenta, únete a la lista de espera para el modo rápido.

Esta función es elegible para Zero Data Retention (ZDR). Cuando tu organización tiene un acuerdo de ZDR, los datos enviados a través de esta función no se almacenan después de que se devuelve la respuesta de la API.

Modelos compatibles

El modo rápido es compatible con los siguientes modelos:

Claude Opus 4.8 (claude-opus-4-8)
Claude Opus 4.7 (claude-opus-4-7)

El modo rápido para Claude Opus 4.8 se lanza como vista previa de investigación únicamente en la API de Claude, incluidos los Claude Managed Agents. No está disponible en Amazon Bedrock, Google Cloud ni Microsoft Foundry.

El modo rápido para Claude Opus 4.7 está obsoleto desde el 25 de junio de 2026 y se eliminará el 24 de julio de 2026. Después de la eliminación, las solicitudes a claude-opus-4-7 con speed: "fast" devolverán un error; a diferencia de Claude Opus 4.6 (consulta la siguiente nota), Claude Opus 4.7 no recurre a la velocidad estándar. El modelo en sí sigue disponible a velocidad estándar. Para seguir usando el modo rápido, migra a Claude Opus 4.8.

Desde el 29 de junio de 2026, el modo rápido no está disponible en Claude Opus 4.6. Las solicitudes a claude-opus-4-6 con speed: "fast" no devuelven un error: se ejecutan a velocidad estándar y se facturan a las tarifas estándar en lugar de las tarifas premium del modo rápido, y la respuesta informa usage.speed: "standard". Para seguir usando el modo rápido, migra a Claude Opus 4.8.

Cómo funciona el modo rápido

El modo rápido ejecuta el mismo modelo con una configuración de inferencia más rápida. No hay cambios en la inteligencia ni en las capacidades.

Hasta 2,5 veces más tokens de salida por segundo en comparación con la velocidad estándar
Los beneficios de velocidad se centran en los "output tokens per second" (tokens de salida por segundo), o OTPS, no en el "time to first token" (tiempo hasta el primer token), o TTFT
Mismos pesos y comportamiento del modelo (no es un modelo diferente)
Compatible con streaming, donde la mejora en OTPS es más visible

Uso básico

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Precios

El modo rápido tiene un precio basado en un multiplicador por modelo sobre las tarifas estándar en toda la ventana de contexto, incluidas las solicitudes con más de 200k tokens de entrada. La siguiente tabla muestra los precios del modo rápido para cada modelo compatible:

Modelo	Entrada	Salida
Claude Opus 4.8	$10 / MTok	$50 / MTok
Claude Opus 4.7	$30 / MTok	$150 / MTok

Los precios del modo rápido se acumulan con otros modificadores de precios:

Los multiplicadores de almacenamiento en caché de prompts se aplican sobre los precios del modo rápido
Los multiplicadores de residencia de datos se aplican sobre los precios del modo rápido

Para obtener detalles completos sobre los precios, consulta la página de precios.

Límites de velocidad

El modo rápido tiene un límite de velocidad dedicado que es independiente de los límites de velocidad estándar de Opus. Cuando se excede tu límite de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after que indica cuándo habrá capacidad disponible.

La respuesta incluye encabezados que indican el estado de tu límite de velocidad del modo rápido:

Encabezado	Descripción
`anthropic-fast-input-tokens-limit`	Máximo de tokens de entrada del modo rápido por minuto
`anthropic-fast-input-tokens-remaining`	Tokens de entrada del modo rápido restantes
`anthropic-fast-input-tokens-reset`	Momento en que se restablece el límite de tokens de entrada del modo rápido
`anthropic-fast-output-tokens-limit`	Máximo de tokens de salida del modo rápido por minuto
`anthropic-fast-output-tokens-remaining`	Tokens de salida del modo rápido restantes
`anthropic-fast-output-tokens-reset`	Momento en que se restablece el límite de tokens de salida del modo rápido

Para conocer los límites de velocidad específicos por nivel, consulta la página de límites de velocidad.

Verificar qué velocidad se usó

El objeto usage de la respuesta incluye un campo speed que indica qué velocidad se usó, ya sea "fast" o "standard". En los modelos compatibles, el modo rápido no recurre silenciosamente a la velocidad estándar ante límites de velocidad o falta de capacidad (en su lugar recibirás un 429 o 529), por lo que cuando solicitas speed: "fast" en Claude Opus 4.8 o Claude Opus 4.7, usage.speed es "fast". En Claude Opus 4.6, donde el modo rápido no está disponible, las solicitudes con speed: "fast" se ejecutan a velocidad estándar y devuelven usage.speed: "standard". Verifica este campo para confirmar qué velocidad atendió una solicitud.

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

Para hacer seguimiento del uso y los costos del modo rápido en toda tu organización, consulta la API de uso y costos.

Reintentos y alternativa

Reintentos automáticos

Cuando se exceden los límites de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after. Los SDK de Anthropic reintentan automáticamente estas solicitudes hasta 2 veces de forma predeterminada (configurable con max_retries), esperando el tiempo especificado por el servidor antes de cada reintento. Dado que el modo rápido usa reposición continua de tokens, el tiempo de espera de retry-after suele ser corto y las solicitudes tienen éxito una vez que hay capacidad disponible.

Recurrir a la velocidad estándar

Esta sección cubre una alternativa opcional del lado del cliente cuando el modo rápido alcanza su límite de velocidad. Es independiente del comportamiento en Claude Opus 4.6, donde el modo rápido no está disponible y las solicitudes se ejecutan automáticamente a velocidad estándar.

Si prefieres recurrir a la velocidad estándar en lugar de esperar a que haya capacidad en el modo rápido, captura el error de límite de velocidad y reintenta sin speed: "fast". Establece max_retries en 0 en la solicitud rápida inicial para omitir los reintentos automáticos y fallar inmediatamente ante errores de límite de velocidad.

Recurrir de velocidad rápida a estándar resultará en un fallo de caché de prompts. Las solicitudes a diferentes velocidades no comparten prefijos en caché.

Dado que establecer max_retries en 0 también deshabilita los reintentos para otros errores transitorios (sobrecarga, errores internos del servidor), los siguientes ejemplos vuelven a emitir la solicitud original con reintentos predeterminados para esos casos.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Consideraciones

Almacenamiento en caché de prompts: Cambiar entre velocidad rápida y estándar invalida la caché de prompts. Las solicitudes a diferentes velocidades no comparten prefijos en caché.
Modelos compatibles: El modo rápido es compatible con Claude Opus 4.8 y Claude Opus 4.7 (modo rápido obsoleto; eliminación el 24 de julio de 2026, sin afectar al modelo en sí). En Claude Opus 4.6, las solicitudes con speed: "fast" no devuelven un error: se ejecutan a velocidad estándar y se facturan a tarifas estándar. En cualquier otro modelo, enviar speed: "fast" devuelve un error.
TTFT: Los beneficios del modo rápido se centran en los tokens de salida por segundo (OTPS), no en el tiempo hasta el primer token (TTFT).
API de lotes: El modo rápido no está disponible con la API de lotes.
Priority Tier: El modo rápido no está disponible con un compromiso de Priority Tier.
Claude Platform en AWS: El modo rápido no está disponible actualmente en Claude Platform en AWS.

Próximos pasos

Salidas estructuradas

Obtén resultados JSON validados de flujos de trabajo de agentes.

Precios

Conoce la estructura de precios de Anthropic para modelos y funcionalidades.

Esfuerzo

Controla cuántos tokens usa Claude al responder con el parámetro de esfuerzo, equilibrando la exhaustividad de la respuesta y la eficiencia de tokens.

Streaming de mensajes

Transmite respuestas de la API de Messages de forma incremental con eventos enviados por el servidor, incluidos deltas de texto, uso de herramientas y pensamiento extendido.

Was this page helpful?

MensajesCapacidades del modelo

Modo rápido (vista previa de investigación)

Obtén hasta 2,5 veces más tokens de salida por segundo con los modelos Claude Opus compatibles.

El modo rápido está en vista previa de investigación. Contacta a tu gerente de cuenta para solicitar acceso. Si no tienes un gerente de cuenta, únete a la lista de espera para el modo rápido.

Modelos compatibles

El modo rápido es compatible con los siguientes modelos:

Claude Opus 4.8 (claude-opus-4-8)
Claude Opus 4.7 (claude-opus-4-7)

Cómo funciona el modo rápido

El modo rápido ejecuta el mismo modelo con una configuración de inferencia más rápida. No hay cambios en la inteligencia ni en las capacidades.

Hasta 2,5 veces más tokens de salida por segundo en comparación con la velocidad estándar
Los beneficios de velocidad se centran en los "output tokens per second" (tokens de salida por segundo), o OTPS, no en el "time to first token" (tiempo hasta el primer token), o TTFT
Mismos pesos y comportamiento del modelo (no es un modelo diferente)
Compatible con streaming, donde la mejora en OTPS es más visible

Uso básico

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Precios

Modelo	Entrada	Salida
Claude Opus 4.8	$10 / MTok	$50 / MTok
Claude Opus 4.7	$30 / MTok	$150 / MTok

Los precios del modo rápido se acumulan con otros modificadores de precios:

Los multiplicadores de almacenamiento en caché de prompts se aplican sobre los precios del modo rápido
Los multiplicadores de residencia de datos se aplican sobre los precios del modo rápido

Para obtener detalles completos sobre los precios, consulta la página de precios.

Límites de velocidad

La respuesta incluye encabezados que indican el estado de tu límite de velocidad del modo rápido:

Encabezado	Descripción
`anthropic-fast-input-tokens-limit`	Máximo de tokens de entrada del modo rápido por minuto
`anthropic-fast-input-tokens-remaining`	Tokens de entrada del modo rápido restantes
`anthropic-fast-input-tokens-reset`	Momento en que se restablece el límite de tokens de entrada del modo rápido
`anthropic-fast-output-tokens-limit`	Máximo de tokens de salida del modo rápido por minuto
`anthropic-fast-output-tokens-remaining`	Tokens de salida del modo rápido restantes
`anthropic-fast-output-tokens-reset`	Momento en que se restablece el límite de tokens de salida del modo rápido

Para conocer los límites de velocidad específicos por nivel, consulta la página de límites de velocidad.

Verificar qué velocidad se usó

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

Para hacer seguimiento del uso y los costos del modo rápido en toda tu organización, consulta la API de uso y costos.

Reintentos y alternativa

Reintentos automáticos

Recurrir a la velocidad estándar

Recurrir de velocidad rápida a estándar resultará en un fallo de caché de prompts. Las solicitudes a diferentes velocidades no comparten prefijos en caché.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Consideraciones

Almacenamiento en caché de prompts: Cambiar entre velocidad rápida y estándar invalida la caché de prompts. Las solicitudes a diferentes velocidades no comparten prefijos en caché.
Modelos compatibles: El modo rápido es compatible con Claude Opus 4.8 y Claude Opus 4.7 (modo rápido obsoleto; eliminación el 24 de julio de 2026, sin afectar al modelo en sí). En Claude Opus 4.6, las solicitudes con speed: "fast" no devuelven un error: se ejecutan a velocidad estándar y se facturan a tarifas estándar. En cualquier otro modelo, enviar speed: "fast" devuelve un error.
TTFT: Los beneficios del modo rápido se centran en los tokens de salida por segundo (OTPS), no en el tiempo hasta el primer token (TTFT).
API de lotes: El modo rápido no está disponible con la API de lotes.
Priority Tier: El modo rápido no está disponible con un compromiso de Priority Tier.
Claude Platform en AWS: El modo rápido no está disponible actualmente en Claude Platform en AWS.

Próximos pasos

Salidas estructuradas

Obtén resultados JSON validados de flujos de trabajo de agentes.

Precios

Conoce la estructura de precios de Anthropic para modelos y funcionalidades.

Esfuerzo

Controla cuántos tokens usa Claude al responder con el parámetro de esfuerzo, equilibrando la exhaustividad de la respuesta y la eficiencia de tokens.

Streaming de mensajes

Transmite respuestas de la API de Messages de forma incremental con eventos enviados por el servidor, incluidos deltas de texto, uso de herramientas y pensamiento extendido.

Was this page helpful?

Modelos compatibles

Cómo funciona el modo rápido

Uso básico

Precios

Límites de velocidad

Verificar qué velocidad se usó

Reintentos y alternativa

Reintentos automáticos

Recurrir a la velocidad estándar

Consideraciones

Próximos pasos

Modelos compatibles

Cómo funciona el modo rápido

Uso básico

Precios

Límites de velocidad

Verificar qué velocidad se usó

Reintentos y alternativa

Reintentos automáticos

Recurrir a la velocidad estándar

Consideraciones

Próximos pasos

Modelos compatibles

Cómo funciona el modo rápido

Uso básico

Precios

Límites de velocidad

Verificar qué velocidad se usó

Reintentos y alternativa

Reintentos automáticos

Recurrir a la velocidad estándar

Consideraciones

Próximos pasos

Modelos compatibles

Cómo funciona el modo rápido

Uso básico

Precios

Límites de velocidad

Verificar qué velocidad se usó

Reintentos y alternativa

Reintentos automáticos

Recurrir a la velocidad estándar

Consideraciones

Próximos pasos