Loading...
  • Construir
  • Administración
  • Modelos y precios
  • SDKs de cliente
  • Referencia de API
Search...
⌘K
Log in
Modo rápido (beta: vista previa de investigación)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Construir/Capacidades del modelo

Modo rápido (beta: vista previa de investigación)

Velocidad de salida más alta para Claude Opus 4.6, proporcionando generación de tokens significativamente más rápida para flujos de trabajo sensibles a la latencia y agénticos.

El modo rápido proporciona generación de tokens de salida significativamente más rápida para Claude Opus 4.6. Al establecer speed: "fast" en tu solicitud de API, obtienes hasta 2.5x más tokens de salida por segundo del mismo modelo con precios premium.

El modo rápido está en beta (vista previa de investigación). Únete a la lista de espera para solicitar acceso. La disponibilidad es limitada mientras Anthropic recopila comentarios.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

Modelos compatibles

El modo rápido es compatible con los siguientes modelos:

  • Claude Opus 4.6 (claude-opus-4-6)

Cómo funciona el modo rápido

El modo rápido ejecuta el mismo modelo con una configuración de inferencia más rápida. No hay cambios en la inteligencia o capacidades.

  • Hasta 2.5x más tokens de salida por segundo en comparación con la velocidad estándar
  • Los beneficios de velocidad se centran en tokens de salida por segundo (OTPS), no en tiempo hasta el primer token (TTFT)
  • Los mismos pesos del modelo y comportamiento (no es un modelo diferente)

Uso básico

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Precios

El modo rápido tiene un precio de 6x las tarifas estándar de Opus en toda la ventana de contexto, incluidas las solicitudes con más de 200k tokens de entrada. La siguiente tabla muestra los precios para Claude Opus 4.6 con modo rápido:

EntradaSalida
$30 / MTok$150 / MTok

Los precios del modo rápido se apilan con otros modificadores de precios:

  • Los multiplicadores de almacenamiento en caché de indicaciones se aplican además de los precios del modo rápido
  • Los multiplicadores de residencia de datos se aplican además de los precios del modo rápido

Para obtener detalles completos de precios, consulta la página de precios.

Límites de velocidad

El modo rápido tiene un límite de velocidad dedicado que es separado de los límites de velocidad estándar de Opus. Cuando se excede tu límite de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after que indica cuándo estará disponible la capacidad.

La respuesta incluye encabezados que indican el estado de tu límite de velocidad del modo rápido:

EncabezadoDescripción
anthropic-fast-input-tokens-limitMáximo de tokens de entrada del modo rápido por minuto
anthropic-fast-input-tokens-remainingTokens de entrada del modo rápido restantes
anthropic-fast-input-tokens-resetHora en la que se restablece el límite de tokens de entrada del modo rápido
anthropic-fast-output-tokens-limitMáximo de tokens de salida del modo rápido por minuto
anthropic-fast-output-tokens-remainingTokens de salida del modo rápido restantes
anthropic-fast-output-tokens-resetHora en la que se restablece el límite de tokens de salida del modo rápido

Para límites de velocidad específicos del nivel, consulta la página de límites de velocidad.

Verificar qué velocidad se utilizó

El objeto usage de la respuesta incluye un campo speed que indica qué velocidad se utilizó, ya sea "fast" o "standard":

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"
Output
{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

Para rastrear el uso del modo rápido y los costos en toda tu organización, consulta la API de Uso y Costo.

Reintentos y respaldo

Reintentos automáticos

Cuando se exceden los límites de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after. Los SDK de Anthropic reintentan automáticamente estas solicitudes hasta 2 veces por defecto (configurable mediante max_retries), esperando el retraso especificado por el servidor antes de cada reintento. Dado que el modo rápido utiliza reposición continua de tokens, el retraso retry-after es típicamente corto y las solicitudes tienen éxito una vez que la capacidad está disponible.

Respaldo a velocidad estándar

Si prefieres respaldarte a velocidad estándar en lugar de esperar a que esté disponible la capacidad del modo rápido, captura el error de límite de velocidad e intenta nuevamente sin speed: "fast". Establece max_retries en 0 en la solicitud rápida inicial para omitir reintentos automáticos y fallar inmediatamente en errores de límite de velocidad.

El respaldo del modo rápido al estándar resultará en una falta de caché de indicación. Las solicitudes a diferentes velocidades no comparten prefijos en caché.

Dado que establecer max_retries en 0 también desactiva los reintentos para otros errores transitorios (sobrecargado, errores internos del servidor), los ejemplos a continuación vuelven a emitir la solicitud original con reintentos predeterminados para esos casos.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Consideraciones

  • Almacenamiento en caché de indicaciones: Cambiar entre velocidad rápida y estándar invalida el caché de indicaciones. Las solicitudes a diferentes velocidades no comparten prefijos en caché.
  • Modelos compatibles: El modo rápido actualmente es compatible solo con Opus 4.6. Enviar speed: "fast" con un modelo no compatible devuelve un error.
  • TTFT: Los beneficios del modo rápido se centran en tokens de salida por segundo (OTPS), no en tiempo hasta el primer token (TTFT).
  • API de lotes: El modo rápido no está disponible con la API de lotes.
  • Nivel de prioridad: El modo rápido no está disponible con Nivel de prioridad.

Próximos pasos

Precios

Ver información detallada de precios del modo rápido.

Límites de velocidad

Verificar niveles de límites de velocidad para el modo rápido.

Parámetro de esfuerzo

Controlar el uso de tokens con el parámetro de esfuerzo.

Was this page helpful?

  • Modelos compatibles
  • Cómo funciona el modo rápido
  • Uso básico
  • Precios
  • Límites de velocidad
  • Verificar qué velocidad se utilizó
  • Reintentos y respaldo
  • Reintentos automáticos
  • Respaldo a velocidad estándar
  • Consideraciones
  • Próximos pasos