Loading...
    • Guía para desarrolladores
    • Referencia de API
    • MCP
    • Recursos
    • Notas de la versión
    Search...
    ⌘K
    Primeros pasos
    Introducción a ClaudeInicio rápido
    Modelos y precios
    Descripción general de modelosElegir un modeloNovedades en Claude 4.6Guía de migraciónModelos deprecadosPrecios
    Crear con Claude
    Descripción general de característicasUsar la API de MessagesManejar razones de paradaMejores prácticas de prompting
    Capacidades del modelo
    Extended thinkingAdaptive thinkingEsfuerzoModo rápido (vista previa de investigación)Salidas estructuradasCitasStreaming de MessagesProcesamiento por lotesSoporte de PDFResultados de búsquedaSoporte multilingüeEmbeddingsVisión
    Herramientas
    Descripción generalCómo implementar el uso de herramientasHerramienta de búsqueda webHerramienta de obtención webHerramienta de ejecución de códigoHerramienta de memoriaHerramienta BashHerramienta de uso de computadoraHerramienta de editor de texto
    Infraestructura de herramientas
    Búsqueda de herramientasLlamada de herramientas programáticaStreaming de herramientas de grano fino
    Gestión de contexto
    Ventanas de contextoCompactaciónEdición de contextoAlmacenamiento en caché de promptsConteo de tokens
    Archivos y activos
    API de archivos
    Agent Skills
    Descripción generalInicio rápidoMejores prácticasSkills para empresasUsar Skills con la API
    Agent SDK
    Descripción generalInicio rápidoTypeScript SDKTypeScript V2 (vista previa)Python SDKGuía de migración
    MCP en la API
    Conector MCPServidores MCP remotos
    Claude en plataformas de terceros
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingeniería de prompts
    Descripción generalGenerador de promptsUsar plantillas de promptsMejorador de promptsSer claro y directoUsar ejemplos (prompting multishot)Dejar que Claude piense (CoT)Usar etiquetas XMLDar a Claude un rol (prompts del sistema)Encadenar prompts complejosConsejos de contexto largoConsejos de extended thinking
    Probar y evaluar
    Definir criterios de éxitoDesarrollar casos de pruebaUsar la herramienta de evaluaciónReducir latencia
    Fortalecer guardarraíles
    Reducir alucinacionesAumentar consistencia de salidaMitigar jailbreaksRechazos de streamingReducir fuga de promptsMantener a Claude en personaje
    Administración y monitoreo
    Descripción general de Admin APIResidencia de datosEspacios de trabajoAPI de uso y costosAPI de análisis de Claude CodeRetención de datos cero
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Capacidades del modelo

    Modo rápido (vista previa de investigación)

    Mayor velocidad de salida para Claude Opus 4.6, entregando generación de tokens significativamente más rápida para flujos de trabajo sensibles a la latencia y agénticos.

    Was this page helpful?

    • Modelos compatibles
    • Cómo funciona el modo rápido
    • Uso básico
    • Precios
    • Límites de velocidad
    • Verificar qué velocidad se utilizó
    • Reintentos y respaldo
    • Reintentos automáticos
    • Retroceso a velocidad estándar
    • Consideraciones
    • Próximos pasos

    El modo rápido proporciona generación de tokens de salida significativamente más rápida para Claude Opus 4.6. Al establecer speed: "fast" en tu solicitud de API, obtienes hasta 2.5x más tokens de salida por segundo del mismo modelo con precios premium.

    El modo rápido está actualmente en vista previa de investigación. Únete a la lista de espera para solicitar acceso. La disponibilidad es limitada mientras recopilamos comentarios.

    Modelos compatibles

    El modo rápido es compatible con los siguientes modelos:

    • Claude Opus 4.6 (claude-opus-4-6)

    Cómo funciona el modo rápido

    El modo rápido ejecuta el mismo modelo con una configuración de inferencia más rápida. No hay cambios en la inteligencia o capacidades.

    • Hasta 2.5x más tokens de salida por segundo en comparación con la velocidad estándar
    • Los beneficios de velocidad se centran en tokens de salida por segundo (OTPS), no en tiempo hasta el primer token (TTFT)
    • Los mismos pesos del modelo y comportamiento (no es un modelo diferente)

    Uso básico

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 4096,
            "speed": "fast",
            "messages": [{
                "role": "user",
                "content": "Refactor this module to use dependency injection"
            }]
        }'

    Precios

    El modo rápido tiene un precio de 6x las tarifas estándar de Opus para indicaciones ≤200K tokens, y 12x las tarifas estándar de Opus para indicaciones > 200K tokens. La siguiente tabla muestra los precios para Claude Opus 4.6 con modo rápido:

    Ventana de contextoEntradaSalida
    ≤ 200K tokens de entrada$30 / MTok$150 / MTok
    > 200K tokens de entrada$60 / MTok$225 / MTok

    Los precios del modo rápido se apilan con otros modificadores de precios:

    • Los multiplicadores de almacenamiento en caché de indicaciones se aplican además de los precios del modo rápido
    • Los multiplicadores de residencia de datos se aplican además de los precios del modo rápido

    Para obtener detalles completos de precios, consulta la página de precios.

    Límites de velocidad

    El modo rápido tiene un límite de velocidad dedicado que es separado de los límites de velocidad estándar de Opus. A diferencia de la velocidad estándar, que tiene límites separados para tokens de entrada ≤200K y >200K, el modo rápido utiliza un único límite de velocidad que cubre el rango de contexto completo. Cuando se excede tu límite de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after que indica cuándo estará disponible la capacidad.

    La respuesta incluye encabezados que indican el estado de tu límite de velocidad del modo rápido:

    EncabezadoDescripción
    anthropic-fast-input-tokens-limitMáximo de tokens de entrada del modo rápido por minuto
    anthropic-fast-input-tokens-remainingTokens de entrada del modo rápido restantes
    anthropic-fast-input-tokens-resetHora en que se restablece el límite de tokens de entrada del modo rápido
    anthropic-fast-output-tokens-limitMáximo de tokens de salida del modo rápido por minuto
    anthropic-fast-output-tokens-remainingTokens de salida del modo rápido restantes
    anthropic-fast-output-tokens-resetHora en que se restablece el límite de tokens de salida del modo rápido

    Para límites de velocidad específicos de nivel, consulta la página de límites de velocidad.

    Verificar qué velocidad se utilizó

    El objeto usage de la respuesta incluye un campo speed que indica qué velocidad se utilizó, ya sea "fast" o "standard":

    Para rastrear el uso del modo rápido y los costos en toda tu organización, consulta la API de Uso y Costo.

    Reintentos y respaldo

    Reintentos automáticos

    Cuando se exceden los límites de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after. Los SDK de Anthropic reintentan automáticamente estas solicitudes hasta 2 veces por defecto (configurable a través de max_retries), esperando el retraso especificado por el servidor antes de cada reintento. Dado que el modo rápido utiliza reabastecimiento continuo de tokens, el retraso retry-after es típicamente corto y las solicitudes tienen éxito una vez que la capacidad está disponible.

    Retroceso a velocidad estándar

    Si prefieres retroceder a la velocidad estándar en lugar de esperar a que la capacidad del modo rápido esté disponible, captura el error de límite de velocidad y reintenta sin speed: "fast". Establece max_retries en 0 en la solicitud rápida inicial para omitir reintentos automáticos y fallar inmediatamente en errores de límite de velocidad.

    El retroceso del modo rápido al modo estándar resultará en una falla de caché de indicaciones. Las solicitudes a diferentes velocidades no comparten prefijos en caché.

    Dado que establecer max_retries en 0 también desactiva los reintentos para otros errores transitorios (sobrecargado, errores internos del servidor), los ejemplos a continuación vuelven a emitir la solicitud original con reintentos predeterminados para esos casos.

    Consideraciones

    • Almacenamiento en caché de indicaciones: Cambiar entre velocidad rápida y estándar invalida el caché de indicaciones. Las solicitudes a diferentes velocidades no comparten prefijos en caché.
    • Modelos compatibles: El modo rápido actualmente es compatible solo con Opus 4.6. Enviar speed: "fast" con un modelo no compatible devuelve un error.
    • TTFT: Los beneficios del modo rápido se centran en tokens de salida por segundo (OTPS), no en tiempo hasta el primer token (TTFT).
    • API de lotes: El modo rápido no está disponible con la API de lotes.
    • Nivel de prioridad: El modo rápido no está disponible con Nivel de prioridad.

    Próximos pasos

    Precios

    Ver información detallada de precios del modo rápido.

    Límites de velocidad

    Verificar niveles de límites de velocidad para el modo rápido.

    Parámetro de esfuerzo

    Controlar el uso de tokens con el parámetro de esfuerzo.

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 1024,
            "speed": "fast",
            "messages": [{"role": "user", "content": "Hello"}]
        }'
    
    {
      "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
      "type": "message",
      "role": "assistant",
      ...
      "usage": {
        "input_tokens": 523,
        "output_tokens": 1842,
        "speed": "fast"
      }
    }
    import anthropic
    
    client = anthropic.Anthropic()
    
    
    def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
        try:
            return client.beta.messages.create(**params, max_retries=max_retries)
        except anthropic.RateLimitError:
            if params.get("speed") == "fast":
                del params["speed"]
                return create_message_with_fast_fallback(**params)
            raise
        except (
            anthropic.InternalServerError,
            anthropic.OverloadedError,
            anthropic.APIConnectionError,
        ):
            if max_attempts > 1:
                return create_message_with_fast_fallback(
                    max_attempts=max_attempts - 1, **params
                )
            raise
    
    
    message = create_message_with_fast_fallback(
        model="claude-opus-4-6",
        max_tokens=1024,
        messages=[{"role": "user", "content": "Hello"}],
        betas=["fast-mode-2026-02-01"],
        speed="fast",
        max_retries=0,
    )