Claude Platform Docs
  • Mensajes
  • Agentes gestionados
  • Administración

Search...
⌘K

Log in
Límites de velocidad
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Referencia de API/Soporte y configuración

Límites de velocidad

Para mitigar el uso indebido y gestionar la capacidad de la API, existen límites sobre cuánto puede usar una organización la API de Claude.


Claude Platform en AWS: Se aplican los límites de velocidad de esta página. La facturación y los límites de gasto difieren: los límites de gasto no están disponibles, y la facturación se realiza a través de AWS Marketplace (no mediante compras de crédito de Anthropic). Las organizaciones en Claude Platform en AWS se ubican en el nivel Start y no cambian de nivel de uso automáticamente. Para solicitar límites más altos, contacta a tu representante de cuenta de Anthropic. La configuración de límites de velocidad por espacio de trabajo y el modo rápido no están disponibles en Claude Platform en AWS.

Existen dos tipos de límites:

  1. Los límites de gasto establecen un costo mensual máximo que una organización puede incurrir por el uso de la API.
  2. Los límites de velocidad establecen el número máximo de solicitudes a la API que una organización puede realizar durante un período de tiempo definido.

La API aplica límites configurados por el servicio a nivel de organización, pero también puedes establecer límites configurables por el usuario para los espacios de trabajo de tu organización.

Estos límites se aplican tanto al uso del nivel Standard como al del Priority Tier. Para obtener más información sobre Priority Tier, consulta Niveles de servicio.

Acerca de los límites de velocidad

  • Los límites están diseñados para prevenir el abuso de la API, minimizando al mismo tiempo el impacto en los patrones de uso habituales de los clientes.
  • Los límites se definen por nivel de uso. Tu organización se ubica en un nivel automáticamente y puede pasar a un nivel superior con el tiempo a medida que usas la API.
  • Los límites se establecen a nivel de organización. Puedes ver el nivel de tu organización y los límites actuales en la página Limits de la Claude Console.
  • Es posible que alcances los límites de velocidad en intervalos de tiempo más cortos. Por ejemplo, una tasa de 60 solicitudes por minuto (RPM) podría aplicarse como 1 solicitud por segundo. Las ráfagas cortas de solicitudes pueden superar el límite y provocar errores de límite de velocidad.
  • Los siguientes límites son los límites estándar para cada nivel. Si necesitas límites más altos, consulta Solicitar límites más altos.
  • La API utiliza el algoritmo de token bucket para aplicar los límites de velocidad. Esto significa que tu capacidad se repone continuamente hasta tu límite máximo, en lugar de restablecerse en intervalos fijos.
  • Todos los límites descritos aquí representan el uso máximo permitido, no mínimos garantizados. Estos límites están destinados a reducir el gasto excesivo no intencional y garantizar una distribución justa de los recursos entre los usuarios.

Límites de gasto

Cada uno de los niveles Start, Build y Scale tiene un tope de gasto mensual, que es el máximo que tu organización puede gastar en la API cada mes calendario. Una vez que alcanzas el tope de gasto de tu nivel, el uso de la API se pausa hasta el mes siguiente, a menos que solicites un límite más alto. Puedes ver el tope de gasto mensual de tu organización en la página Limits.

Nivel de usoTope de gasto mensual
Start$500
Build$1,000
Scale$200,000

Las organizaciones en el nivel Custom no tienen tope de gasto mensual; los límites se acuerdan con su equipo de cuenta.

También puedes establecer tu propio límite de gasto por debajo del tope de tu nivel para controlar los costos:

  1. 1

    Navega a la página Limits

    Ve a Settings > Limits en la Claude Console.

  2. 2

    Abre el editor de límite de gasto

    En la sección Spend limits, haz clic en Change Limit (o en Set spend limit si no hay ningún límite establecido actualmente).

  3. 3

    Ajusta tu límite de gasto

    Ingresa un nuevo valor. Tu límite de gasto no puede superar el tope de tu nivel actual.

Límites de velocidad

Los límites de velocidad para la Messages API se miden en solicitudes por minuto (RPM), tokens de entrada por minuto (ITPM) y tokens de salida por minuto (OTPM) para cada clase de modelo. Si superas cualquiera de los límites de velocidad, recibirás un error 429 que describe qué límite de velocidad se superó, junto con un encabezado retry-after que indica cuánto tiempo esperar.



También podrías encontrar errores 429 debido a límites de aceleración en la API si tu organización tiene un aumento brusco en el uso. Para evitar alcanzar los límites de aceleración, aumenta tu tráfico gradualmente y mantén patrones de uso consistentes.

ITPM con reconocimiento de caché

Muchos proveedores de API utilizan un límite combinado de "tokens por minuto" (TPM) que puede incluir todos los tokens, tanto en caché como no en caché, de entrada y de salida. Para la mayoría de los modelos de Claude, solo los tokens de entrada no almacenados en caché cuentan para tus límites de velocidad de ITPM. Esta es una ventaja clave que hace que los límites de velocidad sean efectivamente más altos de lo que podrían parecer inicialmente.

Los límites de velocidad de ITPM se estiman al comienzo de cada solicitud, y la estimación se ajusta durante la solicitud para reflejar el número real de tokens de entrada utilizados.

Esto es lo que cuenta para el ITPM:

  • input_tokens (tokens después del último punto de interrupción de caché) ✓ Cuentan para el ITPM
  • cache_creation_input_tokens (tokens que se escriben en la caché) ✓ Cuentan para el ITPM
  • cache_read_input_tokens (tokens leídos de la caché) ✗ NO cuentan para el ITPM en la mayoría de los modelos


El campo input_tokens solo representa los tokens que aparecen después de tu último punto de interrupción de caché, no todos los tokens de entrada de tu solicitud. Para calcular el total de tokens de entrada:

total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens

Esto significa que cuando tienes contenido en caché, input_tokens normalmente será mucho menor que tu entrada total. Por ejemplo, con un documento en caché de 200k tokens y una pregunta de usuario de 50 tokens, verías input_tokens: 50 aunque la entrada total sea de 200,050 tokens.

A efectos de límites de velocidad en la mayoría de los modelos, solo input_tokens + cache_creation_input_tokens cuentan para tu límite de ITPM, lo que hace que el almacenamiento en caché de prompts sea una forma efectiva de aumentar tu rendimiento efectivo.

Ejemplo: Con un límite de 2,000,000 ITPM y una tasa de aciertos de caché del 80%, podrías procesar efectivamente 10,000,000 de tokens de entrada totales por minuto (2M no en caché + 8M en caché), porque los tokens en caché no cuentan para tu límite de velocidad.



Claude Haiku 3.5 (marcado con † en las siguientes tablas de límites de velocidad) también cuenta cache_read_input_tokens para los límites de velocidad de ITPM.

Para todos los modelos sin el marcador †, los tokens de entrada en caché no cuentan para los límites de velocidad y se facturan a una tarifa reducida (10% del precio base de tokens de entrada). Esto significa que puedes lograr un rendimiento efectivo significativamente mayor utilizando el almacenamiento en caché de prompts.



Maximiza tus límites de velocidad con el almacenamiento en caché de prompts

Para aprovechar al máximo tus límites de velocidad, usa el almacenamiento en caché de prompts para contenido repetido como:

  • Instrucciones y prompts del sistema
  • Documentos de contexto grandes
  • Definiciones de herramientas
  • Historial de conversación

Con un almacenamiento en caché efectivo, puedes aumentar drásticamente tu rendimiento real sin aumentar tus límites de velocidad. Monitorea tu tasa de aciertos de caché en la página Usage para optimizar tu estrategia de almacenamiento en caché.

Los límites de velocidad de OTPM se evalúan en tiempo real a medida que se producen los tokens de salida, contando solo los tokens realmente generados. El parámetro max_tokens no influye en los cálculos del límite de velocidad de OTPM, por lo que no hay ninguna desventaja en cuanto a límites de velocidad al establecer un valor más alto de max_tokens.

Los límites de velocidad se aplican por separado para cada modelo; por lo tanto, puedes usar diferentes modelos hasta sus respectivos límites simultáneamente. Puedes verificar tus límites de velocidad actuales y su comportamiento en la Claude Console, o leer los límites configurados de forma programática con la Rate Limits API.



Actualmente, los límites de velocidad se comparten entre todos los valores de inference_geo. Las solicitudes con inference_geo: "us" e inference_geo: "global" consumen del mismo grupo de límites de velocidad.

* - El límite de velocidad de Opus es un límite total que se aplica al tráfico combinado de Claude Opus 4.8, Opus 4.7, Opus 4.6 y Opus 4.5.

** - El límite de velocidad de Sonnet 4.x es un límite total que se aplica al tráfico combinado de Sonnet 4.6 y Sonnet 4.5. Claude Sonnet 5 tiene un límite de velocidad separado y no forma parte de este grupo combinado.

† - El límite cuenta cache_read_input_tokens para el uso de ITPM.

Message Batches API

La Message Batches API tiene su propio conjunto de límites de velocidad que se comparten entre todos los modelos. Estos incluyen un límite de solicitudes por minuto (RPM) para todos los endpoints de la API y un límite en el número de solicitudes de lote que pueden estar en la cola de procesamiento al mismo tiempo. Una "solicitud de lote" aquí se refiere a una parte de un Message Batch. Puedes crear un Message Batch que contenga miles de solicitudes de lote, cada una de las cuales cuenta para este límite. Una solicitud de lote se considera parte de la cola de procesamiento cuando aún no ha sido procesada correctamente por el modelo.

Agentes gestionados

Los endpoints de Claude Managed Agents tienen límites de velocidad por organización. Estos límites son independientes de los límites de velocidad de la Messages API mencionados anteriormente.

OperaciónLímite
Endpoints de creación (por ejemplo, agentes, sesiones y entornos)300 solicitudes por minuto
Endpoints de lectura (por ejemplo, recuperar, listar y transmitir)1,200 solicitudes por minuto

Límites de velocidad del modo rápido

Al usar el modo rápido (vista previa de investigación) con speed: "fast" en Claude Opus 4.8 u Opus 4.7, se aplican límites de velocidad dedicados que son independientes de los límites de velocidad estándar de Opus. Cuando se superan los límites de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after. El modo rápido no está disponible en Claude Opus 4.6: las solicitudes a claude-opus-4-6 con speed: "fast" se ejecutan a velocidad estándar. Consulta Modo rápido.

La respuesta incluye encabezados anthropic-fast-* que indican el estado de tu límite de velocidad del modo rápido. Consulta Modo rápido para obtener detalles sobre estos encabezados.

Monitoreo de tus límites de velocidad en la Console

Puedes monitorear el uso de tus límites de velocidad en la página Usage de la Claude Console.

Además de proporcionar gráficos de tokens y solicitudes, la página Usage proporciona dos gráficos separados de límites de velocidad. Usa estos gráficos para ver qué margen tienes para crecer, cuándo podrías estar alcanzando el uso máximo, comprender mejor qué límites de velocidad solicitar o cómo puedes mejorar tus tasas de almacenamiento en caché. Los gráficos visualizan una serie de métricas para un límite de velocidad determinado (por ejemplo, por modelo):

  • El gráfico Rate Limit - Input Tokens incluye:
    • Máximo por hora de tokens de entrada no almacenados en caché por minuto
    • Tu límite de velocidad actual de tokens de entrada por minuto
    • La tasa de caché para tus tokens de entrada (es decir, el porcentaje de tokens de entrada leídos de la caché)
  • El gráfico Rate Limit - Output Tokens incluye:
    • Máximo por hora de tokens de salida por minuto
    • Tu límite de velocidad actual de tokens de salida por minuto

Solicitar límites más altos

Para solicitar límites de velocidad más altos o un tope de gasto mensual más alto, usa Request rate limit increase en la página Limits.



El equipo de soporte también puede aumentar los límites. Para necesidades urgentes, contacta a soporte.

Establecer límites más bajos para espacios de trabajo

Para obtener más información sobre los espacios de trabajo, consulta Espacios de trabajo.

Para proteger los espacios de trabajo de tu organización contra un posible uso excesivo, puedes establecer límites personalizados de gasto y de velocidad por espacio de trabajo.

Ejemplo: Si el límite de tu organización es de 40,000 tokens de entrada por minuto y 8,000 tokens de salida por minuto, podrías limitar un espacio de trabajo a 30,000 tokens de entrada por minuto. Esto protege a otros espacios de trabajo de un posible uso excesivo y garantiza una distribución más equitativa de los recursos en toda tu organización. Los tokens por minuto restantes no utilizados (o más, si ese espacio de trabajo no usa el límite) quedan disponibles para que otros espacios de trabajo los usen.

Nota:

  • No puedes establecer límites en el espacio de trabajo predeterminado.
  • Si no se establecen, los límites del espacio de trabajo coinciden con el límite de la organización.
  • Los límites del espacio de trabajo se establecen por tipo de limitador (como solicitudes por minuto, tokens de entrada por minuto o tokens de salida por minuto).
  • Los límites a nivel de organización siempre se aplican, incluso si la suma de los límites de los espacios de trabajo es mayor.

Para leer tus límites de velocidad actuales de organización y espacio de trabajo de forma programática, usa la Rate Limits API.

Encabezados de respuesta

La respuesta de la API incluye encabezados que te muestran el límite de velocidad aplicado, el uso actual y cuándo se restablecerá el límite.

Se devuelven los siguientes encabezados:

EncabezadoDescripción
retry-afterEl número de segundos que debes esperar hasta poder reintentar la solicitud. Los reintentos anteriores fallarán.
anthropic-ratelimit-requests-limitEl número máximo de solicitudes permitidas dentro de cualquier período de límite de velocidad.
anthropic-ratelimit-requests-remainingEl número de solicitudes restantes antes de alcanzar el límite de velocidad.
anthropic-ratelimit-requests-resetEl momento en que el límite de velocidad de solicitudes se repondrá por completo, proporcionado en formato RFC 3339.
anthropic-ratelimit-tokens-limitEl número máximo de tokens permitidos dentro de cualquier período de límite de velocidad.
anthropic-ratelimit-tokens-remainingEl número de tokens restantes (redondeado al millar más cercano) antes de alcanzar el límite de velocidad.
anthropic-ratelimit-tokens-resetEl momento en que el límite de velocidad de tokens se repondrá por completo, proporcionado en formato RFC 3339.
anthropic-ratelimit-input-tokens-limitEl número máximo de tokens de entrada permitidos dentro de cualquier período de límite de velocidad.
anthropic-ratelimit-input-tokens-remainingEl número de tokens de entrada restantes (redondeado al millar más cercano) antes de alcanzar el límite de velocidad.
anthropic-ratelimit-input-tokens-resetEl momento en que el límite de velocidad de tokens de entrada se repondrá por completo, proporcionado en formato RFC 3339.
anthropic-ratelimit-output-tokens-limitEl número máximo de tokens de salida permitidos dentro de cualquier período de límite de velocidad.
anthropic-ratelimit-output-tokens-remainingEl número de tokens de salida restantes (redondeado al millar más cercano) antes de alcanzar el límite de velocidad.
anthropic-ratelimit-output-tokens-resetEl momento en que el límite de velocidad de tokens de salida se repondrá por completo, proporcionado en formato RFC 3339.
anthropic-priority-input-tokens-limitEl número máximo de tokens de entrada de Priority Tier permitidos dentro de cualquier período de límite de velocidad. (Solo Priority Tier)
anthropic-priority-input-tokens-remainingEl número de tokens de entrada de Priority Tier restantes (redondeado al millar más cercano) antes de alcanzar el límite de velocidad. (Solo Priority Tier)
anthropic-priority-input-tokens-resetEl momento en que el límite de velocidad de tokens de entrada de Priority Tier se repondrá por completo, proporcionado en formato RFC 3339. (Solo Priority Tier)
anthropic-priority-output-tokens-limitEl número máximo de tokens de salida de Priority Tier permitidos dentro de cualquier período de límite de velocidad. (Solo Priority Tier)
anthropic-priority-output-tokens-remainingEl número de tokens de salida de Priority Tier restantes (redondeado al millar más cercano) antes de alcanzar el límite de velocidad. (Solo Priority Tier)
anthropic-priority-output-tokens-resetEl momento en que el límite de velocidad de tokens de salida de Priority Tier se repondrá por completo, proporcionado en formato RFC 3339. (Solo Priority Tier)

Los encabezados anthropic-ratelimit-tokens-* muestran los valores del límite más restrictivo actualmente en vigor. Por ejemplo, si has superado el límite de tokens por minuto del espacio de trabajo, los encabezados contendrán los valores del límite de velocidad de tokens por minuto del espacio de trabajo. Si no se aplican límites de espacio de trabajo, los encabezados devolverán el total de tokens restantes, donde el total es la suma de tokens de entrada y salida. Este enfoque garantiza que tengas visibilidad sobre la restricción más relevante en tu uso actual de la API.

Was this page helpful?

  • Acerca de los límites de velocidad
  • Límites de gasto
  • Límites de velocidad
  • ITPM con reconocimiento de caché
  • Message Batches API
  • Agentes gestionados
  • Límites de velocidad del modo rápido
  • Monitoreo de tus límites de velocidad en la Console
  • Solicitar límites más altos
  • Establecer límites más bajos para espacios de trabajo
  • Encabezados de respuesta