Claude Platform en AWS: Se aplican los límites de velocidad de esta página. La facturación y los límites de gasto difieren: los límites de gasto no están disponibles, y la facturación se realiza a través de AWS Marketplace (no mediante compras de crédito de Anthropic). Las organizaciones en Claude Platform en AWS se ubican en el nivel Start y no cambian de nivel de uso automáticamente. Para solicitar límites más altos, contacta a tu representante de cuenta de Anthropic. La configuración de límites de velocidad por espacio de trabajo y el modo rápido no están disponibles en Claude Platform en AWS.
Existen dos tipos de límites:
La API aplica límites configurados por el servicio a nivel de organización, pero también puedes establecer límites configurables por el usuario para los espacios de trabajo de tu organización.
Estos límites se aplican tanto al uso del nivel Standard como al del Priority Tier. Para obtener más información sobre Priority Tier, consulta Niveles de servicio.
Cada uno de los niveles Start, Build y Scale tiene un tope de gasto mensual, que es el máximo que tu organización puede gastar en la API cada mes calendario. Una vez que alcanzas el tope de gasto de tu nivel, el uso de la API se pausa hasta el mes siguiente, a menos que solicites un límite más alto. Puedes ver el tope de gasto mensual de tu organización en la página Limits.
| Nivel de uso | Tope de gasto mensual |
|---|---|
| Start | $500 |
| Build | $1,000 |
| Scale | $200,000 |
Las organizaciones en el nivel Custom no tienen tope de gasto mensual; los límites se acuerdan con su equipo de cuenta.
También puedes establecer tu propio límite de gasto por debajo del tope de tu nivel para controlar los costos:
Navega a la página Limits
Ve a Settings > Limits en la Claude Console.
Abre el editor de límite de gasto
En la sección Spend limits, haz clic en Change Limit (o en Set spend limit si no hay ningún límite establecido actualmente).
Ajusta tu límite de gasto
Ingresa un nuevo valor. Tu límite de gasto no puede superar el tope de tu nivel actual.
Los límites de velocidad para la Messages API se miden en solicitudes por minuto (RPM), tokens de entrada por minuto (ITPM) y tokens de salida por minuto (OTPM) para cada clase de modelo.
Si superas cualquiera de los límites de velocidad, recibirás un error 429 que describe qué límite de velocidad se superó, junto con un encabezado retry-after que indica cuánto tiempo esperar.
También podrías encontrar errores 429 debido a límites de aceleración en la API si tu organización tiene un aumento brusco en el uso. Para evitar alcanzar los límites de aceleración, aumenta tu tráfico gradualmente y mantén patrones de uso consistentes.
Muchos proveedores de API utilizan un límite combinado de "tokens por minuto" (TPM) que puede incluir todos los tokens, tanto en caché como no en caché, de entrada y de salida. Para la mayoría de los modelos de Claude, solo los tokens de entrada no almacenados en caché cuentan para tus límites de velocidad de ITPM. Esta es una ventaja clave que hace que los límites de velocidad sean efectivamente más altos de lo que podrían parecer inicialmente.
Los límites de velocidad de ITPM se estiman al comienzo de cada solicitud, y la estimación se ajusta durante la solicitud para reflejar el número real de tokens de entrada utilizados.
Esto es lo que cuenta para el ITPM:
input_tokens (tokens después del último punto de interrupción de caché) ✓ Cuentan para el ITPMcache_creation_input_tokens (tokens que se escriben en la caché) ✓ Cuentan para el ITPMcache_read_input_tokens (tokens leídos de la caché) ✗ NO cuentan para el ITPM en la mayoría de los modelosEl campo input_tokens solo representa los tokens que aparecen después de tu último punto de interrupción de caché, no todos los tokens de entrada de tu solicitud. Para calcular el total de tokens de entrada:
total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokensEsto significa que cuando tienes contenido en caché, input_tokens normalmente será mucho menor que tu entrada total. Por ejemplo, con un documento en caché de 200k tokens y una pregunta de usuario de 50 tokens, verías input_tokens: 50 aunque la entrada total sea de 200,050 tokens.
A efectos de límites de velocidad en la mayoría de los modelos, solo input_tokens + cache_creation_input_tokens cuentan para tu límite de ITPM, lo que hace que el almacenamiento en caché de prompts sea una forma efectiva de aumentar tu rendimiento efectivo.
Ejemplo: Con un límite de 2,000,000 ITPM y una tasa de aciertos de caché del 80%, podrías procesar efectivamente 10,000,000 de tokens de entrada totales por minuto (2M no en caché + 8M en caché), porque los tokens en caché no cuentan para tu límite de velocidad.
Claude Haiku 3.5 (marcado con † en las siguientes tablas de límites de velocidad) también cuenta cache_read_input_tokens para los límites de velocidad de ITPM.
Para todos los modelos sin el marcador †, los tokens de entrada en caché no cuentan para los límites de velocidad y se facturan a una tarifa reducida (10% del precio base de tokens de entrada). Esto significa que puedes lograr un rendimiento efectivo significativamente mayor utilizando el almacenamiento en caché de prompts.
Maximiza tus límites de velocidad con el almacenamiento en caché de prompts
Para aprovechar al máximo tus límites de velocidad, usa el almacenamiento en caché de prompts para contenido repetido como:
Con un almacenamiento en caché efectivo, puedes aumentar drásticamente tu rendimiento real sin aumentar tus límites de velocidad. Monitorea tu tasa de aciertos de caché en la página Usage para optimizar tu estrategia de almacenamiento en caché.
Los límites de velocidad de OTPM se evalúan en tiempo real a medida que se producen los tokens de salida, contando solo los tokens realmente generados. El parámetro max_tokens no influye en los cálculos del límite de velocidad de OTPM, por lo que no hay ninguna desventaja en cuanto a límites de velocidad al establecer un valor más alto de max_tokens.
Los límites de velocidad se aplican por separado para cada modelo; por lo tanto, puedes usar diferentes modelos hasta sus respectivos límites simultáneamente. Puedes verificar tus límites de velocidad actuales y su comportamiento en la Claude Console, o leer los límites configurados de forma programática con la Rate Limits API.
Actualmente, los límites de velocidad se comparten entre todos los valores de inference_geo. Las solicitudes con inference_geo: "us" e inference_geo: "global" consumen del mismo grupo de límites de velocidad.
* - El límite de velocidad de Opus es un límite total que se aplica al tráfico combinado de Claude Opus 4.8, Opus 4.7, Opus 4.6 y Opus 4.5.
** - El límite de velocidad de Sonnet 4.x es un límite total que se aplica al tráfico combinado de Sonnet 4.6 y Sonnet 4.5. Claude Sonnet 5 tiene un límite de velocidad separado y no forma parte de este grupo combinado.
† - El límite cuenta cache_read_input_tokens para el uso de ITPM.
La Message Batches API tiene su propio conjunto de límites de velocidad que se comparten entre todos los modelos. Estos incluyen un límite de solicitudes por minuto (RPM) para todos los endpoints de la API y un límite en el número de solicitudes de lote que pueden estar en la cola de procesamiento al mismo tiempo. Una "solicitud de lote" aquí se refiere a una parte de un Message Batch. Puedes crear un Message Batch que contenga miles de solicitudes de lote, cada una de las cuales cuenta para este límite. Una solicitud de lote se considera parte de la cola de procesamiento cuando aún no ha sido procesada correctamente por el modelo.
Los endpoints de Claude Managed Agents tienen límites de velocidad por organización. Estos límites son independientes de los límites de velocidad de la Messages API mencionados anteriormente.
| Operación | Límite |
|---|---|
| Endpoints de creación (por ejemplo, agentes, sesiones y entornos) | 300 solicitudes por minuto |
| Endpoints de lectura (por ejemplo, recuperar, listar y transmitir) | 1,200 solicitudes por minuto |
Al usar el modo rápido (vista previa de investigación) con speed: "fast" en Claude Opus 4.8 u Opus 4.7, se aplican límites de velocidad dedicados que son independientes de los límites de velocidad estándar de Opus. Cuando se superan los límites de velocidad del modo rápido, la API devuelve un error 429 con un encabezado retry-after. El modo rápido no está disponible en Claude Opus 4.6: las solicitudes a claude-opus-4-6 con speed: "fast" se ejecutan a velocidad estándar. Consulta Modo rápido.
La respuesta incluye encabezados anthropic-fast-* que indican el estado de tu límite de velocidad del modo rápido. Consulta Modo rápido para obtener detalles sobre estos encabezados.
Puedes monitorear el uso de tus límites de velocidad en la página Usage de la Claude Console.
Además de proporcionar gráficos de tokens y solicitudes, la página Usage proporciona dos gráficos separados de límites de velocidad. Usa estos gráficos para ver qué margen tienes para crecer, cuándo podrías estar alcanzando el uso máximo, comprender mejor qué límites de velocidad solicitar o cómo puedes mejorar tus tasas de almacenamiento en caché. Los gráficos visualizan una serie de métricas para un límite de velocidad determinado (por ejemplo, por modelo):
Para solicitar límites de velocidad más altos o un tope de gasto mensual más alto, usa Request rate limit increase en la página Limits.
El equipo de soporte también puede aumentar los límites. Para necesidades urgentes, contacta a soporte.
Para obtener más información sobre los espacios de trabajo, consulta Espacios de trabajo.
Para proteger los espacios de trabajo de tu organización contra un posible uso excesivo, puedes establecer límites personalizados de gasto y de velocidad por espacio de trabajo.
Ejemplo: Si el límite de tu organización es de 40,000 tokens de entrada por minuto y 8,000 tokens de salida por minuto, podrías limitar un espacio de trabajo a 30,000 tokens de entrada por minuto. Esto protege a otros espacios de trabajo de un posible uso excesivo y garantiza una distribución más equitativa de los recursos en toda tu organización. Los tokens por minuto restantes no utilizados (o más, si ese espacio de trabajo no usa el límite) quedan disponibles para que otros espacios de trabajo los usen.
Nota:
Para leer tus límites de velocidad actuales de organización y espacio de trabajo de forma programática, usa la Rate Limits API.
La respuesta de la API incluye encabezados que te muestran el límite de velocidad aplicado, el uso actual y cuándo se restablecerá el límite.
Se devuelven los siguientes encabezados:
| Encabezado | Descripción |
|---|---|
retry-after | El número de segundos que debes esperar hasta poder reintentar la solicitud. Los reintentos anteriores fallarán. |
anthropic-ratelimit-requests-limit | El número máximo de solicitudes permitidas dentro de cualquier período de límite de velocidad. |
anthropic-ratelimit-requests-remaining | El número de solicitudes restantes antes de alcanzar el límite de velocidad. |
anthropic-ratelimit-requests-reset | El momento en que el límite de velocidad de solicitudes se repondrá por completo, proporcionado en formato RFC 3339. |
anthropic-ratelimit-tokens-limit | El número máximo de tokens permitidos dentro de cualquier período de límite de velocidad. |
anthropic-ratelimit-tokens-remaining | El número de tokens restantes (redondeado al millar más cercano) antes de alcanzar el límite de velocidad. |
anthropic-ratelimit-tokens-reset | El momento en que el límite de velocidad de tokens se repondrá por completo, proporcionado en formato RFC 3339. |
anthropic-ratelimit-input-tokens-limit | El número máximo de tokens de entrada permitidos dentro de cualquier período de límite de velocidad. |
anthropic-ratelimit-input-tokens-remaining | El número de tokens de entrada restantes (redondeado al millar más cercano) antes de alcanzar el límite de velocidad. |
anthropic-ratelimit-input-tokens-reset | El momento en que el límite de velocidad de tokens de entrada se repondrá por completo, proporcionado en formato RFC 3339. |
anthropic-ratelimit-output-tokens-limit | El número máximo de tokens de salida permitidos dentro de cualquier período de límite de velocidad. |
anthropic-ratelimit-output-tokens-remaining | El número de tokens de salida restantes (redondeado al millar más cercano) antes de alcanzar el límite de velocidad. |
anthropic-ratelimit-output-tokens-reset | El momento en que el límite de velocidad de tokens de salida se repondrá por completo, proporcionado en formato RFC 3339. |
anthropic-priority-input-tokens-limit | El número máximo de tokens de entrada de Priority Tier permitidos dentro de cualquier período de límite de velocidad. (Solo Priority Tier) |
anthropic-priority-input-tokens-remaining | El número de tokens de entrada de Priority Tier restantes (redondeado al millar más cercano) antes de alcanzar el límite de velocidad. (Solo Priority Tier) |
anthropic-priority-input-tokens-reset | El momento en que el límite de velocidad de tokens de entrada de Priority Tier se repondrá por completo, proporcionado en formato RFC 3339. (Solo Priority Tier) |
anthropic-priority-output-tokens-limit | El número máximo de tokens de salida de Priority Tier permitidos dentro de cualquier período de límite de velocidad. (Solo Priority Tier) |
anthropic-priority-output-tokens-remaining | El número de tokens de salida de Priority Tier restantes (redondeado al millar más cercano) antes de alcanzar el límite de velocidad. (Solo Priority Tier) |
anthropic-priority-output-tokens-reset | El momento en que el límite de velocidad de tokens de salida de Priority Tier se repondrá por completo, proporcionado en formato RFC 3339. (Solo Priority Tier) |
Los encabezados anthropic-ratelimit-tokens-* muestran los valores del límite más restrictivo actualmente en vigor. Por ejemplo, si has superado el límite de tokens por minuto del espacio de trabajo, los encabezados contendrán los valores del límite de velocidad de tokens por minuto del espacio de trabajo. Si no se aplican límites de espacio de trabajo, los encabezados devolverán el total de tokens restantes, donde el total es la suma de tokens de entrada y salida. Este enfoque garantiza que tengas visibilidad sobre la restricción más relevante en tu uso actual de la API.
Was this page helpful?