Referencia de APISoporte y configuración

Niveles de servicio

Los diferentes niveles de servicio te permiten equilibrar la disponibilidad, el rendimiento y los costos predecibles según las necesidades de tu aplicación.

Los compromisos de capacidad de Priority Tier ya no están disponibles para su compra. Las organizaciones con un compromiso existente pueden seguir usando Priority Tier hasta la fecha de finalización de su contrato, y esta página permanece disponible como referencia para ellas. Si necesitas capacidad garantizada, contacta al equipo de ventas.

Anthropic ofrece tres "service tiers" (niveles de servicio):

Priority Tier: Disponible solo para organizaciones con un compromiso de capacidad existente
Standard: Nivel predeterminado tanto para pruebas piloto como para escalar casos de uso cotidianos
Batch: Ideal para flujos de trabajo asíncronos que pueden esperar o que se benefician de estar fuera de tu capacidad normal

Nivel Standard

El nivel standard es el nivel de servicio predeterminado para todas las solicitudes de la API. La API prioriza estas solicitudes junto con todas las demás solicitudes con disponibilidad de mejor esfuerzo.

Priority Tier

La API prioriza las solicitudes de este nivel por encima de todas las demás. Esta priorización ayuda a minimizar los errores de "servidor sobrecargado", incluso durante los momentos de mayor demanda.

Para obtener más información, consulta Compromisos existentes de Priority Tier.

Cómo se asignan los niveles a las solicitudes

Al procesar una solicitud, Anthropic decide asignarla a Priority Tier en los siguientes escenarios:

Tu organización tiene suficiente capacidad de tokens de entrada por minuto en Priority Tier
Tu organización tiene suficiente capacidad de tokens de salida por minuto en Priority Tier

Anthropic contabiliza el uso contra la capacidad de Priority Tier de la siguiente manera:

Tokens de entrada

Las lecturas de caché cuentan como 0.1 tokens por cada token leído de la caché
Las escrituras en caché cuentan como 1.25 tokens por cada token escrito en la caché con un TTL de 5 minutos
Las escrituras en caché cuentan como 2.00 tokens por cada token escrito en la caché con un TTL de 1 hora
Para solicitudes de inferencia solo en EE. UU. (inference_geo: "us") en Claude Opus 4.6, Claude Sonnet 4.6 y modelos posteriores, los tokens de entrada cuentan como 1.1 tokens por token
Todos los demás tokens de entrada cuentan como 1 token por token

Tokens de salida

Para solicitudes de inferencia solo en EE. UU. (inference_geo: "us") en Claude Opus 4.6, Claude Sonnet 4.6 y modelos posteriores, los tokens de salida cuentan como 1.1 tokens por token
Todos los demás tokens de salida cuentan como 1 token por token

De lo contrario, las solicitudes se procesan en el nivel standard.

Estas tasas de consumo reflejan el precio relativo de cada tipo de token. Por ejemplo, la inferencia solo en EE. UU. tiene un precio de 1.1x en Opus 4.6, Sonnet 4.6 y modelos posteriores, por lo que cada token consumido con inference_geo: "us" descuenta 1.1 tokens de tu capacidad de Priority Tier.

Las solicitudes asignadas a Priority Tier consumen tanto de la capacidad de Priority Tier como de los límites de velocidad regulares. Si atender la solicitud excediera los límites de velocidad, la solicitud se rechaza.

Uso de los niveles de servicio

Puedes controlar qué niveles de servicio se pueden usar para una solicitud configurando el parámetro service_tier:

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

El parámetro service_tier acepta los siguientes valores:

"auto" (predeterminado): Usa la capacidad de Priority Tier si está disponible, recurriendo a tu otra capacidad si no lo está
"standard_only": Solo usa la capacidad del nivel standard, útil si no quieres usar tu capacidad de Priority Tier

El objeto usage de la respuesta también incluye el nivel de servicio asignado a la solicitud:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Esto te permite determinar qué nivel de servicio se asignó a la solicitud.

Al solicitar service_tier="auto" con un modelo que tiene un compromiso de Priority Tier, estos encabezados de respuesta proporcionan información útil:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Puedes usar la presencia de estos encabezados para detectar si tu solicitud era elegible para Priority Tier, incluso si superó el límite.

Compromisos existentes de Priority Tier

Un compromiso de Priority Tier consiste en:

Un número de tokens de entrada por minuto
Un número de tokens de salida por minuto
Una duración del compromiso (1, 3, 6 o 12 meses)
Una versión específica del modelo

Priority Tier apunta a un 99.5% de tiempo de actividad con recursos computacionales priorizados. Las solicitudes que superan tu capacidad comprometida recurren automáticamente al nivel standard.

Modelos compatibles

Priority Tier es compatible con todos los modelos de Claude disponibles (incluidos Claude Fable 5 y Claude Opus 4.8), excepto Claude Sonnet 5, Claude Mythos Preview y Claude Mythos 5.

Consulta la descripción general de modelos para obtener más detalles sobre los modelos disponibles.

Was this page helpful?

Referencia de APISoporte y configuración

Niveles de servicio

Los diferentes niveles de servicio te permiten equilibrar la disponibilidad, el rendimiento y los costos predecibles según las necesidades de tu aplicación.

Anthropic ofrece tres "service tiers" (niveles de servicio):

Priority Tier: Disponible solo para organizaciones con un compromiso de capacidad existente
Standard: Nivel predeterminado tanto para pruebas piloto como para escalar casos de uso cotidianos
Batch: Ideal para flujos de trabajo asíncronos que pueden esperar o que se benefician de estar fuera de tu capacidad normal

Nivel Standard

Priority Tier

Para obtener más información, consulta Compromisos existentes de Priority Tier.

Cómo se asignan los niveles a las solicitudes

Al procesar una solicitud, Anthropic decide asignarla a Priority Tier en los siguientes escenarios:

Tu organización tiene suficiente capacidad de tokens de entrada por minuto en Priority Tier
Tu organización tiene suficiente capacidad de tokens de salida por minuto en Priority Tier

Anthropic contabiliza el uso contra la capacidad de Priority Tier de la siguiente manera:

Tokens de entrada

Las lecturas de caché cuentan como 0.1 tokens por cada token leído de la caché
Las escrituras en caché cuentan como 1.25 tokens por cada token escrito en la caché con un TTL de 5 minutos
Las escrituras en caché cuentan como 2.00 tokens por cada token escrito en la caché con un TTL de 1 hora
Para solicitudes de inferencia solo en EE. UU. (inference_geo: "us") en Claude Opus 4.6, Claude Sonnet 4.6 y modelos posteriores, los tokens de entrada cuentan como 1.1 tokens por token
Todos los demás tokens de entrada cuentan como 1 token por token

Tokens de salida

Para solicitudes de inferencia solo en EE. UU. (inference_geo: "us") en Claude Opus 4.6, Claude Sonnet 4.6 y modelos posteriores, los tokens de salida cuentan como 1.1 tokens por token
Todos los demás tokens de salida cuentan como 1 token por token

De lo contrario, las solicitudes se procesan en el nivel standard.

Uso de los niveles de servicio

Puedes controlar qué niveles de servicio se pueden usar para una solicitud configurando el parámetro service_tier:

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

El parámetro service_tier acepta los siguientes valores:

"auto" (predeterminado): Usa la capacidad de Priority Tier si está disponible, recurriendo a tu otra capacidad si no lo está
"standard_only": Solo usa la capacidad del nivel standard, útil si no quieres usar tu capacidad de Priority Tier

El objeto usage de la respuesta también incluye el nivel de servicio asignado a la solicitud:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Esto te permite determinar qué nivel de servicio se asignó a la solicitud.

Al solicitar service_tier="auto" con un modelo que tiene un compromiso de Priority Tier, estos encabezados de respuesta proporcionan información útil:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Puedes usar la presencia de estos encabezados para detectar si tu solicitud era elegible para Priority Tier, incluso si superó el límite.

Compromisos existentes de Priority Tier

Un compromiso de Priority Tier consiste en:

Un número de tokens de entrada por minuto
Un número de tokens de salida por minuto
Una duración del compromiso (1, 3, 6 o 12 meses)
Una versión específica del modelo

Priority Tier apunta a un 99.5% de tiempo de actividad con recursos computacionales priorizados. Las solicitudes que superan tu capacidad comprometida recurren automáticamente al nivel standard.

Modelos compatibles

Priority Tier es compatible con todos los modelos de Claude disponibles (incluidos Claude Fable 5 y Claude Opus 4.8), excepto Claude Sonnet 5, Claude Mythos Preview y Claude Mythos 5.

Consulta la descripción general de modelos para obtener más detalles sobre los modelos disponibles.

Was this page helpful?

Nivel Standard

Priority Tier

Cómo se asignan los niveles a las solicitudes

Uso de los niveles de servicio

Compromisos existentes de Priority Tier

Modelos compatibles

Nivel Standard

Priority Tier

Cómo se asignan los niveles a las solicitudes

Uso de los niveles de servicio

Compromisos existentes de Priority Tier

Modelos compatibles

Nivel Standard

Priority Tier

Cómo se asignan los niveles a las solicitudes

Uso de los niveles de servicio

Compromisos existentes de Priority Tier

Modelos compatibles

Nivel Standard

Priority Tier

Cómo se asignan los niveles a las solicitudes

Uso de los niveles de servicio

Compromisos existentes de Priority Tier

Modelos compatibles