Esta función es elegible para Zero Data Retention (ZDR). Cuando tu organización tiene un acuerdo de ZDR, los datos enviados a través de esta función no se almacenan después de que se devuelve la respuesta de la API.
A medida que las conversaciones crecen, eventualmente te acercarás a los límites de la ventana de contexto. Para conversaciones de larga duración y flujos de trabajo agénticos, la compactación del lado del servidor es la estrategia principal para la gestión del contexto.
La "context window" (ventana de contexto) se refiere a todo el texto que un modelo de lenguaje puede referenciar al generar una respuesta, incluida la propia respuesta. Esto es diferente del gran corpus de datos con el que se entrenó el modelo de lenguaje, y en su lugar representa una "memoria de trabajo" para el modelo. Una ventana de contexto más grande permite que el modelo maneje indicaciones más complejas y extensas, pero más contexto no es automáticamente mejor. A medida que crece el recuento de tokens, la precisión y la capacidad de recuperación se degradan, un fenómeno conocido como context rot (deterioro del contexto). Esto hace que curar lo que está en el contexto sea tan importante como cuánto espacio hay disponible.
Para obtener más información sobre por qué los contextos largos se degradan y cómo diseñar soluciones para ello, consulta Effective context engineering.
El siguiente diagrama ilustra el comportamiento estándar de la ventana de contexto para solicitudes de API1:
1Las interfaces de chat como claude.ai también pueden gestionar la ventana de contexto de forma rotativa, siguiendo el principio de "primero en entrar, primero en salir".
Todo lo que está en la solicitud cuenta para la ventana de contexto: la indicación del sistema, cada mensaje en messages (incluidos los resultados de herramientas, imágenes y documentos) y tus definiciones de herramientas. La salida que Claude genera para el turno, incluido su pensamiento extendido, también cuenta. Cada respuesta informa lo que consumió la solicitud en su campo usage. Si usas almacenamiento en caché de prompts, el recuento de entrada se divide entre input_tokens, cache_read_input_tokens y cache_creation_input_tokens, y los tres cuentan para la ventana. Para estimar una solicitud antes de enviarla, usa la API de conteo de tokens.
Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5 y Claude Sonnet 4.6 tienen una ventana de contexto de 1M de tokens en la API de Claude, Amazon Bedrock, Google Cloud y Microsoft Foundry. Claude Mythos Preview también tiene una ventana de contexto de 1M de tokens.
Claude Fable 5 y Claude Mythos 5 (claude-fable-5 y claude-mythos-5) tienen una ventana de contexto de 1M de tokens, y una sola solicitud a estos modelos puede generar hasta 128k tokens de salida (max_tokens). Otros modelos de Claude, incluido Claude Sonnet 4.5, tienen una ventana de contexto de 200k tokens.
Para todos los modelos con una ventana de contexto de 1M de tokens, 1M es el valor predeterminado: no necesitas un encabezado beta, y las solicitudes de contexto largo se facturan con precios estándar.
Una sola solicitud puede incluir hasta 600 imágenes o páginas de PDF (100 para modelos con una ventana de contexto de 200k tokens). Si envías muchas imágenes o documentos grandes, podrías alcanzar los límites de tamaño de solicitud antes que el límite de tokens.
Consulta la tabla de comparación de modelos para ver una lista de tamaños de ventana de contexto por modelo.
Con el pensamiento extendido, todos los tokens de entrada y salida, incluidos los tokens de pensamiento, cuentan para el límite de la ventana de contexto, con algunos matices en situaciones de múltiples turnos.
Los tokens del presupuesto de pensamiento son un subconjunto de tu parámetro max_tokens, se facturan como tokens de salida y cuentan para los límites de velocidad. Con el pensamiento adaptativo, Claude determina su asignación de pensamiento de forma dinámica, por lo que el uso de tokens de pensamiento varía de una solicitud a otra.
Que los bloques de pensamiento de turnos anteriores del asistente permanezcan en la ventana de contexto depende del modelo. En Claude Opus 4.5 y modelos Opus posteriores, Claude Sonnet 4.6 y modelos Sonnet posteriores, Claude Fable 5, Claude Mythos 5 y Claude Mythos Preview, la API conserva los bloques de pensamiento anteriores de forma predeterminada, y cuentan para la ventana de contexto como cualquier otro token de entrada. En modelos Opus y Sonnet anteriores y en todos los modelos Haiku, la API elimina automáticamente los bloques de pensamiento anteriores del historial de conversación cuando los devuelves, lo que preserva la capacidad de tokens para el contenido de la conversación. Para conocer los valores predeterminados por modelo, consulta conservación de bloques de pensamiento por modelo. Para anular el valor predeterminado en cualquier dirección, usa la eliminación de bloques de pensamiento.
El siguiente diagrama muestra cómo se gestionan los tokens cuando el pensamiento extendido está habilitado en un modelo que elimina los bloques de pensamiento anteriores:
Puedes leer más sobre la ventana de contexto y el pensamiento extendido en la guía de Pensamiento extendido.
El siguiente diagrama ilustra cómo se gestionan los tokens cuando combinas el pensamiento extendido con el uso de herramientas en un modelo que elimina los bloques de pensamiento anteriores:
Arquitectura del primer turno
Manejo del resultado de la herramienta (turno 2)
tool_result. Debes devolver el bloque de pensamiento extendido junto con los resultados de herramienta correspondientes. Este es el único caso en el que tienes que devolver bloques de pensamiento.user, a menos que el pensamiento intercalado esté habilitado).Nuevo turno del usuario (turno 3)
user.user fuera del ciclo de uso de herramientas, Claude genera un nuevo bloque de pensamiento extendido y continúa desde allí.assistant.La mayoría de los modelos actuales de Claude admiten el pensamiento intercalado, que permite a Claude pensar entre llamadas a herramientas, incluso después de recibir resultados de herramientas. Es automático en modelos con pensamiento adaptativo. Claude Opus 4.5, Claude Sonnet 4.5 y los modelos Claude 4 anteriores requieren el encabezado beta interleaved-thinking-2025-05-14.
Para obtener más información sobre el uso de herramientas con pensamiento extendido, consulta Pensamiento extendido con uso de herramientas.
Para reducir el contexto consumido por las propias definiciones de herramientas, consulta Gestionar el contexto de herramientas, o difiere las definiciones de herramientas con la herramienta de búsqueda de herramientas.
Claude Sonnet 5, Claude Sonnet 4.6, Claude Sonnet 4.5 y Claude Haiku 4.5 tienen conciencia del contexto: estos modelos rastrean su ventana de contexto restante (su "presupuesto de tokens") a lo largo de una conversación. Esto permite que el modelo gestione tareas de larga duración en función del espacio que queda en lugar de adivinar cuántos tokens quedan. La conciencia del contexto es automática: no hay nada que debas habilitar, y nunca envías tú mismo las etiquetas que se muestran en esta sección. La API las inyecta.
En la indicación del sistema de cada solicitud, la API le proporciona a Claude su ventana de contexto total:
<budget:token_budget>200000</budget:token_budget>El presupuesto coincide con la ventana de contexto disponible para tu solicitud: 1M de tokens para Claude Sonnet 5 y Claude Sonnet 4.6, y 200k tokens para Claude Sonnet 4.5 y Claude Haiku 4.5. Los ejemplos de esta sección muestran un modelo con una ventana de contexto de 200k tokens.
Después de cada llamada a herramienta, la API le proporciona a Claude una actualización sobre su capacidad restante:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Los tokens de imagen están incluidos en estos presupuestos.
Los modelos más recientes no reciben estas etiquetas inyectadas. En Claude Opus 4.7 y posteriores, Claude Fable 5 y Claude Mythos 5, puedes darle al modelo un presupuesto explícito con presupuestos de tarea, que están en beta.
Para agentes que abarcan múltiples sesiones, diseña tus artefactos de estado de modo que la recuperación del contexto sea rápida cuando comience una nueva sesión. El patrón de múltiples sesiones de la herramienta de memoria recorre un enfoque concreto. Consulta también Effective harnesses for long-running agents.
Para obtener orientación sobre prompts para usar la conciencia del contexto, consulta Mejores prácticas de prompts.
Si tus conversaciones se acercan regularmente a los límites de la ventana de contexto, usa la compactación del lado del servidor. La compactación resume automáticamente las partes anteriores de la conversación en el servidor, de modo que la conversación pueda continuar más allá del límite de la ventana de contexto. Está disponible en beta para Claude Fable 5, Claude Mythos 5, Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5 y Claude Sonnet 4.6.
Para necesidades más especializadas, la edición de contexto ofrece estrategias adicionales:
Los prefijos de prompts almacenados en caché siguen ocupando la ventana de contexto: el almacenamiento en caché de prompts cambia lo que pagas por esos tokens, no si cuentan.
Si la entrada por sí sola ya excede la ventana de contexto del modelo, la API devuelve un error 400 invalid_request_error ("prompt is too long") en todos los modelos.
En los modelos Claude 4.5 y posteriores, si los tokens de entrada más max_tokens exceden el tamaño de la ventana de contexto, la API acepta la solicitud. Si la generación alcanza entonces el límite de la ventana de contexto, se detiene con stop_reason: "model_context_window_exceeded". En modelos anteriores, la API devuelve un error de validación en su lugar. Para optar por el comportamiento de model_context_window_exceeded en esos modelos, usa el encabezado beta model-context-window-exceeded-2025-08-26. Consulta Razones de detención y respaldo para obtener más detalles.
Para mantenerte dentro de los límites de la ventana de contexto, usa la API de conteo de tokens para estimar el uso de tokens antes de enviar mensajes a Claude.
Compactación de contexto del lado del servidor para gestionar conversaciones largas que se acercan a los límites de la ventana de contexto.
Gestiona automáticamente el contexto de la conversación a medida que crece con la edición de contexto.
Consulta la tabla de comparación de modelos para ver una lista de tamaños de ventana de contexto y precios de tokens de entrada/salida por modelo.
Proporciona a Claude razonamiento mejorado para tareas complejas y controla cómo se devuelve el contenido de pensamiento.
Was this page helpful?