This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
A medida que las conversaciones crecen, eventualmente te acercarás a los límites de la ventana de contexto. Esta guía explica cómo funcionan las ventanas de contexto e introduce estrategias para gestionarlas efectivamente.
Para conversaciones de larga duración y flujos de trabajo con agentes, la compactación del lado del servidor es la estrategia principal para la gestión del contexto. Para necesidades más especializadas, la edición de contexto ofrece estrategias adicionales como la limpieza de resultados de herramientas y la limpieza de bloques de pensamiento.
La "ventana de contexto" se refiere a todo el texto que un modelo de lenguaje puede referenciar al generar una respuesta, incluyendo la respuesta en sí. Esto es diferente del gran corpus de datos en el que se entrenó el modelo de lenguaje, y en su lugar representa una "memoria de trabajo" para el modelo. Una ventana de contexto más grande permite que el modelo maneje indicaciones más complejas y largas, pero más contexto no es automáticamente mejor. A medida que crece el número de tokens, la precisión y el recuerdo se degradan, un fenómeno conocido como context rot. Esto hace que curar lo que está en el contexto sea tan importante como cuánto espacio está disponible.
Claude logra resultados de última generación en puntos de referencia de recuperación de contexto largo como MRCR y GraphWalks, pero estas ganancias dependen de lo que está en el contexto, no solo de cuánto cabe.
Para un análisis profundo de por qué los contextos largos se degradan y cómo ingeniería alrededor de esto, consulta Ingeniería de contexto efectiva.
El diagrama a continuación ilustra el comportamiento estándar de la ventana de contexto para solicitudes de API1:
1Para interfaces de chat, como para claude.ai, las ventanas de contexto también se pueden configurar en un sistema "primero en entrar, primero en salir" continuo.
Cuando se usa pensamiento extendido, todos los tokens de entrada y salida, incluyendo los tokens utilizados para pensar, cuentan hacia el límite de la ventana de contexto, con algunos matices en situaciones de múltiples turnos.
Los tokens del presupuesto de pensamiento son un subconjunto de tu parámetro max_tokens, se facturan como tokens de salida y cuentan hacia los límites de velocidad. Con pensamiento adaptativo, Claude decide dinámicamente su asignación de pensamiento, por lo que el uso real de tokens de pensamiento puede variar por solicitud.
Sin embargo, los bloques de pensamiento anteriores se eliminan automáticamente del cálculo de la ventana de contexto por la API de Claude y no son parte del historial de conversación que el modelo "ve" para turnos posteriores, preservando la capacidad de tokens para el contenido de conversación real.
El diagrama a continuación demuestra la gestión especializada de tokens cuando se habilita el pensamiento extendido:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking.Esta arquitectura es eficiente en tokens y permite un razonamiento extenso sin desperdicio de tokens, ya que los bloques de pensamiento pueden ser sustanciales en longitud.
Puedes leer más sobre la ventana de contexto y el pensamiento extendido en la guía de pensamiento extendido.
El diagrama a continuación ilustra la gestión de tokens de la ventana de contexto cuando se combina el pensamiento extendido con el uso de herramientas:
Arquitectura del primer turno
Manejo de resultados de herramientas (turno 2)
tool_result. El bloque de pensamiento extendido debe ser devuelto con los resultados de herramienta correspondientes. Este es el único caso en el que tienes que devolver bloques de pensamiento.user).Tercer paso
User.User fuera del ciclo de uso de herramientas, Claude genera un nuevo bloque de pensamiento extendido y continúa desde allí.Assistant cuenta como parte de la ventana de contexto.context_window = input_tokens + current_turn_tokens.Los modelos Claude 4 soportan pensamiento intercalado, que permite a Claude pensar entre llamadas de herramientas y hacer un razonamiento más sofisticado después de recibir resultados de herramientas.
Claude Sonnet 3.7 no soporta pensamiento intercalado, por lo que no hay intercalación de pensamiento extendido y llamadas de herramientas sin un turno de usuario no-tool_result en medio.
Para más información sobre el uso de herramientas con pensamiento extendido, consulta la guía de pensamiento extendido.
Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, y Claude Sonnet 4.6 tienen una ventana de contexto de 1M de tokens. Otros modelos de Claude, incluyendo Claude Sonnet 4.5 y Sonnet 4 (deprecado), tienen una ventana de contexto de 200k de tokens.
Una única solicitud puede incluir hasta 600 imágenes o páginas PDF (100 para modelos con una ventana de contexto de 200k de tokens). Cuando envías muchas imágenes o documentos grandes, puedes acercarte a límites de tamaño de solicitud antes del límite de tokens.
Claude Sonnet 4.6, Claude Sonnet 4.5, y Claude Haiku 4.5 cuentan con conciencia de contexto. Esta capacidad permite que estos modelos rastreen su ventana de contexto restante (es decir, "presupuesto de tokens") a lo largo de una conversación. Esto permite que Claude ejecute tareas y gestione el contexto más efectivamente al entender cuánto espacio tiene para trabajar. Claude está entrenado para usar este contexto con precisión, persistiendo en la tarea hasta el final en lugar de adivinar cuántos tokens quedan. Para un modelo, carecer de conciencia de contexto es como competir en un programa de cocina sin un reloj. Los modelos Claude 4.5+ cambian esto al informar explícitamente al modelo sobre su contexto restante, para que pueda aprovechar al máximo los tokens disponibles.
Cómo funciona:
Al inicio de una conversación, Claude recibe información sobre su ventana de contexto total:
<budget:token_budget>1000000</budget:token_budget>El presupuesto se establece en 1M de tokens (200k para modelos con una ventana de contexto más pequeña).
Después de cada llamada de herramienta, Claude recibe una actualización sobre la capacidad restante:
<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>Esta conciencia ayuda a Claude a determinar cuánta capacidad queda para el trabajo y permite una ejecución más efectiva en tareas de larga duración. Los tokens de imagen se incluyen en estos presupuestos.
Beneficios:
La conciencia de contexto es particularmente valiosa para:
Para agentes que abarcan múltiples sesiones, diseña tus artefactos de estado para que la recuperación de contexto sea rápida cuando comienza una nueva sesión. El patrón de múltiples sesiones de la herramienta de memoria recorre un enfoque concreto. Consulta también Arneses efectivos para agentes de larga duración.
Para orientación de indicaciones sobre cómo aprovechar la conciencia de contexto, consulta la guía de mejores prácticas de indicaciones.
Si tus conversaciones regularmente se acercan a los límites de la ventana de contexto, la compactación del lado del servidor es el enfoque recomendado. La compactación proporciona resumen del lado del servidor que condensa automáticamente las partes anteriores de una conversación, permitiendo conversaciones de larga duración más allá de los límites de contexto con un trabajo de integración mínimo. Actualmente está disponible en beta para Claude Opus 4.7, Claude Opus 4.6, y Claude Sonnet 4.6.
Para necesidades más especializadas, la edición de contexto ofrece estrategias adicionales:
Los modelos Claude más nuevos (comenzando con Claude Sonnet 3.7) devuelven un error de validación cuando los tokens de indicación y salida exceden la ventana de contexto, en lugar de truncar silenciosamente. Este cambio proporciona un comportamiento más predecible pero requiere una gestión de tokens más cuidadosa.
Usa la API de conteo de tokens para estimar el uso de tokens antes de enviar mensajes a Claude. Esto te ayuda a planificar y mantenerte dentro de los límites de la ventana de contexto.
Consulta la tabla de comparación de modelos para una lista de tamaños de ventana de contexto por modelo.
La estrategia recomendada para gestionar el contexto en conversaciones de larga duración.
Estrategias de grano fino como limpieza de resultados de herramientas y limpieza de bloques de pensamiento.
Consulta la tabla de comparación de modelos para una lista de tamaños de ventana de contexto y precios de tokens de entrada/salida por modelo.
Aprende más sobre cómo funciona el pensamiento extendido y cómo implementarlo junto con otras características como el uso de herramientas y el almacenamiento en caché de indicaciones.
Was this page helpful?