A medida que las conversaciones crecen, eventualmente te acercarás a los límites de la ventana de contexto. Esta guía explica cómo funcionan las ventanas de contexto e introduce estrategias para gestionarlas efectivamente.
Para conversaciones de larga duración y flujos de trabajo de agentes, compactación del lado del servidor es la estrategia principal para la gestión del contexto. Para necesidades más especializadas, edición de contexto ofrece estrategias adicionales como limpieza de resultados de herramientas y limpieza de bloques de pensamiento.
La "ventana de contexto" se refiere a todo el texto que un modelo de lenguaje puede referenciar al generar una respuesta, incluyendo la respuesta misma. Esto es diferente del gran corpus de datos en el que se entrenó el modelo de lenguaje, y en su lugar representa una "memoria de trabajo" para el modelo. Una ventana de contexto más grande permite que el modelo maneje indicaciones más complejas y extensas. Una ventana de contexto más pequeña puede limitar la capacidad del modelo para mantener coherencia en conversaciones extendidas.
El diagrama a continuación ilustra el comportamiento estándar de la ventana de contexto para solicitudes de API1:
1Para interfaces de chat, como claude.ai, las ventanas de contexto también pueden configurarse en un sistema de "primero en entrar, primero en salir" continuo.
Cuando se utiliza pensamiento extendido, todos los tokens de entrada y salida, incluyendo los tokens utilizados para pensar, cuentan hacia el límite de la ventana de contexto, con algunos matices en situaciones de múltiples turnos.
Los tokens del presupuesto de pensamiento son un subconjunto de tu parámetro max_tokens, se facturan como tokens de salida y cuentan hacia los límites de velocidad. Con pensamiento adaptativo, Claude decide dinámicamente su asignación de pensamiento, por lo que el uso real de tokens de pensamiento puede variar por solicitud.
Sin embargo, los bloques de pensamiento anteriores se eliminan automáticamente del cálculo de la ventana de contexto por la API de Claude y no son parte del historial de conversación que el modelo "ve" para turnos posteriores, preservando la capacidad de tokens para el contenido de conversación real.
El diagrama a continuación demuestra la gestión especializada de tokens cuando se habilita el pensamiento extendido:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking como bloques redacted_thinking.Esta arquitectura es eficiente en tokens y permite razonamiento extenso sin desperdicio de tokens, ya que los bloques de pensamiento pueden ser sustanciales en longitud.
Puedes leer más sobre la ventana de contexto y el pensamiento extendido en la guía de pensamiento extendido.
El diagrama a continuación ilustra la gestión de tokens de la ventana de contexto al combinar pensamiento extendido con uso de herramientas:
Arquitectura del primer turno
Manejo de resultados de herramientas (turno 2)
tool_result. El bloque de pensamiento extendido debe ser devuelto con los resultados de herramientas correspondientes. Este es el único caso en el que tienes que devolver bloques de pensamiento.user).Tercer paso
User.User fuera del ciclo de uso de herramientas, Claude generará un nuevo bloque de pensamiento extendido y continuará desde allí.Assistant cuenta como parte de la ventana de contexto.context_window = input_tokens + current_turn_tokens.Los modelos Claude 4 soportan pensamiento intercalado, que permite a Claude pensar entre llamadas de herramientas y hacer un razonamiento más sofisticado después de recibir resultados de herramientas.
Claude Sonnet 3.7 no soporta pensamiento intercalado, por lo que no hay intercalación de pensamiento extendido y llamadas de herramientas sin un turno de usuario no-tool_result en medio.
Para más información sobre el uso de herramientas con pensamiento extendido, consulta la guía de pensamiento extendido.
Claude Opus 4.6, Sonnet 4.5 y Sonnet 4 soportan una ventana de contexto de 1 millón de tokens. Esta ventana de contexto extendida te permite procesar documentos mucho más grandes, mantener conversaciones más largas y trabajar con bases de código más extensas.
La ventana de contexto de 1M tokens está actualmente en beta para organizaciones en nivel de uso 4 y organizaciones con límites de velocidad personalizados. La ventana de contexto de 1M tokens solo está disponible para Claude Opus 4.6, Sonnet 4.5 y Sonnet 4.
Para usar la ventana de contexto de 1M tokens, incluye el encabezado beta context-1m-2025-08-07 en tus solicitudes de API:
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "anthropic-beta: context-1m-2025-08-07" \
-H "content-type: application/json" \
-d '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"messages": [
{"role": "user", "content": "Process this large document..."}
]
}'Consideraciones importantes:
Claude Sonnet 4.5 y Claude Haiku 4.5 cuentan con conciencia de contexto. Esta capacidad permite que estos modelos rastreen su ventana de contexto restante (es decir, "presupuesto de tokens") a lo largo de una conversación. Esto permite que Claude ejecute tareas y gestione el contexto de manera más efectiva al entender cuánto espacio tiene para trabajar. Claude está entrenado para usar este contexto con precisión, persistiendo en la tarea hasta el final en lugar de adivinar cuántos tokens quedan. Para un modelo, carecer de conciencia de contexto es como competir en un programa de cocina sin un reloj. Los modelos Claude 4.5 cambian esto al informar explícitamente al modelo sobre su contexto restante, para que pueda aprovechar al máximo los tokens disponibles.
Cómo funciona:
Al inicio de una conversación, Claude recibe información sobre su ventana de contexto total:
<budget:token_budget>200000</budget:token_budget>El presupuesto se establece en 200K tokens (estándar), 500K tokens (claude.ai Enterprise) o 1M tokens (beta, para organizaciones elegibles).
Después de cada llamada de herramienta, Claude recibe una actualización sobre la capacidad restante:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Esta conciencia ayuda a Claude a determinar cuánta capacidad queda para el trabajo y permite una ejecución más efectiva en tareas de larga duración. Los tokens de imagen se incluyen en estos presupuestos.
Beneficios:
La conciencia de contexto es particularmente valiosa para:
Para orientación sobre indicaciones para aprovechar la conciencia de contexto, consulta la guía de mejores prácticas de indicaciones.
Si tus conversaciones regularmente se acercan a los límites de la ventana de contexto, compactación del lado del servidor es el enfoque recomendado. La compactación proporciona resumen del lado del servidor que condensa automáticamente las partes anteriores de una conversación, permitiendo conversaciones de larga duración más allá de los límites del contexto con trabajo de integración mínimo. Actualmente está disponible en beta para Claude Opus 4.6.
Para necesidades más especializadas, edición de contexto ofrece estrategias adicionales:
Los modelos Claude más nuevos (comenzando con Claude Sonnet 3.7) devuelven un error de validación cuando los tokens de indicación y salida exceden la ventana de contexto, en lugar de truncar silenciosamente. Este cambio proporciona un comportamiento más predecible pero requiere una gestión de tokens más cuidadosa.
Usa la API de conteo de tokens para estimar el uso de tokens antes de enviar mensajes a Claude. Esto te ayuda a planificar y mantenerte dentro de los límites de la ventana de contexto.
Consulta la tabla de comparación de modelos para una lista de tamaños de ventana de contexto por modelo.
La estrategia recomendada para gestionar el contexto en conversaciones de larga duración.
Estrategias de grano fino como limpieza de resultados de herramientas y limpieza de bloques de pensamiento.
Consulta la tabla de comparación de modelos para una lista de tamaños de ventana de contexto y precios de tokens de entrada/salida por modelo.
Aprende más sobre cómo funciona el pensamiento extendido y cómo implementarlo junto con otras características como uso de herramientas y almacenamiento en caché de indicaciones.
Was this page helpful?