La "ventana de contexto" se refiere a la totalidad de la cantidad de texto que un modelo de lenguaje puede revisar y referenciar al generar nuevo texto, más el nuevo texto que genera. Esto es diferente del gran corpus de datos con el que se entrenó el modelo de lenguaje, y en su lugar representa una "memoria de trabajo" para el modelo. Una ventana de contexto más grande permite al modelo entender y responder a prompts más complejos y largos, mientras que una ventana de contexto más pequeña puede limitar la capacidad del modelo para manejar prompts más largos o mantener coherencia durante conversaciones extendidas.
El diagrama a continuación ilustra el comportamiento estándar de la ventana de contexto para solicitudes de API1:
1Para interfaces de chat, como para claude.ai, las ventanas de contexto también pueden configurarse en un sistema rotativo de "primero en entrar, primero en salir".
Al usar pensamiento extendido, todos los tokens de entrada y salida, incluyendo los tokens utilizados para pensar, cuentan hacia el límite de la ventana de contexto, con algunos matices en situaciones de múltiples turnos.
Los tokens del presupuesto de pensamiento son un subconjunto de tu parámetro max_tokens, se facturan como tokens de salida y cuentan hacia los límites de tasa.
Sin embargo, los bloques de pensamiento anteriores se eliminan automáticamente del cálculo de la ventana de contexto por la API de Claude y no son parte del historial de conversación que el modelo "ve" para turnos subsecuentes, preservando la capacidad de tokens para el contenido real de la conversación.
El diagrama a continuación demuestra la gestión especializada de tokens cuando el pensamiento extendido está habilitado:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking como bloques redacted_thinking.Esta arquitectura es eficiente en tokens y permite un razonamiento extenso sin desperdicio de tokens, ya que los bloques de pensamiento pueden ser sustanciales en longitud.
Puedes leer más sobre la ventana de contexto y el pensamiento extendido en nuestra guía de pensamiento extendido.
El diagrama a continuación ilustra la gestión de tokens de la ventana de contexto al combinar pensamiento extendido con uso de herramientas:
Arquitectura del primer turno
Manejo de resultados de herramientas (turno 2)
tool_result. El bloque de pensamiento extendido debe ser devuelto con los resultados de herramienta correspondientes. Este es el único caso en el que tienes que devolver bloques de pensamiento.user).Tercer Paso
context_window = input_tokens + current_turn_tokens.Los modelos Claude 4 soportan pensamiento intercalado, que permite a Claude pensar entre llamadas de herramientas y hacer razonamiento más sofisticado después de recibir resultados de herramientas.
Claude Sonnet 3.7 no soporta pensamiento intercalado, por lo que no hay intercalado de pensamiento extendido y llamadas de herramientas sin un turno de usuario que no sea tool_result en el medio.
Para más información sobre usar herramientas con pensamiento extendido, ve nuestra guía de pensamiento extendido.
Claude Sonnet 4 y 4.5 soportan una ventana de contexto de 1 millón de tokens. Esta ventana de contexto extendida te permite procesar documentos mucho más grandes, mantener conversaciones más largas y trabajar con bases de código más extensas.
La ventana de contexto de 1M tokens está actualmente en beta para organizaciones en nivel de uso 4 y organizaciones con límites de tasa personalizados. La ventana de contexto de 1M tokens solo está disponible para Claude Sonnet 4 y Sonnet 4.5.
Para usar la ventana de contexto de 1M tokens, incluye el encabezado beta context-1m-2025-08-07 en tus solicitudes de API:
Consideraciones importantes:
Claude Sonnet 4.5 y Claude Haiku 4.5 presentan conciencia de contexto, habilitando a estos modelos a rastrear su ventana de contexto restante (es decir, "presupuesto de tokens") a lo largo de una conversación. Esto permite a Claude ejecutar tareas y gestionar contexto más efectivamente al entender cuánto espacio tiene para trabajar. Claude está entrenado nativamente para usar este contexto precisamente para persistir en la tarea hasta el final, en lugar de tener que adivinar cuántos tokens quedan. Para un modelo, carecer de conciencia de contexto es como competir en un programa de cocina sin reloj. Los modelos Claude 4.5 cambian esto al informar explícitamente al modelo sobre su contexto restante, para que pueda tomar máxima ventaja de los tokens disponibles.
Cómo funciona:
Al inicio de una conversación, Claude recibe información sobre su ventana de contexto total:
<budget:token_budget>200000</budget:token_budget>El presupuesto se establece en 200K tokens (estándar), 500K tokens (Claude.ai Enterprise), o 1M tokens (beta, para organizaciones elegibles).
Después de cada llamada de herramienta, Claude recibe una actualización sobre la capacidad restante:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Esta conciencia ayuda a Claude determinar cuánta capacidad queda para el trabajo y permite una ejecución más efectiva en tareas de larga duración. Los tokens de imagen están incluidos en estos presupuestos.
Beneficios:
La conciencia de contexto es particularmente valiosa para:
Para orientación de prompting sobre aprovechar la conciencia de contexto, ve nuestra guía de mejores prácticas de Claude 4.
En modelos Claude más nuevos (comenzando con Claude Sonnet 3.7), si la suma de tokens de prompt y tokens de salida excede la ventana de contexto del modelo, el sistema devolverá un error de validación en lugar de truncar silenciosamente el contexto. Este cambio proporciona comportamiento más predecible pero requiere gestión de tokens más cuidadosa.
Para planificar tu uso de tokens y asegurar que te mantengas dentro de los límites de la ventana de contexto, puedes usar la API de conteo de tokens para estimar cuántos tokens usarán tus mensajes antes de enviarlos a Claude.
Ve nuestra tabla de comparación de modelos para una lista de tamaños de ventana de contexto por modelo.
User.User fuera del ciclo de uso de herramientas, Claude generará un nuevo bloque de pensamiento extendido y continuará desde ahí.Assistant cuenta como parte de la ventana de contexto.from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Process this large document..."}
],
betas=["context-1m-2025-08-07"]
)Aprende más sobre cómo funciona el pensamiento extendido y cómo implementarlo junto con otras características como uso de herramientas y caché de prompts.