La "ventana de contexto" se refiere a la totalidad de la cantidad de texto que un modelo de lenguaje puede mirar hacia atrás y referenciar al generar texto nuevo, más el texto nuevo que genera. Esto es diferente del gran corpus de datos en el que se entrenó el modelo de lenguaje, y en su lugar representa una "memoria de trabajo" para el modelo. Una ventana de contexto más grande permite que el modelo entienda y responda a indicaciones más complejas y largas, mientras que una ventana de contexto más pequeña puede limitar la capacidad del modelo para manejar indicaciones más largas o mantener coherencia en conversaciones extendidas.
El diagrama a continuación ilustra el comportamiento estándar de la ventana de contexto para solicitudes de API1:
1Para interfaces de chat, como claude.ai, las ventanas de contexto también se pueden configurar en un sistema de "primero en entrar, primero en salir" continuo.
Cuando se utiliza pensamiento extendido, todos los tokens de entrada y salida, incluyendo los tokens utilizados para pensar, cuentan hacia el límite de la ventana de contexto, con algunos matices en situaciones de múltiples turnos.
Los tokens del presupuesto de pensamiento son un subconjunto de su parámetro max_tokens, se facturan como tokens de salida y cuentan hacia los límites de velocidad.
Sin embargo, los bloques de pensamiento anteriores se eliminan automáticamente del cálculo de la ventana de contexto por la API de Claude y no son parte del historial de conversación que el modelo "ve" en turnos posteriores, preservando la capacidad de tokens para el contenido de conversación real.
El diagrama a continuación demuestra la gestión especializada de tokens cuando se habilita el pensamiento extendido:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking como bloques redacted_thinking.Esta arquitectura es eficiente en tokens y permite un razonamiento extenso sin desperdicio de tokens, ya que los bloques de pensamiento pueden ser sustanciales en longitud.
Puede leer más sobre la ventana de contexto y el pensamiento extendido en nuestra guía de pensamiento extendido.
El diagrama a continuación ilustra la gestión de tokens de la ventana de contexto cuando se combina el pensamiento extendido con el uso de herramientas:
Arquitectura del primer turno
Manejo de resultados de herramientas (turno 2)
tool_result. El bloque de pensamiento extendido debe ser devuelto con los resultados de herramientas correspondientes. Este es el único caso en el que tiene que devolver bloques de pensamiento.user).Tercer paso
User.User fuera del ciclo de uso de herramientas, Claude generará un nuevo bloque de pensamiento extendido y continuará desde allí.Assistant actual cuenta como parte de la ventana de contexto.context_window = input_tokens + current_turn_tokens.Los modelos Claude 4 admiten pensamiento intercalado, que permite a Claude pensar entre llamadas de herramientas y hacer un razonamiento más sofisticado después de recibir resultados de herramientas.
Claude Sonnet 3.7 no admite pensamiento intercalado, por lo que no hay intercalación de pensamiento extendido y llamadas de herramientas sin un turno de usuario no tool_result en medio.
Para más información sobre el uso de herramientas con pensamiento extendido, consulte nuestra guía de pensamiento extendido.
Claude Sonnet 4 y 4.5 admiten una ventana de contexto de 1 millón de tokens. Esta ventana de contexto extendida le permite procesar documentos mucho más grandes, mantener conversaciones más largas y trabajar con bases de código más extensas.
La ventana de contexto de 1M de tokens está actualmente en beta para organizaciones en nivel de uso 4 y organizaciones con límites de velocidad personalizados. La ventana de contexto de 1M de tokens solo está disponible para Claude Sonnet 4 y Sonnet 4.5.
Para usar la ventana de contexto de 1M de tokens, incluya el encabezado beta context-1m-2025-08-07 en sus solicitudes de API:
from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Process this large document..."}
],
betas=["context-1m-2025-08-07"]
)Consideraciones importantes:
Claude Sonnet 4.5 y Claude Haiku 4.5 cuentan con conciencia de contexto, lo que permite a estos modelos rastrear su ventana de contexto restante (es decir, "presupuesto de tokens") a lo largo de una conversación. Esto permite a Claude ejecutar tareas y gestionar el contexto de manera más efectiva al comprender cuánto espacio tiene para trabajar. Claude está entrenado de forma nativa para usar este contexto precisamente para persistir en la tarea hasta el final, en lugar de tener que adivinar cuántos tokens quedan. Para un modelo, la falta de conciencia de contexto es como competir en un programa de cocina sin un reloj. Los modelos Claude 4.5 cambian esto al informar explícitamente al modelo sobre su contexto restante, para que pueda aprovechar al máximo los tokens disponibles.
Cómo funciona:
Al inicio de una conversación, Claude recibe información sobre su ventana de contexto total:
<budget:token_budget>200000</budget:token_budget>El presupuesto se establece en 200K tokens (estándar), 500K tokens (Claude.ai Enterprise) o 1M tokens (beta, para organizaciones elegibles).
Después de cada llamada de herramienta, Claude recibe una actualización sobre la capacidad restante:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Esta conciencia ayuda a Claude a determinar cuánta capacidad queda para trabajar y permite una ejecución más efectiva en tareas de larga duración. Los tokens de imagen se incluyen en estos presupuestos.
Beneficios:
La conciencia de contexto es particularmente valiosa para:
Para orientación sobre indicaciones para aprovechar la conciencia de contexto, consulte nuestra guía de mejores prácticas de Claude 4.
En modelos Claude más nuevos (comenzando con Claude Sonnet 3.7), si la suma de tokens de indicación y tokens de salida excede la ventana de contexto del modelo, el sistema devolverá un error de validación en lugar de truncar silenciosamente el contexto. Este cambio proporciona un comportamiento más predecible pero requiere una gestión de tokens más cuidadosa.
Para planificar el uso de tokens y asegurar que se mantenga dentro de los límites de la ventana de contexto, puede usar la API de conteo de tokens para estimar cuántos tokens usarán sus mensajes antes de enviarlos a Claude.
Consulte nuestra tabla de comparación de modelos para obtener una lista de tamaños de ventana de contexto por modelo.
Consulte nuestra tabla de comparación de modelos para obtener una lista de tamaños de ventana de contexto y precios de tokens de entrada/salida por modelo.
Obtenga más información sobre cómo funciona el pensamiento extendido y cómo implementarlo junto con otras características como el uso de herramientas y el almacenamiento en caché de indicaciones.