Claude Platform Docs
  • Mensajes
  • Agentes gestionados
  • Administración

Search...
⌘K
Primeros pasos
Introducción a ClaudeInicio rápido
Desarrollar con Claude
Descripción general de funcionesUso de la API de MensajesMotivos de detención y respaldoRechazos y respaldoCrédito de respaldo
Capacidades del modelo
Pensamiento extendidoPensamiento adaptativoEsfuerzoPresupuestos de tareas (beta)Modo rápido (vista previa de investigación)Salidas estructuradasCitasStreaming de mensajesProcesamiento por lotesResultados de búsquedaStreaming de rechazosSoporte multilingüeEmbeddings
Herramientas
Descripción generalCómo funciona el uso de herramientasTutorial: Crear un agente que usa herramientasDefinir herramientasGestionar llamadas a herramientasUso de herramientas en paraleloTool Runner (SDK)Uso de herramientas estrictoHerramientas de servidorHerramienta de búsqueda webHerramienta de obtención webHerramienta de ejecución de códigoHerramienta de asesorHerramienta de búsqueda de herramientasHerramienta de memoriaHerramienta BashHerramienta de editor de textoHerramienta de uso de computadoraSolución de problemas
Infraestructura de herramientas
Referencia de herramientasGestionar el contexto de herramientasCombinaciones de herramientasUso de herramientas con almacenamiento en caché de promptsLlamadas programáticas a herramientasStreaming detallado de herramientas
Gestión de contexto
Ventanas de contextoCompactaciónEdición de contextoAlmacenamiento en caché de promptsMensajes del sistema a mitad de conversaciónCrear un modo de orquestaciónDiagnóstico de caché (beta)Conteo de tokens
Trabajar con archivos
API de archivosCompatibilidad con PDF
Habilidades
Descripción generalInicio rápidoMejores prácticasHabilidades para empresasHabilidades en la API
MCP
Servidores MCP remotosConector MCP
Claude en plataformas en la nube
Amazon BedrockAmazon Bedrock (heredado)Claude Platform en AWSGoogle CloudMicrosoft Foundry

Log in
Ventanas de contexto
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Mensajes/Gestión de contexto

Ventanas de contexto

Comprende cómo funciona la ventana de contexto, cómo el pensamiento extendido y el uso de herramientas cuentan para ella, y cómo gestionar el contexto a medida que las conversaciones crecen.


Esta función es elegible para Zero Data Retention (ZDR). Cuando tu organización tiene un acuerdo de ZDR, los datos enviados a través de esta función no se almacenan después de que se devuelve la respuesta de la API.

A medida que las conversaciones crecen, eventualmente te acercarás a los límites de la ventana de contexto. Para conversaciones de larga duración y flujos de trabajo agénticos, la compactación del lado del servidor es la estrategia principal para la gestión del contexto.

Cómo funciona la ventana de contexto

La "context window" (ventana de contexto) se refiere a todo el texto que un modelo de lenguaje puede referenciar al generar una respuesta, incluida la propia respuesta. Esto es diferente del gran corpus de datos con el que se entrenó el modelo de lenguaje, y en su lugar representa una "memoria de trabajo" para el modelo. Una ventana de contexto más grande permite que el modelo maneje indicaciones más complejas y extensas, pero más contexto no es automáticamente mejor. A medida que crece el recuento de tokens, la precisión y la capacidad de recuperación se degradan, un fenómeno conocido como context rot (deterioro del contexto). Esto hace que curar lo que está en el contexto sea tan importante como cuánto espacio hay disponible.



Para obtener más información sobre por qué los contextos largos se degradan y cómo diseñar soluciones para ello, consulta Effective context engineering.

El siguiente diagrama ilustra el comportamiento estándar de la ventana de contexto para solicitudes de API1:

Diagrama de turnos acumulándose en la ventana de contexto hasta que la conversación se acerca al límite de tokens

1Las interfaces de chat como claude.ai también pueden gestionar la ventana de contexto de forma rotativa, siguiendo el principio de "primero en entrar, primero en salir".

  • Acumulación progresiva de tokens: A medida que la conversación avanza a través de los turnos, cada mensaje del usuario y respuesta del asistente se acumula dentro de la ventana de contexto, y los turnos anteriores se conservan completamente.
  • Capacidad de la ventana de contexto: La ventana de contexto (hasta 1M de tokens, dependiendo del modelo) contiene el historial de la conversación más la nueva salida que Claude genera.
  • Flujo de entrada-salida: Cada turno consta de:
    • Fase de entrada: Contiene todo el historial de conversación anterior más el mensaje actual del usuario
    • Fase de salida: Genera una respuesta de texto que se convierte en parte de la entrada para el siguiente turno

Todo lo que está en la solicitud cuenta para la ventana de contexto: la indicación del sistema, cada mensaje en messages (incluidos los resultados de herramientas, imágenes y documentos) y tus definiciones de herramientas. La salida que Claude genera para el turno, incluido su pensamiento extendido, también cuenta. Cada respuesta informa lo que consumió la solicitud en su campo usage. Si usas almacenamiento en caché de prompts, el recuento de entrada se divide entre input_tokens, cache_read_input_tokens y cache_creation_input_tokens, y los tres cuentan para la ventana. Para estimar una solicitud antes de enviarla, usa la API de conteo de tokens.

Tamaños de ventana de contexto por modelo

Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5 y Claude Sonnet 4.6 tienen una ventana de contexto de 1M de tokens en la API de Claude, Amazon Bedrock, Google Cloud y Microsoft Foundry. Claude Mythos Preview también tiene una ventana de contexto de 1M de tokens.

Claude Fable 5 y Claude Mythos 5 (claude-fable-5 y claude-mythos-5) tienen una ventana de contexto de 1M de tokens, y una sola solicitud a estos modelos puede generar hasta 128k tokens de salida (max_tokens). Otros modelos de Claude, incluido Claude Sonnet 4.5, tienen una ventana de contexto de 200k tokens.

Para todos los modelos con una ventana de contexto de 1M de tokens, 1M es el valor predeterminado: no necesitas un encabezado beta, y las solicitudes de contexto largo se facturan con precios estándar.

Una sola solicitud puede incluir hasta 600 imágenes o páginas de PDF (100 para modelos con una ventana de contexto de 200k tokens). Si envías muchas imágenes o documentos grandes, podrías alcanzar los límites de tamaño de solicitud antes que el límite de tokens.

Consulta la tabla de comparación de modelos para ver una lista de tamaños de ventana de contexto por modelo.

La ventana de contexto con pensamiento extendido

Con el pensamiento extendido, todos los tokens de entrada y salida, incluidos los tokens de pensamiento, cuentan para el límite de la ventana de contexto, con algunos matices en situaciones de múltiples turnos.

Los tokens del presupuesto de pensamiento son un subconjunto de tu parámetro max_tokens, se facturan como tokens de salida y cuentan para los límites de velocidad. Con el pensamiento adaptativo, Claude determina su asignación de pensamiento de forma dinámica, por lo que el uso de tokens de pensamiento varía de una solicitud a otra.

Que los bloques de pensamiento de turnos anteriores del asistente permanezcan en la ventana de contexto depende del modelo. En Claude Opus 4.5 y modelos Opus posteriores, Claude Sonnet 4.6 y modelos Sonnet posteriores, Claude Fable 5, Claude Mythos 5 y Claude Mythos Preview, la API conserva los bloques de pensamiento anteriores de forma predeterminada, y cuentan para la ventana de contexto como cualquier otro token de entrada. En modelos Opus y Sonnet anteriores y en todos los modelos Haiku, la API elimina automáticamente los bloques de pensamiento anteriores del historial de conversación cuando los devuelves, lo que preserva la capacidad de tokens para el contenido de la conversación. Para conocer los valores predeterminados por modelo, consulta conservación de bloques de pensamiento por modelo. Para anular el valor predeterminado en cualquier dirección, usa la eliminación de bloques de pensamiento.

El siguiente diagrama muestra cómo se gestionan los tokens cuando el pensamiento extendido está habilitado en un modelo que elimina los bloques de pensamiento anteriores:

Diagrama de pensamiento extendido en un modelo que elimina los bloques de pensamiento anteriores: el bloque de pensamiento de cada turno se genera en la salida y no se traslada a la entrada de turnos posteriores

  • Eliminación del pensamiento extendido: En los modelos que eliminan los bloques de pensamiento anteriores, los bloques de pensamiento extendido (mostrados en gris oscuro) se generan durante la fase de salida de cada turno, pero no se trasladan como tokens de entrada para turnos posteriores. No necesitas eliminar los bloques de pensamiento tú mismo: si los devuelves, la API de Claude los elimina automáticamente.
  • Facturación: Los tokens de pensamiento extendido se facturan como tokens de salida una sola vez, cuando se generan. En los modelos que conservan los bloques de pensamiento anteriores, los bloques conservados pasan a formar parte de la entrada de solicitudes posteriores y se facturan como tokens de entrada, al igual que el resto del historial de conversación.


Puedes leer más sobre la ventana de contexto y el pensamiento extendido en la guía de Pensamiento extendido.

La ventana de contexto con pensamiento extendido y uso de herramientas

El siguiente diagrama ilustra cómo se gestionan los tokens cuando combinas el pensamiento extendido con el uso de herramientas en un modelo que elimina los bloques de pensamiento anteriores:

Diagrama de pensamiento extendido con uso de herramientas: el pensamiento se conserva junto con su resultado de herramienta, luego se descarta en el siguiente turno del usuario en modelos que eliminan los bloques de pensamiento anteriores

  1. 1

    Arquitectura del primer turno

    • Componentes de entrada: Configuración de herramientas y mensaje del usuario
    • Componentes de salida: Pensamiento extendido + respuesta de texto + solicitud de uso de herramientas
    • Cálculo de tokens: Todos los componentes de entrada y salida cuentan para la ventana de contexto, y todos los componentes de salida se facturan como tokens de salida.
  2. 2

    Manejo del resultado de la herramienta (turno 2)

    • Componentes de entrada: Cada bloque del primer turno y el tool_result. Debes devolver el bloque de pensamiento extendido junto con los resultados de herramienta correspondientes. Este es el único caso en el que tienes que devolver bloques de pensamiento.
    • Componentes de salida: Después de que los resultados de la herramienta se han devuelto a Claude, Claude responde solo con texto (sin pensamiento extendido adicional hasta el siguiente mensaje de user, a menos que el pensamiento intercalado esté habilitado).
    • Cálculo de tokens: Todos los componentes de entrada y salida cuentan para la ventana de contexto, y todos los componentes de salida se facturan como tokens de salida.
  3. 3

    Nuevo turno del usuario (turno 3)

    • Componentes de entrada: Todas las entradas y la salida del turno anterior se trasladan. El bloque de pensamiento del ciclo de uso de herramientas completado ya no tiene que permanecer en el contexto: en los modelos que eliminan los bloques de pensamiento anteriores, la API lo descarta automáticamente cuando lo devuelves, y en los modelos que conservan los bloques de pensamiento anteriores, puedes eliminarlo tú mismo en esta etapa. Aquí es también donde agregas el siguiente turno de user.
    • Componentes de salida: Debido a que hay un nuevo turno de user fuera del ciclo de uso de herramientas, Claude genera un nuevo bloque de pensamiento extendido y continúa desde allí.
    • Cálculo de tokens: En los modelos que eliminan los bloques de pensamiento anteriores, los tokens de pensamiento anteriores ya no cuentan para la ventana de contexto. Todos los demás bloques anteriores siguen contando para la ventana de contexto, al igual que el bloque de pensamiento en el turno actual de assistant.
  • Consideraciones para el uso de herramientas con pensamiento extendido:
    • Cuando envías resultados de herramientas, debes incluir el bloque de pensamiento completo y sin modificar que acompaña a esa solicitud de herramienta, incluida su firma.
    • La API usa firmas criptográficas para verificar la autenticidad del bloque de pensamiento. Si modificas un bloque de pensamiento, la API devuelve un error.


La mayoría de los modelos actuales de Claude admiten el pensamiento intercalado, que permite a Claude pensar entre llamadas a herramientas, incluso después de recibir resultados de herramientas. Es automático en modelos con pensamiento adaptativo. Claude Opus 4.5, Claude Sonnet 4.5 y los modelos Claude 4 anteriores requieren el encabezado beta interleaved-thinking-2025-05-14.

Para obtener más información sobre el uso de herramientas con pensamiento extendido, consulta Pensamiento extendido con uso de herramientas.

Para reducir el contexto consumido por las propias definiciones de herramientas, consulta Gestionar el contexto de herramientas, o difiere las definiciones de herramientas con la herramienta de búsqueda de herramientas.

Conciencia del contexto

Claude Sonnet 5, Claude Sonnet 4.6, Claude Sonnet 4.5 y Claude Haiku 4.5 tienen conciencia del contexto: estos modelos rastrean su ventana de contexto restante (su "presupuesto de tokens") a lo largo de una conversación. Esto permite que el modelo gestione tareas de larga duración en función del espacio que queda en lugar de adivinar cuántos tokens quedan. La conciencia del contexto es automática: no hay nada que debas habilitar, y nunca envías tú mismo las etiquetas que se muestran en esta sección. La API las inyecta.

Cómo funciona

En la indicación del sistema de cada solicitud, la API le proporciona a Claude su ventana de contexto total:

<budget:token_budget>200000</budget:token_budget>

El presupuesto coincide con la ventana de contexto disponible para tu solicitud: 1M de tokens para Claude Sonnet 5 y Claude Sonnet 4.6, y 200k tokens para Claude Sonnet 4.5 y Claude Haiku 4.5. Los ejemplos de esta sección muestran un modelo con una ventana de contexto de 200k tokens.

Después de cada llamada a herramienta, la API le proporciona a Claude una actualización sobre su capacidad restante:

<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

Los tokens de imagen están incluidos en estos presupuestos.

Los modelos más recientes no reciben estas etiquetas inyectadas. En Claude Opus 4.7 y posteriores, Claude Fable 5 y Claude Mythos 5, puedes darle al modelo un presupuesto explícito con presupuestos de tarea, que están en beta.



Para agentes que abarcan múltiples sesiones, diseña tus artefactos de estado de modo que la recuperación del contexto sea rápida cuando comience una nueva sesión. El patrón de múltiples sesiones de la herramienta de memoria recorre un enfoque concreto. Consulta también Effective harnesses for long-running agents.

Para obtener orientación sobre prompts para usar la conciencia del contexto, consulta Mejores prácticas de prompts.

Gestionar el contexto con compactación

Si tus conversaciones se acercan regularmente a los límites de la ventana de contexto, usa la compactación del lado del servidor. La compactación resume automáticamente las partes anteriores de la conversación en el servidor, de modo que la conversación pueda continuar más allá del límite de la ventana de contexto. Está disponible en beta para Claude Fable 5, Claude Mythos 5, Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5 y Claude Sonnet 4.6.

Para necesidades más especializadas, la edición de contexto ofrece estrategias adicionales:

  • Eliminación de resultados de herramientas: Elimina resultados de herramientas antiguos en flujos de trabajo agénticos
  • Eliminación de bloques de pensamiento: Gestiona los bloques de pensamiento cuando usas pensamiento extendido

Los prefijos de prompts almacenados en caché siguen ocupando la ventana de contexto: el almacenamiento en caché de prompts cambia lo que pagas por esos tokens, no si cuentan.

Comportamiento de desbordamiento de la ventana de contexto

Si la entrada por sí sola ya excede la ventana de contexto del modelo, la API devuelve un error 400 invalid_request_error ("prompt is too long") en todos los modelos.

En los modelos Claude 4.5 y posteriores, si los tokens de entrada más max_tokens exceden el tamaño de la ventana de contexto, la API acepta la solicitud. Si la generación alcanza entonces el límite de la ventana de contexto, se detiene con stop_reason: "model_context_window_exceeded". En modelos anteriores, la API devuelve un error de validación en su lugar. Para optar por el comportamiento de model_context_window_exceeded en esos modelos, usa el encabezado beta model-context-window-exceeded-2025-08-26. Consulta Razones de detención y respaldo para obtener más detalles.

Para mantenerte dentro de los límites de la ventana de contexto, usa la API de conteo de tokens para estimar el uso de tokens antes de enviar mensajes a Claude.

Próximos pasos

Compactación

Compactación de contexto del lado del servidor para gestionar conversaciones largas que se acercan a los límites de la ventana de contexto.


Edición de contexto

Gestiona automáticamente el contexto de la conversación a medida que crece con la edición de contexto.

Tabla de comparación de modelos

Consulta la tabla de comparación de modelos para ver una lista de tamaños de ventana de contexto y precios de tokens de entrada/salida por modelo.


Pensamiento extendido

Proporciona a Claude razonamiento mejorado para tareas complejas y controla cómo se devuelve el contenido de pensamiento.

Was this page helpful?

  • Cómo funciona la ventana de contexto
  • Tamaños de ventana de contexto por modelo
  • La ventana de contexto con pensamiento extendido
  • La ventana de contexto con pensamiento extendido y uso de herramientas
  • Conciencia del contexto
  • Cómo funciona
  • Gestionar el contexto con compactación
  • Comportamiento de desbordamiento de la ventana de contexto
  • Próximos pasos