Loading...
  • Construir
  • Administración
  • Modelos y precios
  • SDKs de cliente
  • Referencia de API
Search...
⌘K
Log in
Ventanas de contexto
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Construir/Gestión de contexto

Ventanas de contexto

Aprende cómo funcionan las ventanas de contexto y estrategias para gestionarlas efectivamente en conversaciones largas y flujos de trabajo con agentes.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

A medida que las conversaciones crecen, eventualmente te acercarás a los límites de la ventana de contexto. Esta guía explica cómo funcionan las ventanas de contexto e introduce estrategias para gestionarlas efectivamente.

Para conversaciones de larga duración y flujos de trabajo con agentes, la compactación del lado del servidor es la estrategia principal para la gestión del contexto. Para necesidades más especializadas, la edición de contexto ofrece estrategias adicionales como la limpieza de resultados de herramientas y la limpieza de bloques de pensamiento.

Entendiendo la ventana de contexto

La "ventana de contexto" se refiere a todo el texto que un modelo de lenguaje puede referenciar al generar una respuesta, incluyendo la respuesta en sí. Esto es diferente del gran corpus de datos en el que se entrenó el modelo de lenguaje, y en su lugar representa una "memoria de trabajo" para el modelo. Una ventana de contexto más grande permite que el modelo maneje indicaciones más complejas y largas, pero más contexto no es automáticamente mejor. A medida que crece el número de tokens, la precisión y el recuerdo se degradan, un fenómeno conocido como context rot. Esto hace que curar lo que está en el contexto sea tan importante como cuánto espacio está disponible.

Claude logra resultados de última generación en puntos de referencia de recuperación de contexto largo como MRCR y GraphWalks, pero estas ganancias dependen de lo que está en el contexto, no solo de cuánto cabe.

Para un análisis profundo de por qué los contextos largos se degradan y cómo ingeniería alrededor de esto, consulta Ingeniería de contexto efectiva.

El diagrama a continuación ilustra el comportamiento estándar de la ventana de contexto para solicitudes de API1:

Diagrama de ventana de contexto

1Para interfaces de chat, como para claude.ai, las ventanas de contexto también se pueden configurar en un sistema "primero en entrar, primero en salir" continuo.

  • Acumulación progresiva de tokens: A medida que la conversación avanza a través de turnos, cada mensaje del usuario y respuesta del asistente se acumulan dentro de la ventana de contexto. Los turnos anteriores se preservan completamente.
  • Patrón de crecimiento lineal: El uso del contexto crece linealmente con cada turno, con los turnos anteriores preservados completamente.
  • Capacidad de la ventana de contexto: La ventana de contexto total disponible (hasta 1M de tokens) representa la capacidad máxima para almacenar el historial de conversación y generar nueva salida de Claude.
  • Flujo de entrada-salida: Cada turno consiste en:
    • Fase de entrada: Contiene todo el historial de conversación anterior más el mensaje actual del usuario
    • Fase de salida: Genera una respuesta de texto que se convierte en parte de una entrada futura

La ventana de contexto con pensamiento extendido

Cuando se usa pensamiento extendido, todos los tokens de entrada y salida, incluyendo los tokens utilizados para pensar, cuentan hacia el límite de la ventana de contexto, con algunos matices en situaciones de múltiples turnos.

Los tokens del presupuesto de pensamiento son un subconjunto de tu parámetro max_tokens, se facturan como tokens de salida y cuentan hacia los límites de velocidad. Con pensamiento adaptativo, Claude decide dinámicamente su asignación de pensamiento, por lo que el uso real de tokens de pensamiento puede variar por solicitud.

Sin embargo, los bloques de pensamiento anteriores se eliminan automáticamente del cálculo de la ventana de contexto por la API de Claude y no son parte del historial de conversación que el modelo "ve" para turnos posteriores, preservando la capacidad de tokens para el contenido de conversación real.

El diagrama a continuación demuestra la gestión especializada de tokens cuando se habilita el pensamiento extendido:

Diagrama de ventana de contexto con pensamiento extendido

  • Eliminación del pensamiento extendido: Los bloques de pensamiento extendido (mostrados en gris oscuro) se generan durante la fase de salida de cada turno, pero no se llevan adelante como tokens de entrada para turnos posteriores. No necesitas eliminar los bloques de pensamiento tú mismo. La API de Claude lo hace automáticamente si los pasas de vuelta.
  • Detalles de implementación técnica:
    • La API excluye automáticamente los bloques de pensamiento de turnos anteriores cuando los pasas de vuelta como parte del historial de conversación.
    • Los tokens de pensamiento extendido se facturan como tokens de salida solo una vez, durante su generación.
    • El cálculo efectivo de la ventana de contexto se convierte en: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
    • Los tokens de pensamiento incluyen bloques thinking.

Esta arquitectura es eficiente en tokens y permite un razonamiento extenso sin desperdicio de tokens, ya que los bloques de pensamiento pueden ser sustanciales en longitud.

Puedes leer más sobre la ventana de contexto y el pensamiento extendido en la guía de pensamiento extendido.

La ventana de contexto con pensamiento extendido y uso de herramientas

El diagrama a continuación ilustra la gestión de tokens de la ventana de contexto cuando se combina el pensamiento extendido con el uso de herramientas:

Diagrama de ventana de contexto con pensamiento extendido y uso de herramientas

  1. 1

    Arquitectura del primer turno

    • Componentes de entrada: Configuración de herramientas y mensaje del usuario
    • Componentes de salida: Pensamiento extendido + respuesta de texto + solicitud de uso de herramienta
    • Cálculo de tokens: Todos los componentes de entrada y salida cuentan hacia la ventana de contexto, y todos los componentes de salida se facturan como tokens de salida.
  2. 2

    Manejo de resultados de herramientas (turno 2)

    • Componentes de entrada: Cada bloque del primer turno así como el tool_result. El bloque de pensamiento extendido debe ser devuelto con los resultados de herramienta correspondientes. Este es el único caso en el que tienes que devolver bloques de pensamiento.
    • Componentes de salida: Después de que los resultados de herramientas se hayan pasado de vuelta a Claude, Claude responderá solo con texto (sin pensamiento extendido adicional hasta el próximo mensaje user).
    • Cálculo de tokens: Todos los componentes de entrada y salida cuentan hacia la ventana de contexto, y todos los componentes de salida se facturan como tokens de salida.
  3. 3

    Tercer paso

    • Componentes de entrada: Todas las entradas y la salida del turno anterior se llevan adelante con la excepción del bloque de pensamiento, que puede ser eliminado ahora que Claude ha completado todo el ciclo de uso de herramientas. La API eliminará automáticamente el bloque de pensamiento para ti si lo pasas de vuelta, o puedes sentirte libre de eliminarlo tú mismo en esta etapa. Este es también donde agregarías el próximo turno User.
    • Componentes de salida: Dado que hay un nuevo turno User fuera del ciclo de uso de herramientas, Claude genera un nuevo bloque de pensamiento extendido y continúa desde allí.
    • Cálculo de tokens: Los tokens de pensamiento anteriores se eliminan automáticamente de los cálculos de la ventana de contexto. Todos los otros bloques anteriores aún cuentan como parte de la ventana de tokens, y el bloque de pensamiento en el turno actual Assistant cuenta como parte de la ventana de contexto.
  • Consideraciones para el uso de herramientas con pensamiento extendido:
    • Al publicar resultados de herramientas, el bloque de pensamiento completo y sin modificar que acompaña esa solicitud de herramienta específica (incluyendo partes de firma) debe ser incluido.
    • El cálculo efectivo de la ventana de contexto para pensamiento extendido con uso de herramientas se convierte en: context_window = input_tokens + current_turn_tokens.
    • El sistema utiliza firmas criptográficas para verificar la autenticidad del bloque de pensamiento. No preservar bloques de pensamiento durante el uso de herramientas puede romper la continuidad del razonamiento de Claude. Por lo tanto, si modificas bloques de pensamiento, la API devuelve un error.

Los modelos Claude 4 soportan pensamiento intercalado, que permite a Claude pensar entre llamadas de herramientas y hacer un razonamiento más sofisticado después de recibir resultados de herramientas.

Claude Sonnet 3.7 no soporta pensamiento intercalado, por lo que no hay intercalación de pensamiento extendido y llamadas de herramientas sin un turno de usuario no-tool_result en medio.

Para más información sobre el uso de herramientas con pensamiento extendido, consulta la guía de pensamiento extendido.

Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, y Claude Sonnet 4.6 tienen una ventana de contexto de 1M de tokens. Otros modelos de Claude, incluyendo Claude Sonnet 4.5 y Sonnet 4 (deprecado), tienen una ventana de contexto de 200k de tokens.

Una única solicitud puede incluir hasta 600 imágenes o páginas PDF (100 para modelos con una ventana de contexto de 200k de tokens). Cuando envías muchas imágenes o documentos grandes, puedes acercarte a límites de tamaño de solicitud antes del límite de tokens.

Conciencia de contexto en Claude Sonnet 4.6, Sonnet 4.5, y Haiku 4.5

Claude Sonnet 4.6, Claude Sonnet 4.5, y Claude Haiku 4.5 cuentan con conciencia de contexto. Esta capacidad permite que estos modelos rastreen su ventana de contexto restante (es decir, "presupuesto de tokens") a lo largo de una conversación. Esto permite que Claude ejecute tareas y gestione el contexto más efectivamente al entender cuánto espacio tiene para trabajar. Claude está entrenado para usar este contexto con precisión, persistiendo en la tarea hasta el final en lugar de adivinar cuántos tokens quedan. Para un modelo, carecer de conciencia de contexto es como competir en un programa de cocina sin un reloj. Los modelos Claude 4.5+ cambian esto al informar explícitamente al modelo sobre su contexto restante, para que pueda aprovechar al máximo los tokens disponibles.

Cómo funciona:

Al inicio de una conversación, Claude recibe información sobre su ventana de contexto total:

<budget:token_budget>1000000</budget:token_budget>

El presupuesto se establece en 1M de tokens (200k para modelos con una ventana de contexto más pequeña).

Después de cada llamada de herramienta, Claude recibe una actualización sobre la capacidad restante:

<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>

Esta conciencia ayuda a Claude a determinar cuánta capacidad queda para el trabajo y permite una ejecución más efectiva en tareas de larga duración. Los tokens de imagen se incluyen en estos presupuestos.

Beneficios:

La conciencia de contexto es particularmente valiosa para:

  • Sesiones de agentes de larga duración que requieren enfoque sostenido
  • Flujos de trabajo de múltiples ventanas de contexto donde las transiciones de estado importan
  • Tareas complejas que requieren una gestión cuidadosa de tokens

Para agentes que abarcan múltiples sesiones, diseña tus artefactos de estado para que la recuperación de contexto sea rápida cuando comienza una nueva sesión. El patrón de múltiples sesiones de la herramienta de memoria recorre un enfoque concreto. Consulta también Arneses efectivos para agentes de larga duración.

Para orientación de indicaciones sobre cómo aprovechar la conciencia de contexto, consulta la guía de mejores prácticas de indicaciones.

Gestión del contexto con compactación

Si tus conversaciones regularmente se acercan a los límites de la ventana de contexto, la compactación del lado del servidor es el enfoque recomendado. La compactación proporciona resumen del lado del servidor que condensa automáticamente las partes anteriores de una conversación, permitiendo conversaciones de larga duración más allá de los límites de contexto con un trabajo de integración mínimo. Actualmente está disponible en beta para Claude Opus 4.7, Claude Opus 4.6, y Claude Sonnet 4.6.

Para necesidades más especializadas, la edición de contexto ofrece estrategias adicionales:

  • Limpieza de resultados de herramientas - Limpia resultados de herramientas antiguos en flujos de trabajo con agentes
  • Limpieza de bloques de pensamiento - Gestiona bloques de pensamiento con pensamiento extendido

Gestión de la ventana de contexto con modelos Claude más nuevos

Los modelos Claude más nuevos (comenzando con Claude Sonnet 3.7) devuelven un error de validación cuando los tokens de indicación y salida exceden la ventana de contexto, en lugar de truncar silenciosamente. Este cambio proporciona un comportamiento más predecible pero requiere una gestión de tokens más cuidadosa.

Usa la API de conteo de tokens para estimar el uso de tokens antes de enviar mensajes a Claude. Esto te ayuda a planificar y mantenerte dentro de los límites de la ventana de contexto.

Consulta la tabla de comparación de modelos para una lista de tamaños de ventana de contexto por modelo.

Próximos pasos

Compactación

La estrategia recomendada para gestionar el contexto en conversaciones de larga duración.

Edición de contexto

Estrategias de grano fino como limpieza de resultados de herramientas y limpieza de bloques de pensamiento.

Tabla de comparación de modelos

Consulta la tabla de comparación de modelos para una lista de tamaños de ventana de contexto y precios de tokens de entrada/salida por modelo.

Descripción general de pensamiento extendido

Aprende más sobre cómo funciona el pensamiento extendido y cómo implementarlo junto con otras características como el uso de herramientas y el almacenamiento en caché de indicaciones.

Was this page helpful?

  • Entendiendo la ventana de contexto
  • La ventana de contexto con pensamiento extendido
  • La ventana de contexto con pensamiento extendido y uso de herramientas
  • Conciencia de contexto en Claude Sonnet 4.6, Sonnet 4.5, y Haiku 4.5
  • Gestión del contexto con compactación
  • Gestión de la ventana de contexto con modelos Claude más nuevos
  • Próximos pasos