Loading...
    • Guía para desarrolladores
    • Referencia de API
    • MCP
    • Recursos
    • Notas de la versión
    Search...
    ⌘K
    Primeros pasos
    Introducción a ClaudeInicio rápido
    Modelos y precios
    Descripción general de modelosElegir un modeloNovedades en Claude 4.6Guía de migraciónModelos deprecadosPrecios
    Crear con Claude
    Descripción general de característicasUsar la API de MessagesManejar razones de paradaMejores prácticas de prompting
    Gestión de contexto
    Ventanas de contextoCompactaciónEdición de contexto
    Capacidades
    Almacenamiento en caché de promptsPensamiento extendidoPensamiento adaptativoEsfuerzoStreaming de MessagesProcesamiento por lotesCitasSoporte multilingüeConteo de tokensEmbeddingsVisiónSoporte de PDFAPI de FilesResultados de búsquedaSalidas estructuradas
    Herramientas
    Descripción generalCómo implementar el uso de herramientasStreaming de herramientas de grano finoHerramienta BashHerramienta de ejecución de códigoLlamada de herramientas programáticaHerramienta de uso de computadoraHerramienta de editor de textoHerramienta de búsqueda webHerramienta de búsqueda webHerramienta de memoriaHerramienta de búsqueda de herramientas
    Agent Skills
    Descripción generalInicio rápidoMejores prácticasSkills para empresasUsar Skills con la API
    Agent SDK
    Descripción generalInicio rápidoSDK de TypeScriptTypeScript V2 (vista previa)SDK de PythonGuía de migración
    MCP en la API
    Conector MCPServidores MCP remotos
    Claude en plataformas de terceros
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingeniería de prompts
    Descripción generalGenerador de promptsUsar plantillas de promptsMejorador de promptsSer claro y directoUsar ejemplos (prompting multishot)Dejar que Claude piense (CoT)Usar etiquetas XMLDar a Claude un rol (prompts del sistema)Encadenar prompts complejosConsejos de contexto largoConsejos de pensamiento extendido
    Probar y evaluar
    Definir criterios de éxitoDesarrollar casos de pruebaUsar la herramienta de evaluaciónReducir latencia
    Fortalecer protecciones
    Reducir alucinacionesAumentar consistencia de salidaMitigar ataques de jailbreakRechazos de streamingReducir fuga de promptsMantener a Claude en personaje
    Administración y monitoreo
    Descripción general de Admin APIResidencia de datosEspacios de trabajoAPI de uso y costosAPI de Claude Code AnalyticsRetención de datos cero
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Gestión de contexto

    Ventanas de contexto

    Aprende cómo funcionan las ventanas de contexto y estrategias para gestionarlas efectivamente en conversaciones largas y flujos de trabajo de agentes.

    A medida que las conversaciones crecen, eventualmente te acercarás a los límites de la ventana de contexto. Esta guía explica cómo funcionan las ventanas de contexto e introduce estrategias para gestionarlas efectivamente.

    Para conversaciones de larga duración y flujos de trabajo de agentes, compactación del lado del servidor es la estrategia principal para la gestión del contexto. Para necesidades más especializadas, edición de contexto ofrece estrategias adicionales como limpieza de resultados de herramientas y limpieza de bloques de pensamiento.

    Entendiendo la ventana de contexto

    La "ventana de contexto" se refiere a todo el texto que un modelo de lenguaje puede referenciar al generar una respuesta, incluyendo la respuesta misma. Esto es diferente del gran corpus de datos en el que se entrenó el modelo de lenguaje, y en su lugar representa una "memoria de trabajo" para el modelo. Una ventana de contexto más grande permite que el modelo maneje indicaciones más complejas y extensas. Una ventana de contexto más pequeña puede limitar la capacidad del modelo para mantener coherencia en conversaciones extendidas.

    El diagrama a continuación ilustra el comportamiento estándar de la ventana de contexto para solicitudes de API1:

    Diagrama de ventana de contexto

    1Para interfaces de chat, como claude.ai, las ventanas de contexto también pueden configurarse en un sistema de "primero en entrar, primero en salir" continuo.

    • Acumulación progresiva de tokens: A medida que la conversación avanza a través de turnos, cada mensaje del usuario y respuesta del asistente se acumulan dentro de la ventana de contexto. Los turnos anteriores se preservan completamente.
    • Patrón de crecimiento lineal: El uso del contexto crece linealmente con cada turno, con los turnos anteriores preservados completamente.
    • Capacidad de 200K tokens: La ventana de contexto total disponible (200,000 tokens) representa la capacidad máxima para almacenar el historial de conversación y generar nuevos resultados de Claude.
    • Flujo de entrada-salida: Cada turno consiste en:
      • Fase de entrada: Contiene todo el historial de conversación anterior más el mensaje actual del usuario
      • Fase de salida: Genera una respuesta de texto que se convierte en parte de una entrada futura

    La ventana de contexto con pensamiento extendido

    Cuando se utiliza pensamiento extendido, todos los tokens de entrada y salida, incluyendo los tokens utilizados para pensar, cuentan hacia el límite de la ventana de contexto, con algunos matices en situaciones de múltiples turnos.

    Los tokens del presupuesto de pensamiento son un subconjunto de tu parámetro max_tokens, se facturan como tokens de salida y cuentan hacia los límites de velocidad. Con pensamiento adaptativo, Claude decide dinámicamente su asignación de pensamiento, por lo que el uso real de tokens de pensamiento puede variar por solicitud.

    Sin embargo, los bloques de pensamiento anteriores se eliminan automáticamente del cálculo de la ventana de contexto por la API de Claude y no son parte del historial de conversación que el modelo "ve" para turnos posteriores, preservando la capacidad de tokens para el contenido de conversación real.

    El diagrama a continuación demuestra la gestión especializada de tokens cuando se habilita el pensamiento extendido:

    Diagrama de ventana de contexto con pensamiento extendido

    • Eliminación de pensamiento extendido: Los bloques de pensamiento extendido (mostrados en gris oscuro) se generan durante la fase de salida de cada turno, pero no se llevan adelante como tokens de entrada para turnos posteriores. No necesitas eliminar los bloques de pensamiento tú mismo. La API de Claude lo hace automáticamente por ti si los devuelves.
    • Detalles de implementación técnica:
      • La API excluye automáticamente los bloques de pensamiento de turnos anteriores cuando los devuelves como parte del historial de conversación.
      • Los tokens de pensamiento extendido se facturan como tokens de salida solo una vez, durante su generación.
      • El cálculo efectivo de la ventana de contexto se convierte en: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
      • Los tokens de pensamiento incluyen tanto bloques thinking como bloques redacted_thinking.

    Esta arquitectura es eficiente en tokens y permite razonamiento extenso sin desperdicio de tokens, ya que los bloques de pensamiento pueden ser sustanciales en longitud.

    Puedes leer más sobre la ventana de contexto y el pensamiento extendido en la guía de pensamiento extendido.

    La ventana de contexto con pensamiento extendido y uso de herramientas

    El diagrama a continuación ilustra la gestión de tokens de la ventana de contexto al combinar pensamiento extendido con uso de herramientas:

    Diagrama de ventana de contexto con pensamiento extendido y uso de herramientas

    1. 1

      Arquitectura del primer turno

      • Componentes de entrada: Configuración de herramientas y mensaje del usuario
      • Componentes de salida: Pensamiento extendido + respuesta de texto + solicitud de uso de herramientas
      • Cálculo de tokens: Todos los componentes de entrada y salida cuentan hacia la ventana de contexto, y todos los componentes de salida se facturan como tokens de salida.
    2. 2

      Manejo de resultados de herramientas (turno 2)

      • Componentes de entrada: Cada bloque del primer turno así como el tool_result. El bloque de pensamiento extendido debe ser devuelto con los resultados de herramientas correspondientes. Este es el único caso en el que tienes que devolver bloques de pensamiento.
      • Componentes de salida: Después de que los resultados de herramientas se hayan devuelto a Claude, Claude responderá solo con texto (sin pensamiento extendido adicional hasta el próximo mensaje user).
      • Cálculo de tokens: Todos los componentes de entrada y salida cuentan hacia la ventana de contexto, y todos los componentes de salida se facturan como tokens de salida.
    3. 3

      Tercer paso

      • Componentes de entrada: Todas las entradas y la salida del turno anterior se llevan adelante con la excepción del bloque de pensamiento, que puede descartarse ahora que Claude ha completado el ciclo completo de uso de herramientas. La API eliminará automáticamente el bloque de pensamiento por ti si lo devuelves, o puedes sentirte libre de eliminarlo tú mismo en esta etapa. Este es también el lugar donde agregarías el próximo turno User.
      • Componentes de salida: Dado que hay un nuevo turno User fuera del ciclo de uso de herramientas, Claude generará un nuevo bloque de pensamiento extendido y continuará desde allí.
      • Cálculo de tokens: Los tokens de pensamiento anteriores se eliminan automáticamente de los cálculos de la ventana de contexto. Todos los otros bloques anteriores aún cuentan como parte de la ventana de tokens, y el bloque de pensamiento en el turno actual Assistant cuenta como parte de la ventana de contexto.
    • Consideraciones para uso de herramientas con pensamiento extendido:
      • Al publicar resultados de herramientas, el bloque de pensamiento completo sin modificar que acompaña esa solicitud específica de herramientas (incluyendo porciones de firma/redactadas) debe incluirse.
      • El cálculo efectivo de la ventana de contexto para pensamiento extendido con uso de herramientas se convierte en: context_window = input_tokens + current_turn_tokens.
      • El sistema utiliza firmas criptográficas para verificar la autenticidad del bloque de pensamiento. No preservar bloques de pensamiento durante el uso de herramientas puede romper la continuidad del razonamiento de Claude. Por lo tanto, si modificas bloques de pensamiento, la API devolverá un error.

    Los modelos Claude 4 soportan pensamiento intercalado, que permite a Claude pensar entre llamadas de herramientas y hacer un razonamiento más sofisticado después de recibir resultados de herramientas.

    Claude Sonnet 3.7 no soporta pensamiento intercalado, por lo que no hay intercalación de pensamiento extendido y llamadas de herramientas sin un turno de usuario no-tool_result en medio.

    Para más información sobre el uso de herramientas con pensamiento extendido, consulta la guía de pensamiento extendido.

    Ventana de contexto de 1M tokens

    Claude Opus 4.6, Sonnet 4.5 y Sonnet 4 soportan una ventana de contexto de 1 millón de tokens. Esta ventana de contexto extendida te permite procesar documentos mucho más grandes, mantener conversaciones más largas y trabajar con bases de código más extensas.

    La ventana de contexto de 1M tokens está actualmente en beta para organizaciones en nivel de uso 4 y organizaciones con límites de velocidad personalizados. La ventana de contexto de 1M tokens solo está disponible para Claude Opus 4.6, Sonnet 4.5 y Sonnet 4.

    Para usar la ventana de contexto de 1M tokens, incluye el encabezado beta context-1m-2025-08-07 en tus solicitudes de API:

    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: context-1m-2025-08-07" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {"role": "user", "content": "Process this large document..."}
        ]
      }'

    Consideraciones importantes:

    • Estado beta: Esta es una característica beta sujeta a cambios. Las características y precios pueden modificarse o eliminarse en futuras versiones.
    • Requisito de nivel de uso: La ventana de contexto de 1M tokens está disponible para organizaciones en nivel de uso 4 y organizaciones con límites de velocidad personalizados. Las organizaciones de nivel inferior deben avanzar al nivel de uso 4 para acceder a esta característica.
    • Disponibilidad: La ventana de contexto de 1M tokens está actualmente disponible en la API de Claude, Microsoft Foundry, Amazon Bedrock y Google Cloud's Vertex AI.
    • Precios: Las solicitudes que excedan 200K tokens se facturan automáticamente a tasas premium (entrada 2x, salida 1.5x). Consulta la documentación de precios para más detalles.
    • Límites de velocidad: Las solicitudes de contexto largo tienen límites de velocidad dedicados. Consulta la documentación de límites de velocidad para más detalles.
    • Consideraciones multimodales: Al procesar un gran número de imágenes o pdfs, ten en cuenta que los archivos pueden variar en el uso de tokens. Al emparejar un indicación grande con un gran número de imágenes, puedes alcanzar límites de tamaño de solicitud.

    Conciencia de contexto en Claude Sonnet 4.5 y Haiku 4.5

    Claude Sonnet 4.5 y Claude Haiku 4.5 cuentan con conciencia de contexto. Esta capacidad permite que estos modelos rastreen su ventana de contexto restante (es decir, "presupuesto de tokens") a lo largo de una conversación. Esto permite que Claude ejecute tareas y gestione el contexto de manera más efectiva al entender cuánto espacio tiene para trabajar. Claude está entrenado para usar este contexto con precisión, persistiendo en la tarea hasta el final en lugar de adivinar cuántos tokens quedan. Para un modelo, carecer de conciencia de contexto es como competir en un programa de cocina sin un reloj. Los modelos Claude 4.5 cambian esto al informar explícitamente al modelo sobre su contexto restante, para que pueda aprovechar al máximo los tokens disponibles.

    Cómo funciona:

    Al inicio de una conversación, Claude recibe información sobre su ventana de contexto total:

    <budget:token_budget>200000</budget:token_budget>

    El presupuesto se establece en 200K tokens (estándar), 500K tokens (claude.ai Enterprise) o 1M tokens (beta, para organizaciones elegibles).

    Después de cada llamada de herramienta, Claude recibe una actualización sobre la capacidad restante:

    <system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

    Esta conciencia ayuda a Claude a determinar cuánta capacidad queda para el trabajo y permite una ejecución más efectiva en tareas de larga duración. Los tokens de imagen se incluyen en estos presupuestos.

    Beneficios:

    La conciencia de contexto es particularmente valiosa para:

    • Sesiones de agentes de larga duración que requieren enfoque sostenido
    • Flujos de trabajo de múltiples ventanas de contexto donde las transiciones de estado importan
    • Tareas complejas que requieren una cuidadosa gestión de tokens

    Para orientación sobre indicaciones para aprovechar la conciencia de contexto, consulta la guía de mejores prácticas de indicaciones.

    Gestión del contexto con compactación

    Si tus conversaciones regularmente se acercan a los límites de la ventana de contexto, compactación del lado del servidor es el enfoque recomendado. La compactación proporciona resumen del lado del servidor que condensa automáticamente las partes anteriores de una conversación, permitiendo conversaciones de larga duración más allá de los límites del contexto con trabajo de integración mínimo. Actualmente está disponible en beta para Claude Opus 4.6.

    Para necesidades más especializadas, edición de contexto ofrece estrategias adicionales:

    • Limpieza de resultados de herramientas - Limpia resultados de herramientas antiguos en flujos de trabajo de agentes
    • Limpieza de bloques de pensamiento - Gestiona bloques de pensamiento con pensamiento extendido

    Gestión de ventana de contexto con modelos Claude más nuevos

    Los modelos Claude más nuevos (comenzando con Claude Sonnet 3.7) devuelven un error de validación cuando los tokens de indicación y salida exceden la ventana de contexto, en lugar de truncar silenciosamente. Este cambio proporciona un comportamiento más predecible pero requiere una gestión de tokens más cuidadosa.

    Usa la API de conteo de tokens para estimar el uso de tokens antes de enviar mensajes a Claude. Esto te ayuda a planificar y mantenerte dentro de los límites de la ventana de contexto.

    Consulta la tabla de comparación de modelos para una lista de tamaños de ventana de contexto por modelo.

    Próximos pasos

    Compactación

    La estrategia recomendada para gestionar el contexto en conversaciones de larga duración.

    Edición de contexto

    Estrategias de grano fino como limpieza de resultados de herramientas y limpieza de bloques de pensamiento.

    Tabla de comparación de modelos

    Consulta la tabla de comparación de modelos para una lista de tamaños de ventana de contexto y precios de tokens de entrada/salida por modelo.

    Descripción general de pensamiento extendido

    Aprende más sobre cómo funciona el pensamiento extendido y cómo implementarlo junto con otras características como uso de herramientas y almacenamiento en caché de indicaciones.

    Was this page helpful?

    • Entendiendo la ventana de contexto
    • La ventana de contexto con pensamiento extendido
    • La ventana de contexto con pensamiento extendido y uso de herramientas
    • Ventana de contexto de 1M tokens
    • Conciencia de contexto en Claude Sonnet 4.5 y Haiku 4.5
    • Gestión del contexto con compactación
    • Gestión de ventana de contexto con modelos Claude más nuevos
    • Próximos pasos