Capacidades

Construir con pensamiento extendido

El pensamiento extendido proporciona a Claude capacidades de razonamiento mejoradas para tareas complejas, con diferentes niveles de transparencia en su proceso de pensamiento paso a paso.

El pensamiento extendido proporciona a Claude capacidades de razonamiento mejoradas para tareas complejas, mientras proporciona diferentes niveles de transparencia en su proceso de pensamiento paso a paso antes de entregar su respuesta final.

Para Claude Opus 4.6, recomendamos usar pensamiento adaptativo (thinking: {type: "adaptive"}) con el parámetro de esfuerzo en lugar del modo de pensamiento manual descrito en esta página. La configuración manual thinking: {type: "enabled", budget_tokens: N} está deprecada en Opus 4.6 y se eliminará en una versión futura del modelo.

Modelos soportados

El pensamiento extendido es compatible con los siguientes modelos:

Claude Opus 4.6 (claude-opus-4-6) — pensamiento adaptativo recomendado; el modo manual (type: "enabled") está deprecado
Claude Opus 4.5 (claude-opus-4-5-20251101)
Claude Opus 4.1 (claude-opus-4-1-20250805)
Claude Opus 4 (claude-opus-4-20250514)
Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
Claude Sonnet 4 (claude-sonnet-4-20250514)
Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (deprecado)
Claude Haiku 4.5 (claude-haiku-4-5-20251001)

El comportamiento de la API difiere entre los modelos Claude Sonnet 3.7 y Claude 4, pero las formas de la API siguen siendo exactamente iguales.

Para más información, consulte Diferencias en el pensamiento entre versiones de modelos.

Cómo funciona el pensamiento extendido

Cuando el pensamiento extendido está activado, Claude crea bloques de contenido thinking donde genera su razonamiento interno. Claude incorpora información de este razonamiento antes de elaborar una respuesta final.

La respuesta de la API incluirá bloques de contenido thinking, seguidos de bloques de contenido text.

Aquí hay un ejemplo del formato de respuesta predeterminado:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Let me analyze this step by step...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "text",
      "text": "Based on my analysis..."
    }
  ]
}

Para más información sobre el formato de respuesta del pensamiento extendido, consulte la Referencia de la API de Mensajes.

Cómo usar el pensamiento extendido

Aquí hay un ejemplo de uso del pensamiento extendido en la API de Mensajes:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
        }
    ]
}'

Para activar el pensamiento extendido, agregue un objeto thinking, con el parámetro type establecido en enabled y budget_tokens en un presupuesto de tokens especificado para el pensamiento extendido. Para Claude Opus 4.6, recomendamos usar type: "adaptive" en su lugar — consulte Pensamiento adaptativo para más detalles. Aunque type: "enabled" con budget_tokens sigue siendo compatible en Opus 4.6, está deprecado y se eliminará en una versión futura.

El parámetro budget_tokens determina el número máximo de tokens que Claude puede usar para su proceso de razonamiento interno. En Claude 4 y modelos posteriores, este límite se aplica a tokens de pensamiento completo, y no a la salida resumida. Los presupuestos más grandes pueden mejorar la calidad de la respuesta al permitir un análisis más exhaustivo para problemas complejos, aunque Claude puede no usar el presupuesto completo asignado, especialmente en rangos superiores a 32k.

budget_tokens está deprecado en Claude Opus 4.6 y se eliminará en una versión futura del modelo. Recomendamos usar pensamiento adaptativo con el parámetro de esfuerzo para controlar la profundidad del pensamiento en su lugar.

Claude Opus 4.6 soporta hasta 128K tokens de salida. Los modelos anteriores soportan hasta 64K tokens de salida.

budget_tokens debe establecerse en un valor menor que max_tokens. Sin embargo, cuando se usa pensamiento intercalado con herramientas, puede exceder este límite ya que el límite de tokens se convierte en su ventana de contexto completa (200k tokens).

Pensamiento resumido

With extended thinking enabled, the Messages API for Claude 4 models returns a summary of Claude's full thinking process. Summarized thinking provides the full intelligence benefits of extended thinking, while preventing misuse.

Here are some important considerations for summarized thinking:

You're charged for the full thinking tokens generated by the original request, not the summary tokens.
The billed output token count will not match the count of tokens you see in the response.
The first few lines of thinking output are more verbose, providing detailed reasoning that's particularly helpful for prompt engineering purposes.
As Anthropic seeks to improve the extended thinking feature, summarization behavior is subject to change.
Summarization preserves the key ideas of Claude's thinking process with minimal added latency, enabling a streamable user experience and easy migration from Claude Sonnet 3.7 to Claude 4 and later models.
Summarization is processed by a different model than the one you target in your requests. The thinking model does not see the summarized output.

Claude Sonnet 3.7 continues to return full thinking output.

In rare cases where you need access to full thinking output for Claude 4 models, contact our sales team.

Pensamiento en streaming

Puede hacer streaming de respuestas de pensamiento extendido usando eventos enviados por el servidor (SSE).

Cuando el streaming está habilitado para el pensamiento extendido, recibe contenido de pensamiento a través de eventos thinking_delta.

Para más documentación sobre streaming a través de la API de Mensajes, consulte Streaming de Mensajes.

Aquí se muestra cómo manejar el streaming con pensamiento:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "stream": true,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "What is the greatest common divisor of 1071 and 462?"
        }
    ]
}'

Try in Console

Ejemplo de salida de streaming:

event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-5", "stop_reason": null, "stop_sequence": null}}

event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "I need to find the GCD of 1071 and 462 using the Euclidean algorithm.\n\n1071 = 2 × 462 + 147"}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n462 = 3 × 147 + 21\n147 = 7 × 21 + 0\n\nSo GCD(1071, 462) = 21"}}

// Additional thinking deltas...

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}

event: content_block_stop
data: {"type": "content_block_stop", "index": 0}

event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "The greatest common divisor of 1071 and 462 is **21**."}}

// Additional text deltas...

event: content_block_stop
data: {"type": "content_block_stop", "index": 1}

event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}

event: message_stop
data: {"type": "message_stop"}

Cuando se usa streaming con pensamiento habilitado, puede notar que el texto a veces llega en fragmentos más grandes alternando con entrega token por token. Este es el comportamiento esperado, especialmente para contenido de pensamiento.

El sistema de streaming necesita procesar contenido en lotes para un rendimiento óptimo, lo que puede resultar en este patrón de entrega "fragmentada", con posibles retrasos entre eventos de streaming. Estamos trabajando continuamente para mejorar esta experiencia, con futuras actualizaciones enfocadas en hacer que el contenido de pensamiento se transmita más suavemente.

Pensamiento extendido con uso de herramientas

El pensamiento extendido se puede usar junto con uso de herramientas, permitiendo que Claude razone a través de la selección de herramientas y el procesamiento de resultados.

Cuando se usa pensamiento extendido con uso de herramientas, tenga en cuenta las siguientes limitaciones:

Limitación de elección de herramienta: El uso de herramientas con pensamiento solo soporta tool_choice: {"type": "auto"} (el predeterminado) o tool_choice: {"type": "none"}. Usar tool_choice: {"type": "any"} o tool_choice: {"type": "tool", "name": "..."} resultará en un error porque estas opciones fuerzan el uso de herramientas, que es incompatible con el pensamiento extendido.
Preservación de bloques de pensamiento: Durante el uso de herramientas, debe pasar bloques thinking de vuelta a la API para el último mensaje del asistente. Incluya el bloque completo sin modificar de vuelta a la API para mantener la continuidad del razonamiento.

Alternancia de modos de pensamiento en conversaciones

No puede alternar el pensamiento en el medio de un turno del asistente, incluyendo durante bucles de uso de herramientas. El turno completo del asistente debe operar en un único modo de pensamiento:

Si el pensamiento está habilitado, el turno final del asistente debe comenzar con un bloque de pensamiento.
Si el pensamiento está deshabilitado, el turno final del asistente no debe contener ningún bloque de pensamiento

Desde la perspectiva del modelo, los bucles de uso de herramientas son parte del turno del asistente. Un turno del asistente no se completa hasta que Claude termina su respuesta completa, que puede incluir múltiples llamadas de herramientas y resultados.

Por ejemplo, esta secuencia es toda parte de un único turno del asistente:

User: "What's the weather in Paris?"
Assistant: [thinking] + [tool_use: get_weather]
User: [tool_result: "20°C, sunny"]
Assistant: [text: "The weather in Paris is 20°C and sunny"]

Aunque hay múltiples mensajes de API, el bucle de uso de herramientas es conceptualmente parte de una respuesta continua del asistente.

Degradación elegante del pensamiento

Cuando ocurre un conflicto de pensamiento a mitad de turno (como alternar el pensamiento activado o desactivado durante un bucle de uso de herramientas), la API automáticamente deshabilita el pensamiento para esa solicitud. Para preservar la calidad del modelo y permanecer en distribución, la API puede:

Eliminar bloques de pensamiento de la conversación cuando crearían una estructura de turno inválida
Deshabilitar el pensamiento para la solicitud actual cuando el historial de conversación es incompatible con el pensamiento habilitado

Esto significa que intentar alternar el pensamiento a mitad de turno no causará un error, pero el pensamiento se deshabilitará silenciosamente para esa solicitud. Para confirmar si el pensamiento estaba activo, verifique la presencia de bloques thinking en la respuesta.

Orientación práctica

Mejor práctica: Planifique su estrategia de pensamiento al inicio de cada turno en lugar de intentar alternar a mitad de turno.

Ejemplo: Alternancia de pensamiento después de completar un turno

User: "What's the weather?"
Assistant: [tool_use] (thinking disabled)
User: [tool_result]
Assistant: [text: "It's sunny"]
User: "What about tomorrow?"
Assistant: [thinking] + [text: "..."] (thinking enabled - new turn)

Al completar el turno del asistente antes de alternar el pensamiento, se asegura de que el pensamiento esté realmente habilitado para la nueva solicitud.

Alternar modos de pensamiento también invalida el almacenamiento en caché de indicaciones para el historial de mensajes. Para más detalles, consulte la sección Pensamiento extendido con almacenamiento en caché de indicaciones.

Preservación de bloques de pensamiento

Durante el uso de herramientas, debe pasar bloques thinking de vuelta a la API, y debe incluir el bloque completo sin modificar de vuelta a la API. Esto es crítico para mantener el flujo de razonamiento del modelo e integridad de la conversación.

Aunque puede omitir bloques thinking de turnos anteriores del assistant, sugerimos siempre pasar de vuelta todos los bloques de pensamiento a la API para cualquier conversación de múltiples turnos. La API:

Filtrará automáticamente los bloques de pensamiento proporcionados
Usará los bloques de pensamiento relevantes necesarios para preservar el razonamiento del modelo
Solo cobrará por los tokens de entrada para los bloques mostrados a Claude

Cuando alterna modos de pensamiento durante una conversación, recuerde que el turno completo del asistente (incluyendo bucles de uso de herramientas) debe operar en un único modo de pensamiento. Para más detalles, consulte Alternancia de modos de pensamiento en conversaciones.

Cuando Claude invoca herramientas, está pausando su construcción de una respuesta para esperar información externa. Cuando se devuelven resultados de herramientas, Claude continuará construyendo esa respuesta existente. Esto requiere preservar bloques de pensamiento durante el uso de herramientas, por un par de razones:

Continuidad del razonamiento: Los bloques de pensamiento capturan el razonamiento paso a paso de Claude que llevó a solicitudes de herramientas. Cuando publica resultados de herramientas, incluir el pensamiento original asegura que Claude pueda continuar su razonamiento desde donde lo dejó.
Mantenimiento del contexto: Aunque los resultados de herramientas aparecen como mensajes de usuario en la estructura de la API, son parte de un flujo de razonamiento continuo. Preservar bloques de pensamiento mantiene este flujo conceptual a través de múltiples llamadas de API. Para más información sobre gestión de contexto, consulte nuestra guía sobre ventanas de contexto.

Importante: Cuando proporciona bloques thinking, la secuencia completa de bloques thinking consecutivos debe coincidir con los resultados generados por el modelo durante la solicitud original; no puede reorganizar o modificar la secuencia de estos bloques.

Pensamiento intercalado

El pensamiento extendido con uso de herramientas en modelos Claude 4 soporta pensamiento intercalado, que permite a Claude pensar entre llamadas de herramientas y hacer razonamiento más sofisticado después de recibir resultados de herramientas.

Con pensamiento intercalado, Claude puede:

Razonar sobre los resultados de una llamada de herramienta antes de decidir qué hacer a continuación
Encadenar múltiples llamadas de herramientas con pasos de razonamiento en el medio
Tomar decisiones más matizadas basadas en resultados intermedios

Para Claude Opus 4.6, el pensamiento intercalado se habilita automáticamente cuando se usa pensamiento adaptativo — no se necesita encabezado beta.

Para modelos Claude 4, agregue el encabezado beta interleaved-thinking-2025-05-14 a su solicitud de API para habilitar el pensamiento intercalado.

Aquí hay algunas consideraciones importantes para el pensamiento intercalado:

Con pensamiento intercalado, budget_tokens puede exceder el parámetro max_tokens, ya que representa el presupuesto total en todos los bloques de pensamiento dentro de un turno del asistente.
El pensamiento intercalado solo es compatible con herramientas usadas a través de la API de Mensajes.
Para modelos Claude 4, el pensamiento intercalado requiere el encabezado beta interleaved-thinking-2025-05-14.
Las llamadas directas a la API de Claude le permiten pasar interleaved-thinking-2025-05-14 en solicitudes a cualquier modelo, sin efecto.
En plataformas de terceros (por ejemplo, Amazon Bedrock y Vertex AI), si pasa interleaved-thinking-2025-05-14 a cualquier modelo que no sea Claude Opus 4.6, Claude Opus 4.5, Claude Opus 4.1, Opus 4, o Sonnet 4, su solicitud fallará.

Pensamiento extendido con almacenamiento en caché de indicaciones

Almacenamiento en caché de indicaciones con pensamiento tiene varias consideraciones importantes:

Las tareas de pensamiento extendido a menudo toman más de 5 minutos para completarse. Considere usar la duración de caché de 1 hora para mantener aciertos de caché en sesiones de pensamiento más largas y flujos de trabajo de múltiples pasos.

Eliminación del contexto de bloques de pensamiento

Los bloques de pensamiento de turnos anteriores se eliminan del contexto, lo que puede afectar los puntos de ruptura de caché
Cuando se continúan conversaciones con uso de herramientas, los bloques de pensamiento se almacenan en caché y cuentan como tokens de entrada cuando se leen desde el caché
Esto crea un equilibrio: aunque los bloques de pensamiento no consumen espacio de ventana de contexto visualmente, aún cuentan hacia su uso de tokens de entrada cuando se almacenan en caché
Si el pensamiento se deshabilita y pasa contenido de pensamiento en el turno actual de uso de herramientas, el contenido de pensamiento se eliminará y el pensamiento permanecerá deshabilitado para esa solicitud

Patrones de invalidación de caché

Los cambios en parámetros de pensamiento (habilitado/deshabilitado o asignación de presupuesto) invalidan los puntos de ruptura de caché de mensajes
Pensamiento intercalado amplifica la invalidación de caché, ya que los bloques de pensamiento pueden ocurrir entre múltiples llamadas de herramientas
Los indicadores del sistema y las herramientas permanecen almacenados en caché a pesar de cambios en parámetros de pensamiento o eliminación de bloques

Aunque los bloques de pensamiento se eliminan para almacenamiento en caché y cálculos de contexto, deben preservarse cuando se continúan conversaciones con uso de herramientas, especialmente con pensamiento intercalado.

Comprensión del comportamiento del almacenamiento en caché de bloques de pensamiento

Cuando se utiliza el pensamiento extendido con el uso de herramientas, los bloques de pensamiento exhiben un comportamiento de almacenamiento en caché específico que afecta el conteo de tokens:

Cómo funciona:

El almacenamiento en caché solo ocurre cuando realiza una solicitud posterior que incluye resultados de herramientas
Cuando se realiza la solicitud posterior, el historial de conversación anterior (incluidos los bloques de pensamiento) puede almacenarse en caché
Estos bloques de pensamiento almacenados en caché se cuentan como tokens de entrada en sus métricas de uso cuando se leen desde el caché
Cuando se incluye un bloque de usuario que no es resultado de herramienta, todos los bloques de pensamiento anteriores se ignoran y se eliminan del contexto

Flujo de ejemplo detallado:

Solicitud 1:

User: "What's the weather in Paris?"

Respuesta 1:

[thinking_block_1] + [tool_use block 1]

Solicitud 2:

User: ["What's the weather in Paris?"], 
Assistant: [thinking_block_1] + [tool_use block 1], 
User: [tool_result_1, cache=True]

Respuesta 2:

[thinking_block_2] + [text block 2]

La solicitud 2 escribe un caché del contenido de la solicitud (no de la respuesta). El caché incluye el mensaje de usuario original, el primer bloque de pensamiento, el bloque de uso de herramienta y el resultado de la herramienta.

Solicitud 3:

User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [thinking_block_2] + [text block 2],
User: [Text response, cache=True]

Para Claude Opus 4.5 y posteriores (incluido Claude Opus 4.6), todos los bloques de pensamiento anteriores se conservan de forma predeterminada. Para modelos más antiguos, debido a que se incluyó un bloque de usuario que no es resultado de herramienta, todos los bloques de pensamiento anteriores se ignoran. Esta solicitud se procesará igual que:

User: ["What's the weather in Paris?"],
Assistant: [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [text block 2],
User: [Text response, cache=True]

Puntos clave:

Este comportamiento de almacenamiento en caché ocurre automáticamente, incluso sin marcadores cache_control explícitos
Este comportamiento es consistente ya sea que use pensamiento regular o pensamiento intercalado

Tokens máximos y tamaño de la ventana de contexto con pensamiento extendido

En modelos Claude más antiguos (anteriores a Claude Sonnet 3.7), si la suma de tokens de indicación y max_tokens excedía la ventana de contexto del modelo, el sistema ajustaría automáticamente max_tokens para que se ajuste al límite de contexto. Esto significaba que podía establecer un valor max_tokens grande y el sistema lo reduciría silenciosamente según sea necesario.

Con los modelos Claude 3.7 y 4, max_tokens (que incluye su presupuesto de pensamiento cuando el pensamiento está habilitado) se aplica como un límite estricto. El sistema ahora devolverá un error de validación si los tokens de indicación + max_tokens exceden el tamaño de la ventana de contexto.

Puede leer nuestra guía sobre ventanas de contexto para un análisis más profundo.

La ventana de contexto con pensamiento extendido

Al calcular el uso de la ventana de contexto con el pensamiento habilitado, hay algunas consideraciones a tener en cuenta:

Los bloques de pensamiento de turnos anteriores se eliminan y no se cuentan hacia su ventana de contexto
El pensamiento del turno actual se cuenta hacia su límite max_tokens para ese turno

El diagrama a continuación demuestra la gestión especializada de tokens cuando el pensamiento extendido está habilitado:

Diagrama de ventana de contexto con pensamiento extendido

La ventana de contexto efectiva se calcula como:

context window =
  (current input tokens - previous thinking tokens) +
  (thinking tokens + encrypted thinking tokens + text output tokens)

Recomendamos usar la API de conteo de tokens para obtener conteos de tokens precisos para su caso de uso específico, especialmente cuando se trabaja con conversaciones de múltiples turnos que incluyen pensamiento.

La ventana de contexto con pensamiento extendido y uso de herramientas

Cuando se utiliza el pensamiento extendido con el uso de herramientas, los bloques de pensamiento deben preservarse explícitamente y devolverse con los resultados de las herramientas.

El cálculo de la ventana de contexto efectiva para el pensamiento extendido con uso de herramientas se convierte en:

context window =
  (current input tokens + previous thinking tokens + tool use tokens) +
  (thinking tokens + encrypted thinking tokens + text output tokens)

El diagrama a continuación ilustra la gestión de tokens para el pensamiento extendido con uso de herramientas:

Diagrama de ventana de contexto con pensamiento extendido y uso de herramientas

Gestión de tokens con pensamiento extendido

Dado el comportamiento de la ventana de contexto y max_tokens con los modelos Claude 3.7 y 4 de pensamiento extendido, es posible que deba:

Monitorear y gestionar más activamente su uso de tokens
Ajustar valores max_tokens a medida que cambia la longitud de su indicación
Potencialmente usar los puntos finales de conteo de tokens con más frecuencia
Ser consciente de que los bloques de pensamiento anteriores no se acumulan en su ventana de contexto

Este cambio se ha realizado para proporcionar un comportamiento más predecible y transparente, especialmente a medida que los límites de tokens máximos han aumentado significativamente.

Cifrado de pensamiento

Full thinking content is encrypted and returned in the signature field. This field is used to verify that thinking blocks were generated by Claude when passed back to the API.

It is only strictly necessary to send back thinking blocks when using tools with extended thinking. Otherwise you can omit thinking blocks from previous turns, or let the API strip them for you if you pass them back.

If sending back thinking blocks, we recommend passing everything back as you received it for consistency and to avoid potential issues.

Here are some important considerations on thinking encryption:

When streaming responses, the signature is added via a signature_delta inside a content_block_delta event just before the content_block_stop event.
signature values are significantly longer in Claude 4 models than in previous models.
The signature field is an opaque field and should not be interpreted or parsed - it exists solely for verification purposes.
signature values are compatible across platforms (Claude APIs, Amazon Bedrock, and Vertex AI). Values generated on one platform will be compatible with another.

Redacción de pensamiento

Occasionally Claude's internal reasoning will be flagged by our safety systems. When this occurs, we encrypt some or all of the thinking block and return it to you as a redacted_thinking block. redacted_thinking blocks are decrypted when passed back to the API, allowing Claude to continue its response without losing context.

When building customer-facing applications that use extended thinking:

Be aware that redacted thinking blocks contain encrypted content that isn't human-readable
Consider providing a simple explanation like: "Some of Claude's internal reasoning has been automatically encrypted for safety reasons. This doesn't affect the quality of responses."
If showing thinking blocks to users, you can filter out redacted blocks while preserving normal thinking blocks
Be transparent that using extended thinking features may occasionally result in some reasoning being encrypted
Implement appropriate error handling to gracefully manage redacted thinking without breaking your UI

Here's an example showing both normal and redacted thinking blocks:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Let me analyze this step by step...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "redacted_thinking",
      "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
    },
    {
      "type": "text",
      "text": "Based on my analysis..."
    }
  ]
}

Seeing redacted thinking blocks in your output is expected behavior. The model can still use this redacted reasoning to inform its responses while maintaining safety guardrails.

If you need to test redacted thinking handling in your application, you can use this special test string as your prompt: ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

When passing thinking and redacted_thinking blocks back to the API in a multi-turn conversation, you must include the complete unmodified block back to the API for the last assistant turn. This is critical for maintaining the model's reasoning flow. We suggest always passing back all thinking blocks to the API. For more details, see the Preserving thinking blocks section.

Diferencias en el pensamiento entre versiones de modelos

La API de Mensajes maneja el pensamiento de manera diferente en los modelos Claude Sonnet 3.7 y Claude 4, principalmente en el comportamiento de redacción y resumen.

Vea la tabla a continuación para una comparación condensada:

Característica	Claude Sonnet 3.7	Modelos Claude 4 (pre-Opus 4.5)	Claude Opus 4.5	Claude Opus 4.6 (pensamiento adaptativo)
Salida de Pensamiento	Devuelve salida de pensamiento completa	Devuelve pensamiento resumido	Devuelve pensamiento resumido	Devuelve pensamiento resumido
Pensamiento Intercalado	No compatible	Compatible con encabezado beta `interleaved-thinking-2025-05-14`	Compatible con encabezado beta `interleaved-thinking-2025-05-14`	Automático con pensamiento adaptativo (sin encabezado beta necesario)
Preservación de Bloque de Pensamiento	No preservado entre turnos	No preservado entre turnos	Preservado de forma predeterminada	Preservado de forma predeterminada

Preservación de bloques de pensamiento en Claude Opus 4.5 y posteriores

A partir de Claude Opus 4.5 (y continuando en Claude Opus 4.6), los bloques de pensamiento de turnos de asistente anteriores se preservan en el contexto del modelo de forma predeterminada. Esto difiere de los modelos anteriores, que eliminan los bloques de pensamiento de turnos anteriores.

Beneficios de la preservación de bloques de pensamiento:

Optimización de caché: Cuando se usa el uso de herramientas, los bloques de pensamiento preservados permiten aciertos de caché ya que se devuelven con los resultados de herramientas y se almacenan en caché incrementalmente en el turno del asistente, lo que resulta en ahorros de tokens en flujos de trabajo de múltiples pasos
Sin impacto en la inteligencia: Preservar bloques de pensamiento no tiene efecto negativo en el rendimiento del modelo

Consideraciones importantes:

Uso de contexto: Las conversaciones largas consumirán más espacio de contexto ya que los bloques de pensamiento se retienen en el contexto
Comportamiento automático: Este es el comportamiento predeterminado para los modelos Claude Opus 4.5 y posteriores (incluido Opus 4.6): no se requieren cambios de código ni encabezados beta
Compatibilidad hacia atrás: Para aprovechar esta característica, continúe pasando bloques de pensamiento completos y sin modificar de vuelta a la API como lo haría para el uso de herramientas

Para modelos anteriores (Claude Sonnet 4.5, Opus 4.1, etc.), los bloques de pensamiento de turnos anteriores continúan siendo eliminados del contexto. El comportamiento existente descrito en la sección Pensamiento extendido con almacenamiento en caché de indicaciones se aplica a esos modelos.

Precios

For complete pricing information including base rates, cache writes, cache hits, and output tokens, see the pricing page.

The thinking process incurs charges for:

Tokens used during thinking (output tokens)
Thinking blocks from the last assistant turn included in subsequent requests (input tokens)
Standard text output tokens

When extended thinking is enabled, a specialized system prompt is automatically included to support this feature.

When using summarized thinking:

Input tokens: Tokens in your original request (excludes thinking tokens from previous turns)
Output tokens (billed): The original thinking tokens that Claude generated internally
Output tokens (visible): The summarized thinking tokens you see in the response
No charge: Tokens used to generate the summary

The billed output token count will not match the visible token count in the response. You are billed for the full thinking process, not the summary you see.

Mejores prácticas y consideraciones para el pensamiento extendido

Trabajar con presupuestos de pensamiento

Optimización de presupuesto: El presupuesto mínimo es de 1.024 tokens. Sugerimos comenzar con el mínimo e incrementar el presupuesto de pensamiento incrementalmente para encontrar el rango óptimo para su caso de uso. Los conteos de tokens más altos permiten un razonamiento más completo pero con rendimientos decrecientes dependiendo de la tarea. Aumentar el presupuesto puede mejorar la calidad de la respuesta a costa de una latencia aumentada. Para tareas críticas, pruebe diferentes configuraciones para encontrar el equilibrio óptimo. Tenga en cuenta que el presupuesto de pensamiento es un objetivo en lugar de un límite estricto: el uso real de tokens puede variar según la tarea.
Puntos de partida: Comience con presupuestos de pensamiento más grandes (16k+ tokens) para tareas complejas y ajuste según sus necesidades.
Presupuestos grandes: Para presupuestos de pensamiento superiores a 32k, recomendamos usar procesamiento por lotes para evitar problemas de red. Las solicitudes que empujan al modelo a pensar por encima de 32k tokens causan solicitudes de larga duración que podrían encontrarse con tiempos de espera del sistema y límites de conexión abierta.
Seguimiento del uso de tokens: Monitoree el uso de tokens de pensamiento para optimizar costos y rendimiento.

Consideraciones de rendimiento

Tiempos de respuesta: Prepárese para tiempos de respuesta potencialmente más largos debido al procesamiento adicional requerido para el proceso de razonamiento. Tenga en cuenta que generar bloques de pensamiento puede aumentar el tiempo de respuesta general.
Requisitos de transmisión: Los SDK requieren transmisión cuando max_tokens es mayor que 21.333 para evitar tiempos de espera HTTP en solicitudes de larga duración. Esta es una validación del lado del cliente, no una restricción de API. Si no necesita procesar eventos incrementalmente, use .stream() con .get_final_message() (Python) o .finalMessage() (TypeScript) para obtener el objeto Message completo sin manejar eventos individuales — vea Mensajes de transmisión para detalles. Al transmitir, prepárese para manejar bloques de contenido de pensamiento y texto a medida que llegan.

Compatibilidad de características

El pensamiento no es compatible con modificaciones de temperature o top_k así como uso forzado de herramientas.
Cuando el pensamiento está habilitado, puede establecer top_p en valores entre 1 y 0.95.
No puede rellenar previamente respuestas cuando el pensamiento está habilitado.
Los cambios en el presupuesto de pensamiento invalidan los prefijos de indicación almacenados en caché que incluyen mensajes. Sin embargo, los indicadores del sistema almacenados en caché y las definiciones de herramientas continuarán funcionando cuando cambien los parámetros de pensamiento.

Directrices de uso

Selección de tareas: Use el pensamiento extendido para tareas particularmente complejas que se benefician del razonamiento paso a paso como matemáticas, codificación y análisis.
Manejo de contexto: No necesita eliminar bloques de pensamiento anteriores usted mismo. La API de Claude ignora automáticamente los bloques de pensamiento de turnos anteriores y no se incluyen al calcular el uso de contexto.
Ingeniería de indicaciones: Revise nuestros consejos de indicaciones de pensamiento extendido si desea maximizar las capacidades de pensamiento de Claude.

Próximos pasos

Pruebe el libro de cocina de pensamiento extendido

Explore ejemplos prácticos de pensamiento en nuestro libro de cocina.

Consejos de indicaciones de pensamiento extendido

Aprenda las mejores prácticas de ingeniería de indicaciones para el pensamiento extendido.

Was this page helpful?

Capacidades

Construir con pensamiento extendido

El pensamiento extendido proporciona a Claude capacidades de razonamiento mejoradas para tareas complejas, con diferentes niveles de transparencia en su proceso de pensamiento paso a paso.

Modelos soportados

El pensamiento extendido es compatible con los siguientes modelos:

Claude Opus 4.6 (claude-opus-4-6) — pensamiento adaptativo recomendado; el modo manual (type: "enabled") está deprecado
Claude Opus 4.5 (claude-opus-4-5-20251101)
Claude Opus 4.1 (claude-opus-4-1-20250805)
Claude Opus 4 (claude-opus-4-20250514)
Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
Claude Sonnet 4 (claude-sonnet-4-20250514)
Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (deprecado)
Claude Haiku 4.5 (claude-haiku-4-5-20251001)

El comportamiento de la API difiere entre los modelos Claude Sonnet 3.7 y Claude 4, pero las formas de la API siguen siendo exactamente iguales.

Para más información, consulte Diferencias en el pensamiento entre versiones de modelos.

Cómo funciona el pensamiento extendido

La respuesta de la API incluirá bloques de contenido thinking, seguidos de bloques de contenido text.

Aquí hay un ejemplo del formato de respuesta predeterminado:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Let me analyze this step by step...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "text",
      "text": "Based on my analysis..."
    }
  ]
}

Para más información sobre el formato de respuesta del pensamiento extendido, consulte la Referencia de la API de Mensajes.

Cómo usar el pensamiento extendido

Aquí hay un ejemplo de uso del pensamiento extendido en la API de Mensajes:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
        }
    ]
}'

Claude Opus 4.6 soporta hasta 128K tokens de salida. Los modelos anteriores soportan hasta 64K tokens de salida.

Pensamiento resumido

Here are some important considerations for summarized thinking:

You're charged for the full thinking tokens generated by the original request, not the summary tokens.
The billed output token count will not match the count of tokens you see in the response.
The first few lines of thinking output are more verbose, providing detailed reasoning that's particularly helpful for prompt engineering purposes.
As Anthropic seeks to improve the extended thinking feature, summarization behavior is subject to change.
Summarization preserves the key ideas of Claude's thinking process with minimal added latency, enabling a streamable user experience and easy migration from Claude Sonnet 3.7 to Claude 4 and later models.
Summarization is processed by a different model than the one you target in your requests. The thinking model does not see the summarized output.

Claude Sonnet 3.7 continues to return full thinking output.

In rare cases where you need access to full thinking output for Claude 4 models, contact our sales team.

Pensamiento en streaming

Puede hacer streaming de respuestas de pensamiento extendido usando eventos enviados por el servidor (SSE).

Cuando el streaming está habilitado para el pensamiento extendido, recibe contenido de pensamiento a través de eventos thinking_delta.

Para más documentación sobre streaming a través de la API de Mensajes, consulte Streaming de Mensajes.

Aquí se muestra cómo manejar el streaming con pensamiento:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "stream": true,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "What is the greatest common divisor of 1071 and 462?"
        }
    ]
}'

Try in Console

Ejemplo de salida de streaming:

event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-5", "stop_reason": null, "stop_sequence": null}}

event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "I need to find the GCD of 1071 and 462 using the Euclidean algorithm.\n\n1071 = 2 × 462 + 147"}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n462 = 3 × 147 + 21\n147 = 7 × 21 + 0\n\nSo GCD(1071, 462) = 21"}}

// Additional thinking deltas...

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}

event: content_block_stop
data: {"type": "content_block_stop", "index": 0}

event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "The greatest common divisor of 1071 and 462 is **21**."}}

// Additional text deltas...

event: content_block_stop
data: {"type": "content_block_stop", "index": 1}

event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}

event: message_stop
data: {"type": "message_stop"}

Pensamiento extendido con uso de herramientas

El pensamiento extendido se puede usar junto con uso de herramientas, permitiendo que Claude razone a través de la selección de herramientas y el procesamiento de resultados.

Cuando se usa pensamiento extendido con uso de herramientas, tenga en cuenta las siguientes limitaciones:

Limitación de elección de herramienta: El uso de herramientas con pensamiento solo soporta tool_choice: {"type": "auto"} (el predeterminado) o tool_choice: {"type": "none"}. Usar tool_choice: {"type": "any"} o tool_choice: {"type": "tool", "name": "..."} resultará en un error porque estas opciones fuerzan el uso de herramientas, que es incompatible con el pensamiento extendido.
Preservación de bloques de pensamiento: Durante el uso de herramientas, debe pasar bloques thinking de vuelta a la API para el último mensaje del asistente. Incluya el bloque completo sin modificar de vuelta a la API para mantener la continuidad del razonamiento.

Alternancia de modos de pensamiento en conversaciones

No puede alternar el pensamiento en el medio de un turno del asistente, incluyendo durante bucles de uso de herramientas. El turno completo del asistente debe operar en un único modo de pensamiento:

Si el pensamiento está habilitado, el turno final del asistente debe comenzar con un bloque de pensamiento.
Si el pensamiento está deshabilitado, el turno final del asistente no debe contener ningún bloque de pensamiento

Por ejemplo, esta secuencia es toda parte de un único turno del asistente:

User: "What's the weather in Paris?"
Assistant: [thinking] + [tool_use: get_weather]
User: [tool_result: "20°C, sunny"]
Assistant: [text: "The weather in Paris is 20°C and sunny"]

Aunque hay múltiples mensajes de API, el bucle de uso de herramientas es conceptualmente parte de una respuesta continua del asistente.

Degradación elegante del pensamiento

Eliminar bloques de pensamiento de la conversación cuando crearían una estructura de turno inválida
Deshabilitar el pensamiento para la solicitud actual cuando el historial de conversación es incompatible con el pensamiento habilitado

Orientación práctica

Mejor práctica: Planifique su estrategia de pensamiento al inicio de cada turno en lugar de intentar alternar a mitad de turno.

Ejemplo: Alternancia de pensamiento después de completar un turno

User: "What's the weather?"
Assistant: [tool_use] (thinking disabled)
User: [tool_result]
Assistant: [text: "It's sunny"]
User: "What about tomorrow?"
Assistant: [thinking] + [text: "..."] (thinking enabled - new turn)

Al completar el turno del asistente antes de alternar el pensamiento, se asegura de que el pensamiento esté realmente habilitado para la nueva solicitud.

Preservación de bloques de pensamiento

Filtrará automáticamente los bloques de pensamiento proporcionados
Usará los bloques de pensamiento relevantes necesarios para preservar el razonamiento del modelo
Solo cobrará por los tokens de entrada para los bloques mostrados a Claude

Continuidad del razonamiento: Los bloques de pensamiento capturan el razonamiento paso a paso de Claude que llevó a solicitudes de herramientas. Cuando publica resultados de herramientas, incluir el pensamiento original asegura que Claude pueda continuar su razonamiento desde donde lo dejó.
Mantenimiento del contexto: Aunque los resultados de herramientas aparecen como mensajes de usuario en la estructura de la API, son parte de un flujo de razonamiento continuo. Preservar bloques de pensamiento mantiene este flujo conceptual a través de múltiples llamadas de API. Para más información sobre gestión de contexto, consulte nuestra guía sobre ventanas de contexto.

Pensamiento intercalado

Con pensamiento intercalado, Claude puede:

Razonar sobre los resultados de una llamada de herramienta antes de decidir qué hacer a continuación
Encadenar múltiples llamadas de herramientas con pasos de razonamiento en el medio
Tomar decisiones más matizadas basadas en resultados intermedios

Para Claude Opus 4.6, el pensamiento intercalado se habilita automáticamente cuando se usa pensamiento adaptativo — no se necesita encabezado beta.

Para modelos Claude 4, agregue el encabezado beta interleaved-thinking-2025-05-14 a su solicitud de API para habilitar el pensamiento intercalado.

Aquí hay algunas consideraciones importantes para el pensamiento intercalado:

Con pensamiento intercalado, budget_tokens puede exceder el parámetro max_tokens, ya que representa el presupuesto total en todos los bloques de pensamiento dentro de un turno del asistente.
El pensamiento intercalado solo es compatible con herramientas usadas a través de la API de Mensajes.
Para modelos Claude 4, el pensamiento intercalado requiere el encabezado beta interleaved-thinking-2025-05-14.
Las llamadas directas a la API de Claude le permiten pasar interleaved-thinking-2025-05-14 en solicitudes a cualquier modelo, sin efecto.
En plataformas de terceros (por ejemplo, Amazon Bedrock y Vertex AI), si pasa interleaved-thinking-2025-05-14 a cualquier modelo que no sea Claude Opus 4.6, Claude Opus 4.5, Claude Opus 4.1, Opus 4, o Sonnet 4, su solicitud fallará.

Pensamiento extendido con almacenamiento en caché de indicaciones

Almacenamiento en caché de indicaciones con pensamiento tiene varias consideraciones importantes:

Eliminación del contexto de bloques de pensamiento

Los bloques de pensamiento de turnos anteriores se eliminan del contexto, lo que puede afectar los puntos de ruptura de caché
Cuando se continúan conversaciones con uso de herramientas, los bloques de pensamiento se almacenan en caché y cuentan como tokens de entrada cuando se leen desde el caché
Esto crea un equilibrio: aunque los bloques de pensamiento no consumen espacio de ventana de contexto visualmente, aún cuentan hacia su uso de tokens de entrada cuando se almacenan en caché
Si el pensamiento se deshabilita y pasa contenido de pensamiento en el turno actual de uso de herramientas, el contenido de pensamiento se eliminará y el pensamiento permanecerá deshabilitado para esa solicitud

Patrones de invalidación de caché

Los cambios en parámetros de pensamiento (habilitado/deshabilitado o asignación de presupuesto) invalidan los puntos de ruptura de caché de mensajes
Pensamiento intercalado amplifica la invalidación de caché, ya que los bloques de pensamiento pueden ocurrir entre múltiples llamadas de herramientas
Los indicadores del sistema y las herramientas permanecen almacenados en caché a pesar de cambios en parámetros de pensamiento o eliminación de bloques

Comprensión del comportamiento del almacenamiento en caché de bloques de pensamiento

Cuando se utiliza el pensamiento extendido con el uso de herramientas, los bloques de pensamiento exhiben un comportamiento de almacenamiento en caché específico que afecta el conteo de tokens:

Cómo funciona:

El almacenamiento en caché solo ocurre cuando realiza una solicitud posterior que incluye resultados de herramientas
Cuando se realiza la solicitud posterior, el historial de conversación anterior (incluidos los bloques de pensamiento) puede almacenarse en caché
Estos bloques de pensamiento almacenados en caché se cuentan como tokens de entrada en sus métricas de uso cuando se leen desde el caché
Cuando se incluye un bloque de usuario que no es resultado de herramienta, todos los bloques de pensamiento anteriores se ignoran y se eliminan del contexto

Flujo de ejemplo detallado:

Solicitud 1:

User: "What's the weather in Paris?"

Respuesta 1:

[thinking_block_1] + [tool_use block 1]

Solicitud 2:

User: ["What's the weather in Paris?"], 
Assistant: [thinking_block_1] + [tool_use block 1], 
User: [tool_result_1, cache=True]

Respuesta 2:

[thinking_block_2] + [text block 2]

Solicitud 3:

User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [thinking_block_2] + [text block 2],
User: [Text response, cache=True]

User: ["What's the weather in Paris?"],
Assistant: [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [text block 2],
User: [Text response, cache=True]

Puntos clave:

Este comportamiento de almacenamiento en caché ocurre automáticamente, incluso sin marcadores cache_control explícitos
Este comportamiento es consistente ya sea que use pensamiento regular o pensamiento intercalado

Tokens máximos y tamaño de la ventana de contexto con pensamiento extendido

Puede leer nuestra guía sobre ventanas de contexto para un análisis más profundo.

La ventana de contexto con pensamiento extendido

Al calcular el uso de la ventana de contexto con el pensamiento habilitado, hay algunas consideraciones a tener en cuenta:

Los bloques de pensamiento de turnos anteriores se eliminan y no se cuentan hacia su ventana de contexto
El pensamiento del turno actual se cuenta hacia su límite max_tokens para ese turno

El diagrama a continuación demuestra la gestión especializada de tokens cuando el pensamiento extendido está habilitado:

Diagrama de ventana de contexto con pensamiento extendido

La ventana de contexto efectiva se calcula como:

context window =
  (current input tokens - previous thinking tokens) +
  (thinking tokens + encrypted thinking tokens + text output tokens)

La ventana de contexto con pensamiento extendido y uso de herramientas

Cuando se utiliza el pensamiento extendido con el uso de herramientas, los bloques de pensamiento deben preservarse explícitamente y devolverse con los resultados de las herramientas.

El cálculo de la ventana de contexto efectiva para el pensamiento extendido con uso de herramientas se convierte en:

context window =
  (current input tokens + previous thinking tokens + tool use tokens) +
  (thinking tokens + encrypted thinking tokens + text output tokens)

El diagrama a continuación ilustra la gestión de tokens para el pensamiento extendido con uso de herramientas:

Diagrama de ventana de contexto con pensamiento extendido y uso de herramientas

Gestión de tokens con pensamiento extendido

Dado el comportamiento de la ventana de contexto y max_tokens con los modelos Claude 3.7 y 4 de pensamiento extendido, es posible que deba:

Monitorear y gestionar más activamente su uso de tokens
Ajustar valores max_tokens a medida que cambia la longitud de su indicación
Potencialmente usar los puntos finales de conteo de tokens con más frecuencia
Ser consciente de que los bloques de pensamiento anteriores no se acumulan en su ventana de contexto

Este cambio se ha realizado para proporcionar un comportamiento más predecible y transparente, especialmente a medida que los límites de tokens máximos han aumentado significativamente.

Cifrado de pensamiento

Full thinking content is encrypted and returned in the signature field. This field is used to verify that thinking blocks were generated by Claude when passed back to the API.

If sending back thinking blocks, we recommend passing everything back as you received it for consistency and to avoid potential issues.

Here are some important considerations on thinking encryption:

When streaming responses, the signature is added via a signature_delta inside a content_block_delta event just before the content_block_stop event.
signature values are significantly longer in Claude 4 models than in previous models.
The signature field is an opaque field and should not be interpreted or parsed - it exists solely for verification purposes.
signature values are compatible across platforms (Claude APIs, Amazon Bedrock, and Vertex AI). Values generated on one platform will be compatible with another.

Redacción de pensamiento

When building customer-facing applications that use extended thinking:

Be aware that redacted thinking blocks contain encrypted content that isn't human-readable
Consider providing a simple explanation like: "Some of Claude's internal reasoning has been automatically encrypted for safety reasons. This doesn't affect the quality of responses."
If showing thinking blocks to users, you can filter out redacted blocks while preserving normal thinking blocks
Be transparent that using extended thinking features may occasionally result in some reasoning being encrypted
Implement appropriate error handling to gracefully manage redacted thinking without breaking your UI

Here's an example showing both normal and redacted thinking blocks:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Let me analyze this step by step...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "redacted_thinking",
      "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
    },
    {
      "type": "text",
      "text": "Based on my analysis..."
    }
  ]
}

Seeing redacted thinking blocks in your output is expected behavior. The model can still use this redacted reasoning to inform its responses while maintaining safety guardrails.

Diferencias en el pensamiento entre versiones de modelos

La API de Mensajes maneja el pensamiento de manera diferente en los modelos Claude Sonnet 3.7 y Claude 4, principalmente en el comportamiento de redacción y resumen.

Vea la tabla a continuación para una comparación condensada:

Característica	Claude Sonnet 3.7	Modelos Claude 4 (pre-Opus 4.5)	Claude Opus 4.5	Claude Opus 4.6 (pensamiento adaptativo)
Salida de Pensamiento	Devuelve salida de pensamiento completa	Devuelve pensamiento resumido	Devuelve pensamiento resumido	Devuelve pensamiento resumido
Pensamiento Intercalado	No compatible	Compatible con encabezado beta `interleaved-thinking-2025-05-14`	Compatible con encabezado beta `interleaved-thinking-2025-05-14`	Automático con pensamiento adaptativo (sin encabezado beta necesario)
Preservación de Bloque de Pensamiento	No preservado entre turnos	No preservado entre turnos	Preservado de forma predeterminada	Preservado de forma predeterminada

Preservación de bloques de pensamiento en Claude Opus 4.5 y posteriores

Beneficios de la preservación de bloques de pensamiento:

Optimización de caché: Cuando se usa el uso de herramientas, los bloques de pensamiento preservados permiten aciertos de caché ya que se devuelven con los resultados de herramientas y se almacenan en caché incrementalmente en el turno del asistente, lo que resulta en ahorros de tokens en flujos de trabajo de múltiples pasos
Sin impacto en la inteligencia: Preservar bloques de pensamiento no tiene efecto negativo en el rendimiento del modelo

Consideraciones importantes:

Uso de contexto: Las conversaciones largas consumirán más espacio de contexto ya que los bloques de pensamiento se retienen en el contexto
Comportamiento automático: Este es el comportamiento predeterminado para los modelos Claude Opus 4.5 y posteriores (incluido Opus 4.6): no se requieren cambios de código ni encabezados beta
Compatibilidad hacia atrás: Para aprovechar esta característica, continúe pasando bloques de pensamiento completos y sin modificar de vuelta a la API como lo haría para el uso de herramientas

Precios

For complete pricing information including base rates, cache writes, cache hits, and output tokens, see the pricing page.

The thinking process incurs charges for:

Tokens used during thinking (output tokens)
Thinking blocks from the last assistant turn included in subsequent requests (input tokens)
Standard text output tokens

When extended thinking is enabled, a specialized system prompt is automatically included to support this feature.

When using summarized thinking:

Input tokens: Tokens in your original request (excludes thinking tokens from previous turns)
Output tokens (billed): The original thinking tokens that Claude generated internally
Output tokens (visible): The summarized thinking tokens you see in the response
No charge: Tokens used to generate the summary

The billed output token count will not match the visible token count in the response. You are billed for the full thinking process, not the summary you see.

Mejores prácticas y consideraciones para el pensamiento extendido

Trabajar con presupuestos de pensamiento

Optimización de presupuesto: El presupuesto mínimo es de 1.024 tokens. Sugerimos comenzar con el mínimo e incrementar el presupuesto de pensamiento incrementalmente para encontrar el rango óptimo para su caso de uso. Los conteos de tokens más altos permiten un razonamiento más completo pero con rendimientos decrecientes dependiendo de la tarea. Aumentar el presupuesto puede mejorar la calidad de la respuesta a costa de una latencia aumentada. Para tareas críticas, pruebe diferentes configuraciones para encontrar el equilibrio óptimo. Tenga en cuenta que el presupuesto de pensamiento es un objetivo en lugar de un límite estricto: el uso real de tokens puede variar según la tarea.
Puntos de partida: Comience con presupuestos de pensamiento más grandes (16k+ tokens) para tareas complejas y ajuste según sus necesidades.
Presupuestos grandes: Para presupuestos de pensamiento superiores a 32k, recomendamos usar procesamiento por lotes para evitar problemas de red. Las solicitudes que empujan al modelo a pensar por encima de 32k tokens causan solicitudes de larga duración que podrían encontrarse con tiempos de espera del sistema y límites de conexión abierta.
Seguimiento del uso de tokens: Monitoree el uso de tokens de pensamiento para optimizar costos y rendimiento.

Consideraciones de rendimiento

Tiempos de respuesta: Prepárese para tiempos de respuesta potencialmente más largos debido al procesamiento adicional requerido para el proceso de razonamiento. Tenga en cuenta que generar bloques de pensamiento puede aumentar el tiempo de respuesta general.
Requisitos de transmisión: Los SDK requieren transmisión cuando max_tokens es mayor que 21.333 para evitar tiempos de espera HTTP en solicitudes de larga duración. Esta es una validación del lado del cliente, no una restricción de API. Si no necesita procesar eventos incrementalmente, use .stream() con .get_final_message() (Python) o .finalMessage() (TypeScript) para obtener el objeto Message completo sin manejar eventos individuales — vea Mensajes de transmisión para detalles. Al transmitir, prepárese para manejar bloques de contenido de pensamiento y texto a medida que llegan.

Compatibilidad de características

El pensamiento no es compatible con modificaciones de temperature o top_k así como uso forzado de herramientas.
Cuando el pensamiento está habilitado, puede establecer top_p en valores entre 1 y 0.95.
No puede rellenar previamente respuestas cuando el pensamiento está habilitado.
Los cambios en el presupuesto de pensamiento invalidan los prefijos de indicación almacenados en caché que incluyen mensajes. Sin embargo, los indicadores del sistema almacenados en caché y las definiciones de herramientas continuarán funcionando cuando cambien los parámetros de pensamiento.

Directrices de uso

Selección de tareas: Use el pensamiento extendido para tareas particularmente complejas que se benefician del razonamiento paso a paso como matemáticas, codificación y análisis.
Manejo de contexto: No necesita eliminar bloques de pensamiento anteriores usted mismo. La API de Claude ignora automáticamente los bloques de pensamiento de turnos anteriores y no se incluyen al calcular el uso de contexto.
Ingeniería de indicaciones: Revise nuestros consejos de indicaciones de pensamiento extendido si desea maximizar las capacidades de pensamiento de Claude.

Próximos pasos

Pruebe el libro de cocina de pensamiento extendido

Explore ejemplos prácticos de pensamiento en nuestro libro de cocina.

Consejos de indicaciones de pensamiento extendido

Aprenda las mejores prácticas de ingeniería de indicaciones para el pensamiento extendido.

Was this page helpful?

Modelos soportados

Cómo funciona el pensamiento extendido

Cómo usar el pensamiento extendido

Pensamiento resumido

Pensamiento en streaming

Pensamiento extendido con uso de herramientas

Alternancia de modos de pensamiento en conversaciones

Degradación elegante del pensamiento

Orientación práctica

Ejemplo: Pasar bloques de pensamiento con resultados de herramientas

Preservación de bloques de pensamiento

Pensamiento intercalado

Uso de herramientas sin pensamiento intercalado

Uso de herramientas con pensamiento intercalado

Pensamiento extendido con almacenamiento en caché de indicaciones

Comprensión del comportamiento del almacenamiento en caché de bloques de pensamiento

Almacenamiento en caché de indicaciones del sistema (preservado cuando cambia el pensamiento)

Almacenamiento en caché de mensajes (invalidado cuando cambia el pensamiento)

Tokens máximos y tamaño de la ventana de contexto con pensamiento extendido

La ventana de contexto con pensamiento extendido

La ventana de contexto con pensamiento extendido y uso de herramientas

Gestión de tokens con pensamiento extendido

Cifrado de pensamiento

Redacción de pensamiento

Ejemplo: Trabajar con bloques de pensamiento redactados

Diferencias en el pensamiento entre versiones de modelos

Preservación de bloques de pensamiento en Claude Opus 4.5 y posteriores

Precios

Mejores prácticas y consideraciones para el pensamiento extendido

Trabajar con presupuestos de pensamiento

Consideraciones de rendimiento

Compatibilidad de características

Directrices de uso

Próximos pasos

Modelos soportados

Cómo funciona el pensamiento extendido

Cómo usar el pensamiento extendido

Pensamiento resumido

Pensamiento en streaming

Pensamiento extendido con uso de herramientas

Alternancia de modos de pensamiento en conversaciones

Degradación elegante del pensamiento

Orientación práctica

Ejemplo: Pasar bloques de pensamiento con resultados de herramientas

Preservación de bloques de pensamiento

Pensamiento intercalado

Uso de herramientas sin pensamiento intercalado

Uso de herramientas con pensamiento intercalado

Pensamiento extendido con almacenamiento en caché de indicaciones

Comprensión del comportamiento del almacenamiento en caché de bloques de pensamiento

Almacenamiento en caché de indicaciones del sistema (preservado cuando cambia el pensamiento)

Almacenamiento en caché de mensajes (invalidado cuando cambia el pensamiento)

Tokens máximos y tamaño de la ventana de contexto con pensamiento extendido

La ventana de contexto con pensamiento extendido

La ventana de contexto con pensamiento extendido y uso de herramientas

Gestión de tokens con pensamiento extendido

Cifrado de pensamiento

Redacción de pensamiento

Ejemplo: Trabajar con bloques de pensamiento redactados

Diferencias en el pensamiento entre versiones de modelos

Preservación de bloques de pensamiento en Claude Opus 4.5 y posteriores

Precios

Mejores prácticas y consideraciones para el pensamiento extendido

Trabajar con presupuestos de pensamiento

Consideraciones de rendimiento

Compatibilidad de características

Directrices de uso

Próximos pasos