Esta guía cubre la migración de código de la Messages API. Si usas Claude Managed Agents, no se requieren cambios más allá de actualizar el nombre del modelo.
Automatiza tu migración con el skill de la API de Claude. En Claude Code, ejecuta /claude-api migrate para invocar el skill de la API de Claude incluido. Funciona para cualquier modelo de destino en esta página:
/claude-api migrate this project to claude-opus-4-8El skill aplica el cambio de ID del modelo y, según sea necesario, los cambios de parámetros incompatibles, el reemplazo de prefill y la calibración de effort para tu modelo de destino en todo tu código base, y luego produce una lista de verificación de elementos para revisar manualmente. Te pide que confirmes el alcance de la migración (todo el directorio de trabajo, un subdirectorio o una lista específica de archivos) antes de editar cualquier archivo. El skill también detecta clientes de Amazon Bedrock, Google Cloud, Claude Platform on AWS y Microsoft Foundry, y ajusta los formatos de ID de modelo y los cambios de funcionalidades para cada plataforma.
Claude Mythos 5 es el sucesor con acceso restringido de Claude Mythos Preview, la vista previa de investigación solo por invitación. Para un modelo de disponibilidad general con las mismas capacidades, consulta Claude Fable 5.
La migración es en su mayoría directa. Claude Mythos 5 usa la misma Messages API y los mismos patrones de uso de herramientas que Claude Mythos Preview, y los recuentos de tokens se mantienen aproximadamente sin cambios porque ambos modelos usan el mismo tokenizador. Los cambios clave que debes revisar son las funcionalidades que ya no están disponibles (enumeradas en la siguiente sección) y la salida de pensamiento.
Para el cronograma de retiro de Claude Mythos Preview, consulta Obsolescencia de modelos.
model = "claude-mythos-preview" # Before
model = "claude-mythos-5" # AfterPensamiento extendido y presupuestos de tokens de pensamiento: El pensamiento extendido manual (thinking: {type: "enabled", budget_tokens: N}) no es compatible con claude-mythos-5 y devuelve un error 400. El pensamiento adaptativo siempre está activado: el modelo determina cuándo y cuánto pensar en cada solicitud, y no se requiere ninguna configuración de thinking. thinking: {type: "disabled"} devuelve un error. budget_tokens no tiene un reemplazo directo: el pensamiento es adaptativo, y el parámetro effort es un control separado a nivel de salida, no un presupuesto de pensamiento.
Antes (Claude Mythos Preview):
client.messages.create(
model="claude-mythos-preview",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 10000},
messages=[{"role": "user", "content": "..."}],
)Después (Claude Mythos 5):
client.messages.create(
model="claude-mythos-5",
max_tokens=16000,
messages=[{"role": "user", "content": "..."}],
)Prefill del asistente: Prellenar el mensaje del asistente no es compatible con claude-mythos-5 y devuelve un error 400, igual que en Claude Mythos Preview. Usa instrucciones en la indicación del sistema en su lugar.
Salida de pensamiento: En claude-mythos-5, la cadena de pensamiento sin procesar nunca se devuelve, pero los bloques de pensamiento aún contienen texto resumido legible cuando thinking.display está configurado como summarized. Devuelve los bloques de pensamiento sin cambios al continuar una conversación en el mismo modelo. Consulta Salida de pensamiento en Claude Fable 5 y Claude Mythos 5.
claude-mythos-5 usa el mismo tokenizador que claude-mythos-preview (el tokenizador introducido con Claude Opus 4.7). Los recuentos de tokens se mantienen aproximadamente sin cambios al migrar desde claude-mythos-preview. En comparación con modelos anteriores a Claude Opus 4.7, el mismo contenido puede tokenizarse en aproximadamente un 30% más de tokens, variando según el contenido y la forma de la carga de trabajo.
/v1/messages/count_tokens devuelve valores aproximadamente sin cambios para claude-mythos-5 en comparación con claude-mythos-preview. Vuelve a establecer una línea base de costo y latencia en tus propias cargas de trabajo.
claude-mythos-preview a claude-mythos-5.thinking: {type: "enabled", budget_tokens: N}). El pensamiento adaptativo siempre está activado, y no se requiere ningún campo thinking.thinking: {type: "disabled"}. Deshabilitar el pensamiento devuelve un error en claude-mythos-5.budget_tokens. No tiene un reemplazo directo: el pensamiento es adaptativo, y el parámetro effort es un control separado a nivel de salida, no un presupuesto de pensamiento.thinking lo trate solo como texto de visualización y devuelva los bloques de pensamiento sin cambios al continuar en el mismo modelo. thinking.display tiene como valor predeterminado "omitted" en claude-mythos-5, igual que en Claude Mythos Preview; configura display: "summarized" para recibir resúmenes legibles. Consulta Salida de pensamiento en Claude Fable 5 y Claude Mythos 5.thinking y redacted_thinking de los turnos anteriores del asistente. Los bloques de pensamiento de claude-mythos-5 están vinculados al modelo que los produjo, y los modelos distintos de Claude Fable 5 y Claude Mythos 5 los ignoran silenciosamente. Eliminarlos mantiene las solicitudes entre modelos mínimas y uniformes.claude-mythos-preview.Claude Fable 5 es el modelo de lanzamiento amplio más capaz de Anthropic, disponible de forma general en la API de Claude, Claude Platform on AWS, Amazon Bedrock, Google Cloud y Microsoft Foundry.
La migración es en su mayoría directa. Claude Fable 5 usa la misma Messages API y los mismos patrones de uso de herramientas que Claude Opus 4.8. Admite la misma ventana de contexto de 1M de tokens de forma predeterminada y el mismo máximo de 128k tokens de salida. Los recuentos de tokens se mantienen aproximadamente sin cambios porque ambos modelos usan el mismo tokenizador.
Los cambios clave que debes revisar son el pensamiento adaptativo siempre activado, la salida de pensamiento, los rechazos del clasificador de seguridad y los precios. Antes de migrar cubre los precios y la retención de datos; Qué cambió cubre el resto.
Claude Fable 5 tiene un precio de $10 por millón de tokens de entrada y $50 por millón de tokens de salida, en comparación con $5 y $25 para Claude Opus 4.8. Consulta Precios de Claude para obtener más detalles.
Claude Fable 5 requiere retención de datos de 30 días y no está disponible bajo acuerdos de "zero data retention" (retención cero de datos), o ZDR; está designado como un Modelo Cubierto. Una solicitud de una organización cuya configuración de retención de datos no cumpla con este requisito devuelve un error 400 invalid_request_error. Las organizaciones con un acuerdo ZDR deben contactar a su equipo de cuenta de Anthropic para discutir la configuración de retención de datos; Claude Opus 4.8 sigue disponible bajo ZDR. Alternativamente, puedes configurar la retención de datos por espacio de trabajo; consulta Requisitos de retención de datos específicos del modelo. En Amazon Bedrock, Google Cloud y Microsoft Foundry, la retención de datos se rige por cada plataforma.
Si tu código está en Claude Opus 4.7 o anterior, primero aplica Migración de Claude Opus 4.7 a Claude Opus 4.8 y, para modelos anteriores a Claude Opus 4.7, los pasos de migración a Claude Opus 4.7. Esas secciones cubren cambios incompatibles (parámetros de muestreo rechazados, pensamiento extendido manual rechazado, prefill eliminado, nuevo tokenizador) que esta sección no repite.
model = "claude-opus-4-8" # Before
model = "claude-fable-5" # AfterLos elementos de esta sección describen las diferencias de API y comportamiento que vale la pena revisar después de cambiar el ID del modelo.
El pensamiento adaptativo siempre está activado: El pensamiento adaptativo es el único modo de pensamiento en claude-fable-5. El modelo determina cuándo y cuánto pensar en cada solicitud, y no se requiere ninguna configuración de thinking. thinking: {type: "disabled"} devuelve un error. Usa el parámetro effort para controlar la profundidad del pensamiento.
El cambio de comportamiento que debes revisar: en Claude Opus 4.8, las solicitudes sin un campo thinking se ejecutan sin pensamiento; en claude-fable-5, esas mismas solicitudes se ejecutan con pensamiento adaptativo. max_tokens sigue siendo un límite estricto en la salida total, pensamiento más texto de respuesta, así que revísalo para cargas de trabajo que se ejecutaban sin pensamiento en Claude Opus 4.8. Consulta Control de costos.
Antes (Claude Opus 4.8):
client.messages.create(
model="claude-opus-4-8",
max_tokens=16000,
thinking={"type": "adaptive"},
output_config={"effort": "high"},
messages=[{"role": "user", "content": "..."}],
)Después (Claude Fable 5):
client.messages.create(
model="claude-fable-5",
max_tokens=16000,
output_config={"effort": "high"},
messages=[{"role": "user", "content": "..."}],
)Pensamiento extendido y presupuestos de pensamiento (sin cambios): El pensamiento extendido manual (thinking: {type: "enabled", budget_tokens: N}) no es compatible con claude-fable-5 y devuelve un error 400, igual que en Claude Opus 4.8. budget_tokens no tiene un reemplazo directo: el pensamiento es adaptativo, y el parámetro effort es un control separado a nivel de salida, no un presupuesto de pensamiento.
Prefill del asistente (sin cambios): Prellenar el mensaje del asistente no es compatible con claude-fable-5 y devuelve un error 400, igual que en Claude Opus 4.8. Usa instrucciones en la indicación del sistema en su lugar.
Salida de pensamiento: En claude-fable-5, la cadena de pensamiento sin procesar nunca se devuelve, pero los bloques de pensamiento aún contienen texto resumido legible cuando thinking.display está configurado como summarized. Devuelve los bloques de pensamiento sin cambios al continuar una conversación en el mismo modelo. Consulta Salida de pensamiento en Claude Fable 5 y Claude Mythos 5.
Clasificadores de seguridad y el stop reason refusal: claude-fable-5 ejecuta clasificadores de seguridad en las solicitudes y durante la generación de respuestas. Cuando un clasificador rechaza una solicitud, la Messages API devuelve stop_reason: "refusal" como una respuesta HTTP 200 exitosa, no como un error. El campo stop_details.category informa qué clasificador se activó, con categorías como "cyber", "bio" y "reasoning_extraction", o null cuando el rechazo no corresponde a ninguna categoría con nombre. Consulta la tabla de categorías de rechazo para ver el conjunto completo.
No se te factura por los tokens de entrada de una solicitud rechazada antes de que se genere cualquier salida. Cuando un clasificador se activa a mitad del stream, se facturan la entrada y la salida ya transmitida; descarta la salida parcial.
Para volver a ejecutar automáticamente las solicitudes rechazadas en otro modelo, pasa el parámetro opcional fallbacks, que está en beta en la API de Claude y en Claude Platform on AWS. El parámetro no está disponible en la Message Batches API ni en Amazon Bedrock, Google Cloud y Microsoft Foundry; en esas tres plataformas, ejecuta el reintento del lado del cliente o usa el middleware de fallback de rechazo del SDK. Consulta Manejo de stop reasons.
Comienza con effort high: El valor predeterminado del parámetro effort sigue siendo high. En Claude Opus 4.8, la recomendación para programación y trabajo de alta autonomía es configurar xhigh explícitamente. En claude-fable-5, usa high como valor predeterminado para la mayoría de las tareas y reserva xhigh para las cargas de trabajo más sensibles a la capacidad. Las configuraciones de effort más bajas en claude-fable-5 aún funcionan bien y a menudo superan el rendimiento de xhigh en modelos anteriores. Reduce el effort si una tarea se completa pero tarda más de lo necesario. Consulta Prompting para Claude Fable 5.
Mínimo más bajo para almacenamiento en caché de prompts: La longitud mínima de prompt cacheable en claude-fable-5 es de 512 tokens, menor que los 1.024 tokens en Claude Opus 4.8. Los prompts que eran demasiado cortos para almacenar en caché en Claude Opus 4.8 ahora pueden crear entradas de caché, sin necesidad de cambios en el código. En Amazon Bedrock, el mínimo para claude-fable-5 es de 1.024 tokens. Consulta Almacenamiento en caché de prompts para ver los mínimos por modelo.
claude-fable-5 requiere retención de datos de 30 días y devuelve un error 400 invalid_request_error en caso contrario. Consulta Requisitos de retención de datos específicos del modelo.claude-opus-4-8 a claude-fable-5.thinking: {type: "disabled"}. Deshabilitar el pensamiento devuelve un error en claude-fable-5, y las solicitudes sin un campo thinking se ejecutan con pensamiento adaptativo.claude-fable-5.thinking lo trate solo como texto de visualización y devuelva los bloques de pensamiento sin cambios al continuar en el mismo modelo. thinking.display tiene como valor predeterminado "omitted" en claude-fable-5, igual que en Claude Opus 4.8; configura display: "summarized" para recibir resúmenes legibles. Consulta Salida de pensamiento en Claude Fable 5 y Claude Mythos 5.thinking y redacted_thinking de los turnos anteriores del asistente. Los bloques de pensamiento de claude-fable-5 están vinculados al modelo que los produjo, y los modelos distintos de Claude Fable 5 y Claude Mythos 5 los ignoran silenciosamente. Eliminarlos mantiene las solicitudes entre modelos mínimas y uniformes. La excepción es canjear un crédito de fallback, que requiere el cuerpo de la solicitud replicado bajo las reglas exactas de esa funcionalidad.stop_reason: "refusal" y lee el campo stop_details.category. Para volver a ejecutar automáticamente las solicitudes rechazadas en otro modelo, considera el parámetro opcional fallbacks (beta). Consulta Manejo de stop reasons.effort. Comienza con high para la mayoría de las tareas, incluidas las cargas de trabajo que se ejecutaban con xhigh en Claude Opus 4.8.claude-opus-4-8; los precios por token difieren.Claude Opus 4.8 es el modelo de nivel Opus más capaz de Anthropic. Se basa en Claude Opus 4.7.
Claude Opus 4.8 debería tener un rendimiento sólido desde el primer momento con los prompts y evaluaciones existentes de Claude Opus 4.7. No hay cambios incompatibles en la API para código que ya se ejecuta en Claude Opus 4.7. Admite el mismo conjunto de funcionalidades que Claude Opus 4.7, incluyendo la ventana de contexto de 1M de tokens, máximo de 128k tokens de salida, pensamiento adaptativo, almacenamiento en caché de prompts, procesamiento por lotes, la Files API, soporte para PDF, visión y el conjunto completo de herramientas del lado del servidor y del cliente. También agrega mensajes del sistema a mitad de conversación y documenta públicamente los detalles de parada por rechazo.
Si tu código está en Claude Opus 4.6 o anterior, también aplica los pasos de migración a Claude Opus 4.7 a continuación antes de actualizar a Claude Opus 4.8. Esos pasos incluyen cambios incompatibles (parámetros de muestreo rechazados, pensamiento extendido manual rechazado, nuevo tokenizador) que la actualización a 4.8 por sí sola no cubre.
# Migración de Opus
model = "claude-opus-4-7" # Before
model = "claude-opus-4-8" # AfterEstos no son cambios incompatibles. El código que se ejecuta en Claude Opus 4.7 continúa funcionando sin cambios en Claude Opus 4.8. Los elementos a continuación describen diferencias de comportamiento que vale la pena revisar después de cambiar el ID del modelo.
Parámetros de muestreo (sin cambios): Configurar temperature, top_p o top_k a un valor no predeterminado devuelve un error 400 en Claude Opus 4.8, igual que en Claude Opus 4.7. Los tipos de solicitud del SDK aún definen estos campos por compatibilidad con modelos anteriores, por lo que el código que los configura pasa la verificación de tipos, pero la API rechaza la solicitud del lado del servidor. Si eliminaste estos parámetros al migrar a Opus 4.7, no se necesitan más cambios.
El valor predeterminado de effort es high: El valor predeterminado del parámetro effort en Claude Opus 4.8 es high en todas las superficies, incluyendo Claude Code y la Messages API. Si ya configuras effort explícitamente, tu configuración no cambia. Para programación y trabajo de alta autonomía, configura xhigh explícitamente. Reevalúa tu configuración de effort en función de tu presupuesto de latencia y costo.
La ventana de contexto de 1M es la predeterminada: Claude Opus 4.8 ofrece la ventana de contexto completa de 1M de tokens de forma predeterminada sin encabezado beta y sin recargo por contexto largo. Si tu cliente pasa un encabezado beta de ventana de contexto por compatibilidad con modelos anteriores, puedes eliminarlo en Claude Opus 4.8.
Mensajes del sistema a mitad de conversación: Claude Opus 4.8 acepta mensajes con role: "system" inmediatamente después de un turno de usuario en el array messages (sujeto a reglas de ubicación). Usa el campo system de nivel superior para instrucciones que se aplican desde el inicio. Los modelos anteriores, incluido Claude Opus 4.7, rechazan role: "system" en messages con un error 400. Si mantienes rutas de código que reconstruyen el historial completo de mensajes para actualizar instrucciones, puedes simplificarlas y preservar los aciertos de caché de prompts en turnos anteriores.
Detalles de parada por rechazo: El objeto stop_details en las respuestas de rechazo (disponible desde Claude Opus 4.7) ahora está documentado públicamente. Cuando el modelo rechaza una solicitud, identifica la categoría de rechazo, además del stop reason refusal existente. No se requiere encabezado beta, y no hay opción de exclusión. Consulta Manejo de stop reasons.
Mínimo más bajo para almacenamiento en caché de prompts: La longitud mínima de prompt cacheable en Claude Opus 4.8 es de 1.024 tokens, menor que en Claude Opus 4.7. Los prompts que eran demasiado cortos para almacenar en caché en Claude Opus 4.7 ahora pueden crear entradas de caché, sin necesidad de cambios en el código. Consulta Almacenamiento en caché de prompts para ver los mínimos por modelo.
Niveles de effort recalibrados: La asignación de tokens detrás de cada nivel de effort cambia en Claude Opus 4.8 en comparación con Claude Opus 4.7: medium permite algo más de pensamiento, high algo menos, y xhigh sustancialmente más. Si ajustaste un nivel de effort en función del costo o la latencia de Claude Opus 4.7, vuelve a establecer una línea base en el mismo nivel antes de ajustarlo. Consulta Effort.
claude-opus-4-7 a claude-opus-4-8 (o actualiza los alias).effort. El valor predeterminado es high en todas las superficies; para programación y trabajo de alta autonomía, configura xhigh explícitamente.stop_details en los rechazos (disponible desde Claude Opus 4.7; ahora documentado públicamente).Claude Opus 4.7 es altamente autónomo y tiene un rendimiento excepcional en trabajo agéntico de largo horizonte, trabajo de conocimiento, tareas de visión y tareas de memoria.
Claude Opus 4.7 debería tener un rendimiento sólido desde el primer momento con los prompts y evaluaciones existentes de Claude Opus 4.6 al mismo precio de $5 / $25 por MTok, pero hay algunos cambios de comportamiento y de API que vale la pena conocer al migrar. Admite el mismo conjunto de funcionalidades que Claude Opus 4.6, incluyendo:
# Migración de Opus
model = "claude-opus-4-6" # Before
model = "claude-opus-4-7" # AfterPensamiento extendido eliminado: thinking: {type: "enabled", budget_tokens: N} ya no es compatible con Claude Opus 4.7 o modelos posteriores y devuelve un error 400. Cambia a pensamiento adaptativo (thinking: {type: "adaptive"}) y usa el parámetro effort para controlar la profundidad del pensamiento. El pensamiento adaptativo está desactivado de forma predeterminada en Claude Opus 4.7: las solicitudes sin campo thinking se ejecutan sin pensamiento, coincidiendo con el comportamiento de Opus 4.6. Configura thinking: {type: "adaptive"} explícitamente para habilitarlo.
Antes (Claude Opus 4.6):
client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 10000},
messages=[{"role": "user", "content": "..."}],
)Después (Claude Opus 4.7):
client.messages.create(
model="claude-opus-4-7",
max_tokens=16000,
thinking={"type": "adaptive"},
output_config={"effort": "high"}, # or "max", "xhigh", "medium", "low"
messages=[{"role": "user", "content": "..."}],
)El pensamiento adaptativo se puede dirigir mediante prompting. Para obtener orientación sobre cómo ajustar cuando el modelo piensa demasiado o muy poco, consulta Calibración de effort y profundidad de pensamiento.
Parámetros de muestreo eliminados: Configurar temperature, top_p o top_k a cualquier valor no predeterminado en Claude Opus 4.7 devuelve un error 400. La ruta de migración más segura es omitir estos parámetros por completo de las cargas útiles de las solicitudes. El prompting es la forma recomendada de guiar el comportamiento del modelo en Claude Opus 4.7. Si usabas temperature = 0 para determinismo, ten en cuenta que nunca garantizó salidas idénticas en modelos anteriores.
Contenido de pensamiento omitido de forma predeterminada: Los bloques de pensamiento aún aparecen en el stream de respuesta en Claude Opus 4.7, pero su campo thinking está vacío a menos que optes explícitamente por incluirlo. Este es un cambio silencioso respecto a Claude Opus 4.6, donde el valor predeterminado era devolver texto de pensamiento resumido. Para restaurar el contenido de pensamiento resumido en Claude Opus 4.7, configura thinking.display como "summarized":
thinking = {
"type": "adaptive",
"display": "summarized",
}El valor predeterminado es "omitted" en Claude Opus 4.7. Si tu producto transmite el razonamiento a los usuarios, el nuevo valor predeterminado aparece como una pausa larga antes de que comience la salida; configura display: "summarized" para restaurar el progreso visible durante el pensamiento. Consulta Pensamiento extendido para obtener más detalles.
Conteo de tokens actualizado: Claude Opus 4.7 usa un nuevo tokenizador, lo que contribuye a su rendimiento mejorado en una amplia gama de tareas. El nuevo tokenizador puede usar aproximadamente de 1x a 1,35x más tokens al procesar texto en comparación con modelos anteriores (hasta ~35% más, variando según el contenido).
/v1/messages/count_tokens devolverá un número diferente de tokens para Claude Opus 4.7 que para Claude Opus 4.6. La eficiencia de tokens puede variar según la forma de la carga de trabajo.
Las intervenciones de prompting, task_budget y effort pueden ayudar a controlar los costos y asegurar un uso apropiado de tokens. Estos controles pueden implicar un compromiso con la inteligencia del modelo. Actualiza tus parámetros max_tokens para dar margen adicional, incluyendo los disparadores de compactación. Claude Opus 4.7 proporciona una ventana de contexto de 1M a precios estándar de la API sin recargo por contexto largo.
Eliminación de prefill (heredado de Opus 4.6): Prellenar mensajes del asistente devuelve un error 400 en Claude Opus 4.7. Usa salidas estructuradas, instrucciones en la indicación del sistema o output_config.format en su lugar.
El parámetro effort te permite ajustar la inteligencia de Claude frente al gasto de tokens, intercambiando capacidad por mayor velocidad y menores costos. Comienza con el nuevo nivel de effort xhigh para casos de uso de programación y agénticos, y usa un mínimo de effort high para la mayoría de los casos de uso sensibles a la inteligencia. Experimenta con otros niveles de effort para ajustar aún más el uso de tokens y la inteligencia:
max: El effort máximo puede ofrecer mejoras de rendimiento en algunos casos de uso, pero puede mostrar rendimientos decrecientes por el aumento del uso de tokens. Esta configuración también puede ser a veces propensa a pensar en exceso. Prueba el effort máximo para tareas que exigen inteligencia.xhigh (nuevo): El effort extra alto es la mejor configuración para la mayoría de los casos de uso de programación y agénticos.high: Esta configuración equilibra el uso de tokens y la inteligencia. Para la mayoría de los casos de uso sensibles a la inteligencia, usa un mínimo de effort high.medium: Bueno para casos de uso sensibles al costo que necesitan reducir el uso de tokens a cambio de inteligencia.low: Resérvalo para tareas cortas y acotadas y cargas de trabajo sensibles a la latencia que no son sensibles a la inteligencia.El effort es más importante para este modelo que para cualquier Opus anterior. Experimenta activamente con él cuando actualices.
Claude Opus 4.7 tiene varias diferencias de comportamiento respecto a Claude Opus 4.6 que no son cambios incompatibles de la API, pero que pueden requerir actualizaciones de prompts o la eliminación de scaffolding.
La longitud de la respuesta varía según el caso de uso: Claude Opus 4.7 calibra la longitud de la respuesta según la complejidad que juzga que tiene la tarea, en lugar de usar una verbosidad fija por defecto. Esto generalmente significa respuestas más cortas en consultas simples y mucho más largas en análisis abiertos.
Si tu producto depende de un cierto estilo o verbosidad de salida, es posible que necesites ajustar tus prompts. Por ejemplo, para reducir la verbosidad, agrega: "Proporciona respuestas concisas y enfocadas. Omite el contexto no esencial y mantén los ejemplos al mínimo." Si observas tipos específicos de sobreexplicación, agrega instrucciones específicas en tu prompt para prevenirlos.
Los ejemplos positivos que muestran cómo Claude puede comunicarse con el nivel apropiado de concisión tienden a ser más efectivos que los ejemplos negativos o las instrucciones que le dicen al modelo qué no hacer.
Seguimiento de instrucciones más literal: Claude Opus 4.7 interpreta los prompts de manera más literal y explícita que Claude Opus 4.6, particularmente en niveles de esfuerzo más bajos. No generalizará silenciosamente una instrucción de un elemento a otro, y no inferirá solicitudes que no hiciste. La ventaja de este literalismo es la precisión y menos idas y vueltas. Generalmente funciona mejor para casos de uso de la API con prompts cuidadosamente ajustados, extracción estructurada y pipelines donde deseas un comportamiento predecible. Una revisión de prompts y del harness puede ser especialmente útil para la migración a Claude Opus 4.7.
Tono más directo: Como con cualquier modelo nuevo, el estilo de prosa en escritura de formato largo puede cambiar. Claude Opus 4.7 es más directo y con más opiniones, con menos frases orientadas a la validación y menos emojis que el estilo más cálido de Claude Opus 4.6. Si tu producto depende de una voz específica, reevalúa los prompts de estilo frente a la nueva línea base.
Actualizaciones de progreso integradas en trazas agénticas: Claude Opus 4.7 proporciona actualizaciones más regulares y de mayor calidad al usuario a lo largo de trazas agénticas largas. Si has agregado scaffolding para forzar mensajes de estado intermedios ("Después de cada 3 llamadas a herramientas, resume el progreso"), intenta eliminarlo. Si encuentras que la longitud o el contenido de las actualizaciones de Claude Opus 4.7 dirigidas al usuario no están bien calibradas para tu caso de uso, describe explícitamente cómo deberían verse estas actualizaciones en el prompt y proporciona ejemplos.
Menos subagentes generados por defecto: Claude Opus 4.7 tiende a generar menos subagentes por defecto. Sin embargo, este comportamiento es dirigible mediante prompting; dale a Claude Opus 4.7 orientación explícita sobre cuándo son deseables los subagentes.
Calibración de esfuerzo más estricta: Cambiando significativamente respecto a Claude Opus 4.6, Claude Opus 4.7 respeta los niveles de esfuerzo estrictamente, especialmente en el extremo inferior. En low y medium, el modelo limita su trabajo a lo que se pidió en lugar de ir más allá.
Esto es bueno para la latencia y el costo, pero en tareas moderadamente complejas que se ejecutan con esfuerzo low existe cierto riesgo de razonamiento insuficiente. Si observas razonamiento superficial en problemas complejos, aumenta el esfuerzo a high o xhigh en lugar de intentar solucionarlo mediante prompting.
Si necesitas mantener el esfuerzo en low por latencia, agrega orientación específica: "Esta tarea implica razonamiento de múltiples pasos. Piensa cuidadosamente el problema antes de responder." Consulta Niveles de esfuerzo recomendados para Claude Opus 4.7.
Menos llamadas a herramientas por defecto: Claude Opus 4.7 tiene tendencia a usar herramientas con menos frecuencia que Claude Opus 4.6 y a usar más el razonamiento. Esto produce mejores resultados en la mayoría de los casos.
Para aumentar el uso de herramientas, aumenta la configuración de esfuerzo. Las configuraciones de esfuerzo high o xhigh muestran sustancialmente más uso de herramientas en búsqueda agéntica y programación. También puedes ajustar tu prompt para instruir explícitamente al modelo sobre cuándo y cómo usar correctamente sus herramientas.
Salvaguardas de ciberseguridad en tiempo real: Recién agregadas en Claude Opus 4.7, las solicitudes que involucran temas prohibidos o de alto riesgo pueden llevar a rechazos. Para trabajo de seguridad legítimo como pruebas de penetración, investigación de vulnerabilidades o red-teaming, solicita acceso al Programa de Verificación Cibernética para pedir restricciones reducidas. Consulta Salvaguardas, advertencias y apelaciones para más contexto.
Soporte de imágenes de alta resolución: Claude Opus 4.7 es el primer modelo de Claude con soporte de imágenes de alta resolución. La resolución máxima de imagen es de 2576 píxeles en el lado largo, frente a los 1568 píxeles de modelos anteriores. Esto desbloquea mejoras en cargas de trabajo intensivas en visión y es particularmente valioso para uso de computadora, comprensión de capturas de pantalla y análisis de documentos.
El soporte de alta resolución es automático y no requiere encabezado beta ni activación del lado del cliente. Dos cosas a tener en cuenta:
max_tokens y las expectativas de costo para cargas de trabajo intensivas en imágenes, o reduce la resolución antes de enviar si no necesitas la fidelidad adicional.Consulta Soporte de imágenes de alta resolución en Claude Opus 4.7 para más detalles.
Estos no son obligatorios pero mejorarán tu experiencia:
Reevalúa max_tokens: Debido a que el mismo texto produce un recuento de tokens más alto en Claude Opus 4.7, actualiza tus parámetros max_tokens para dar margen adicional, incluidos los disparadores de compactación. Las intervenciones de prompting, task_budget y effort pueden ayudar a controlar costos y asegurar un uso apropiado de tokens.
Audita las expectativas de recuento de tokens: Cualquier ruta de código que estime tokens del lado del cliente o asuma una proporción fija de tokens a caracteres debe volver a probarse con Claude Opus 4.7. Usa el endpoint de conteo de tokens para verificar.
Adopta presupuestos de tarea (beta): Claude Opus 4.7 introduce presupuestos de tarea. Estos presupuestos te permiten informar a Claude cuántos tokens tiene para un ciclo agéntico completo, incluyendo pensamiento, llamadas a herramientas, resultados de herramientas y salida final. El modelo ve una cuenta regresiva en ejecución y la usa para priorizar el trabajo y terminar la tarea de manera ordenada a medida que se consume el presupuesto. Para usarlo, establece el encabezado beta task-budgets-2026-03-13 y agrega lo siguiente a tu configuración de salida:
output_config = {
"effort": "high",
"task_budget": {"type": "tokens", "total": 128000},
}Es posible que necesites experimentar con diferentes presupuestos de tarea para tu caso de uso. Si al modelo se le da un presupuesto de tarea demasiado restrictivo, puede completar la tarea de manera menos exhaustiva, haciendo referencia a su presupuesto como la limitación.
Para tareas agénticas abiertas donde la calidad importa más que la velocidad, no establezcas un presupuesto de tarea. Reserva los presupuestos de tarea para cargas de trabajo donde necesitas que el modelo limite su trabajo a una asignación de tokens. El valor mínimo para un presupuesto de tarea es 20k tokens.
Un presupuesto de tarea no es un límite estricto; es una sugerencia de la que el modelo es consciente. Difiere de max_tokens:
task_budget: un límite orientativo a lo largo del ciclo agéntico completo. El modelo lo ve y lo usa para regular su ritmo.max_tokens: un techo estricto por solicitud sobre los tokens generados. No se pasa al modelo, por lo que el modelo no es consciente de él.Usa task_budget cuando quieras que el modelo se automodere, y max_tokens como un techo estricto para limitar el uso.
Establece un max_tokens grande con esfuerzo max o xhigh: Si estás ejecutando Claude Opus 4.7 con esfuerzo max o xhigh, establece un presupuesto grande de tokens de salida máximos para que el modelo tenga espacio para pensar y actuar a través de sus subagentes y llamadas a herramientas. Comienza con 64k tokens y ajusta desde ahí.
Reduce la resolución de imágenes si la alta resolución es innecesaria: Claude Opus 4.7 admite imágenes de hasta 2576px / 3.75MP. Las imágenes de alta resolución usan más tokens. Si la fidelidad adicional de imagen es innecesaria, reduce la resolución de las imágenes antes de enviarlas a Claude para evitar aumentos en el uso de tokens. Consulta Imágenes y visión.
claude-opus-4-6 a claude-opus-4-7 (o actualiza los alias).temperature, top_p y top_k de las cargas útiles de solicitud.thinking: {type: "enabled", budget_tokens: N} con thinking: {type: "adaptive"} más el parámetro de esfuerzo.max_tokens para tener en cuenta la tokenización actualizada.xhigh o max, aumenta max_tokens a al menos 64k como punto de partida.Si estás migrando desde Claude Opus 4.5, Opus 4.1 (obsoleto) o un modelo anterior directamente a Claude Opus 4.7, aplica todos los cambios de Opus 4.7 anteriores más los cambios acumulativos en esta sección que entraron en vigor entre Opus 4.5 y Opus 4.7. Si estás migrando desde Opus 4.6, solo necesitas la sección de Opus 4.7 anterior.
# Migración de Opus
model = "claude-opus-4-5" # Before
model = "claude-opus-4-7" # AfterLa eliminación de prefill se cubre en los cambios incompatibles de Opus 4.7 anteriores.
Entrecomillado de parámetros de herramientas: Claude Opus 4.6 y modelos posteriores pueden producir un escapado de cadenas JSON ligeramente diferente en los argumentos de llamadas a herramientas (por ejemplo, manejo diferente de escapes Unicode o escapado de barras diagonales). Si analizas el input de llamadas a herramientas como una cadena sin procesar en lugar de usar un analizador JSON, verifica tu lógica de análisis. Los analizadores JSON estándar (como json.loads() o JSON.parse()) manejan estas diferencias automáticamente.
Estos cambios mejoran tu experiencia en Opus 4.7. Los elementos marcados como (obligatorio en Opus 4.7) eran recomendaciones opcionales cuando se lanzó Opus 4.6 pero ahora son obligatorios; el resto siguen siendo recomendados.
Migra a pensamiento adaptativo (obligatorio en Opus 4.7): thinking: {type: "enabled", budget_tokens: N} devuelve un error 400 en Claude Opus 4.7. Cambia a thinking: {type: "adaptive"} y usa el parámetro de esfuerzo para controlar la profundidad del pensamiento. Consulta Pensamiento adaptativo.
response = client.beta.messages.create(
model="claude-opus-4-5",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 32000},
betas=["interleaved-thinking-2025-05-14"],
messages=[{"role": "user", "content": "Your prompt here"}],
)Ten en cuenta que la migración también cambia de client.beta.messages.create a client.messages.create. El pensamiento adaptativo y el esfuerzo son funciones GA y no requieren el espacio de nombres beta del SDK ni ningún encabezado beta.
Elimina el encabezado beta de esfuerzo: El parámetro de esfuerzo ahora es GA. Elimina betas=["effort-2025-11-24"] de tus solicitudes.
Elimina el encabezado beta de streaming de herramientas de grano fino: El streaming de herramientas de grano fino ahora es GA. Elimina betas=["fine-grained-tool-streaming-2025-05-14"] de tus solicitudes.
Elimina el encabezado beta de pensamiento intercalado: El pensamiento adaptativo habilita automáticamente el pensamiento intercalado en Claude Opus 4.7, Opus 4.6 y Sonnet 4.6. Elimina betas=["interleaved-thinking-2025-05-14"] de tus solicitudes. El encabezado sigue siendo funcional en Sonnet 4.6 con pensamiento extendido manual, pero el modo manual está obsoleto.
Migra a output_config.format: Si usas salidas estructuradas, actualiza output_format={...} a output_config={"format": {...}}. El parámetro antiguo sigue siendo funcional pero está obsoleto y se eliminará en una versión futura del modelo.
Si estás migrando desde Opus 4.1 (obsoleto) o modelos anteriores directamente a Claude Opus 4.7, aplica los cambios de Claude Opus 4.7 al principio de esta guía y los cambios acumulativos anteriores más los cambios adicionales en esta sección.
# De Opus 4.1
model = "claude-opus-4-1-20250805" # Before
model = "claude-opus-4-7" # After
# De Sonnet 3.7
model = "claude-3-7-sonnet-20250219" # Before
model = "claude-opus-4-7" # AfterElimina los parámetros de muestreo
Este es un cambio incompatible al migrar desde modelos Claude 3.x.
A partir de Claude Opus 4.7, establecer temperature, top_p o top_k a cualquier valor no predeterminado devolverá un error 400. La ruta de migración más segura es omitir estos parámetros por completo de las solicitudes y usar prompting para guiar el comportamiento del modelo. Si estabas usando temperature = 0 para determinismo, ten en cuenta que nunca garantizó salidas idénticas.
# Antes - Esto generará un error en los modelos Claude 4+
response = client.messages.create(
model="claude-3-7-sonnet-20250219",
temperature=0.7,
top_p=0.9, # Non-default sampling params return 400 on Opus 4.7
# ...
)
# Después
response = client.messages.create(
model="claude-opus-4-7",
# ...
)Actualiza las versiones de herramientas
Este es un cambio incompatible al migrar desde modelos Claude 3.x.
Actualiza a las últimas versiones de herramientas. Elimina cualquier código que use el comando undo_edit.
# Antes
tools = [{"type": "text_editor_20250124", "name": "str_replace_editor"}]
# Después
tools = [{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"}]text_editor_20250728 y str_replace_based_edit_tool. Consulta la documentación de la herramienta de editor de texto para más detalles.code_execution_20250825. Consulta la documentación de la herramienta de ejecución de código para instrucciones de migración.Maneja el stop reason refusal
Actualiza tu aplicación para manejar los stop reasons refusal:
response = client.messages.create(...)
if response.stop_reason == "refusal":
# Maneja el rechazo de forma apropiada
passManeja el stop reason model_context_window_exceeded
Los modelos Claude 4.5+ devuelven un stop reason model_context_window_exceeded cuando la generación se detiene debido a alcanzar el límite de la ventana de contexto, en lugar del límite max_tokens solicitado. Actualiza tu aplicación para manejar este nuevo stop reason:
response = client.messages.create(...)
if response.stop_reason == "model_context_window_exceeded":
# Maneja el límite de la ventana de contexto de forma adecuada
passVerifica el manejo de parámetros de herramientas (saltos de línea finales)
Los modelos Claude 4.5+ preservan los saltos de línea finales en los parámetros de cadena de llamadas a herramientas que anteriormente se eliminaban. Si tus herramientas dependen de coincidencia exacta de cadenas con los parámetros de llamadas a herramientas, verifica que tu lógica maneje correctamente los saltos de línea finales.
Actualiza tus prompts para cambios de comportamiento
Los modelos Claude 4+ tienen un estilo de comunicación más conciso y directo y requieren dirección explícita. Revisa las mejores prácticas de prompting para orientación de optimización.
token-efficient-tools-2025-02-19 y output-128k-2025-02-19. Todos los modelos Claude 4+ tienen uso de herramientas eficiente en tokens integrado y estos encabezados no tienen efecto.claude-opus-4-7output_config.format en su lugarthinking: {type: "enabled", budget_tokens: N} con thinking: {type: "adaptive"} más el parámetro de esfuerzo (devuelve 400 en Opus 4.7)effort-2025-11-24 (el esfuerzo ahora es GA)fine-grained-tool-streaming-2025-05-14interleaved-thinking-2025-05-14 (el pensamiento adaptativo habilita el pensamiento intercalado automáticamente)output_format a output_config.format (si aplica)temperature, top_p y top_k (los valores no predeterminados devuelven 400 en Opus 4.7)text_editor_20250728, code_execution_20250825)refusalmodel_context_window_exceededtoken-efficient-tools-2025-02-19, output-128k-2025-02-19)Claude Sonnet 5 ofrece la mejor combinación de velocidad e inteligencia en la familia de modelos Claude. Se basa en Claude Sonnet 4.6.
Claude Sonnet 5 es una actualización directa para Claude Sonnet 4.6 al mismo precio de $3 / $15 por MTok (precio introductorio de $2 / $10 por MTok hasta el 31 de agosto de 2026; consulta Precios). Hay dos cambios incompatibles de la API para código que ya se ejecuta en Claude Sonnet 4.6: el pensamiento extendido manual (thinking: {type: "enabled", budget_tokens: N}) y los parámetros de muestreo (temperature, top_p, top_k) establecidos en valores no predeterminados ya no se aceptan y devuelven un error 400. Usa pensamiento adaptativo con el parámetro de esfuerzo en su lugar. Claude Sonnet 5 admite el mismo conjunto de funciones que Claude Sonnet 4.6, incluyendo la ventana de contexto de 1M de tokens, pensamiento adaptativo, almacenamiento en caché de prompts, procesamiento por lotes, la API de archivos, soporte de PDF, visión y el conjunto completo de herramientas del lado del servidor y del lado del cliente. Priority Tier no está disponible en Claude Sonnet 5. Claude Sonnet 5 también usa un nuevo tokenizador.
Si tu código está en Claude Sonnet 4.5 o anterior, también aplica los pasos de migración de Claude Sonnet 4.6 antes de actualizar a Claude Sonnet 5. Esos pasos incluyen cambios incompatibles (rechazo de prefill de mensajes del asistente, diferencias de escapado JSON de parámetros de herramientas) que la actualización a Sonnet 5 por sí sola no cubre.
# Migración a Sonnet
model = "claude-sonnet-4-6" # Before
model = "claude-sonnet-5" # AfterLos elementos 4 y 5 en la siguiente lista son cambios incompatibles. max_tokens sigue siendo un límite estricto sobre la salida total (pensamiento más texto de respuesta), así que revísalo para cargas de trabajo que se ejecutaban sin pensamiento en Claude Sonnet 4.6.
Nuevo tokenizador: Claude Sonnet 5 usa un nuevo tokenizador. El mismo texto de entrada produce aproximadamente un 30% más de tokens que en Claude Sonnet 4.6. Las solicitudes, respuestas y eventos de streaming mantienen la misma forma, y no se requieren cambios de código, pero todo lo que midas o presupuestes en tokens cambia: los campos usage y los resultados de conteo de tokens para el mismo texto son más altos, la ventana de contexto de 1M de tokens contiene menos texto, y un límite max_tokens ajustado para Claude Sonnet 4.6 puede truncar una salida equivalente. El precio por token no cambia, por lo que el costo de una solicitud equivalente puede diferir. Vuelve a ejecutar el conteo de tokens con Claude Sonnet 5 en lugar de reutilizar recuentos medidos con modelos anteriores.
128k tokens de salida máximos (sin cambios): Claude Sonnet 5 admite hasta 128k tokens de salida, igual que Claude Sonnet 4.6. Los valores existentes de max_tokens siguen siendo válidos. Ten en cuenta el nuevo tokenizador al dimensionarlos.
Prefill de mensajes del asistente (sin cambios): El prefill del mensaje del asistente devuelve un error 400 en Claude Sonnet 5, igual que en Claude Sonnet 4.6. Si eliminaste el prefill al migrar a Claude Sonnet 4.6, no se necesitan más cambios. Usa salidas estructuradas, instrucciones en la indicación del sistema o output_config.format en su lugar.
Pensamiento adaptativo activado por defecto: En Claude Sonnet 4.6, las solicitudes sin un campo thinking se ejecutan sin pensamiento; en Claude Sonnet 5, las mismas solicitudes se ejecutan con pensamiento adaptativo. Para desactivar el pensamiento, pasa thinking: {type: "disabled"}. El pensamiento extendido manual (thinking: {type: "enabled", budget_tokens: N}) no es compatible y devuelve un error 400. Usa el parámetro de esfuerzo (predeterminado high) para controlar la profundidad del pensamiento.
Parámetros de muestreo eliminados: Los parámetros de muestreo (temperature, top_p, top_k) establecidos en un valor no predeterminado no se aceptan y devuelven un error 400.
Salvaguardas de ciberseguridad: Claude Sonnet 5 es el primer modelo de nivel Sonnet con salvaguardas de ciberseguridad en tiempo real. Las solicitudes que involucran temas de ciberseguridad prohibidos o de alto riesgo pueden ser rechazadas. Los rechazos se devuelven como una respuesta HTTP 200 exitosa con stop_reason: "refusal", no como un error. Consulta Salvaguardas, advertencias y apelaciones para más contexto.
claude-sonnet-4-6 a claude-sonnet-5.max_tokens dimensionados cerca de tu longitud de salida esperada, y auméntalos hasta el máximo de 128k (sin cambios respecto a Claude Sonnet 4.6) donde sea útil.thinking: {type: "enabled", budget_tokens: N} (devuelve un error 400). El pensamiento adaptativo está activado por defecto; pasa {type: "disabled"} para desactivarlo, o usa el parámetro de esfuerzo para controlar la profundidad.temperature, top_p y top_k establecidos en valores no predeterminados (devuelven un error 400 en Claude Sonnet 5).stop_reason: "refusal" si tu carga de trabajo puede tocar temas de ciberseguridad.max_tokens para cargas de trabajo que anteriormente se ejecutaban sin pensamiento.Claude Sonnet 4.6 combina una inteligencia sólida con un rendimiento rápido, con capacidades mejoradas de búsqueda agéntica y ejecución de código gratuita cuando se usa con búsqueda web o web fetch. Es ideal para tareas cotidianas de programación, análisis y contenido.
Para una descripción completa de las capacidades, consulta la descripción general de modelos.
El precio de Sonnet 4.6 es de $3 por millón de tokens de entrada, $15 por millón de tokens de salida. Consulta Precios de Claude para más detalles.
Actualiza el nombre de tu modelo:
# De Sonnet 4.5
model = "claude-sonnet-4-5" # Before
model = "claude-sonnet-4-6" # AfterEl prefill de mensajes del asistente ya no es compatible
Este es un cambio incompatible al migrar desde Sonnet 4.5 o anterior.
El prefill de mensajes del asistente devuelve un error 400 en Sonnet 4.6. Usa salidas estructuradas, instrucciones en la indicación del sistema o output_config.format en su lugar.
Casos de uso comunes de prefill y migraciones:
Controlar el formato de salida (forzar salida JSON/YAML): Usa salidas estructuradas o herramientas con campos enum para tareas de clasificación.
Eliminar preámbulos (eliminar frases como "Aquí está..."): Agrega instrucciones directas en la indicación del sistema: "Responde directamente sin preámbulo. No comiences con frases como 'Aquí está...', 'Basado en...', etc."
Evitar rechazos incorrectos: Claude ahora es mucho mejor en rechazos apropiados. Un prompting claro en el mensaje del usuario sin prefill debería ser suficiente.
Continuaciones (reanudar respuestas interrumpidas): Mueve la continuación al mensaje del usuario: "Tu respuesta anterior fue interrumpida y terminó con [previous_response]. Continúa desde donde lo dejaste."
Hidratación de contexto / consistencia de rol (refrescar el contexto en conversaciones largas): Inyecta lo que anteriormente eran recordatorios de asistente con prefill en el turno del usuario en su lugar.
El escapado JSON de parámetros de herramientas puede diferir
Este es un cambio incompatible al migrar desde Sonnet 4.5 o anterior.
El escapado de cadenas JSON en parámetros de herramientas puede diferir de modelos anteriores. Los analizadores JSON estándar manejan esto automáticamente, pero el análisis personalizado basado en cadenas puede necesitar actualizaciones.
Actualiza los parámetros de muestreo
Este es un cambio incompatible al migrar desde modelos Claude 3.x.
Usa solo temperature O top_p, no ambos.
Actualiza las versiones de herramientas
Este es un cambio incompatible al migrar desde modelos Claude 3.x.
Actualiza a las últimas versiones de herramientas (text_editor_20250728, code_execution_20250825). Elimina cualquier código que use el comando undo_edit.
Maneja el stop reason refusal
Actualiza tu aplicación para manejar los stop reasons refusal.
Actualiza tus prompts para cambios de comportamiento
Los modelos Claude 4 tienen un estilo de comunicación más conciso y directo. Revisa las mejores prácticas de prompting para orientación de optimización.
fine-grained-tool-streaming-2025-05-14: El streaming de herramientas de grano fino ahora es GA en Sonnet 4.6 y ya no requiere un encabezado beta.output_format a output_config.format: El parámetro output_format está obsoleto. Usa output_config.format en su lugar.Considera migrar de Sonnet 4.5 a Sonnet 4.6, que ofrece más inteligencia al mismo precio.
Sonnet 4.6 tiene por defecto un nivel de "effort" (esfuerzo) de high, a diferencia de Sonnet 4.5 que no tenía parámetro de esfuerzo. Considera ajustar el parámetro de esfuerzo al migrar de Sonnet 4.5 a Sonnet 4.6. Si no se establece explícitamente, podrías experimentar mayor latencia con el nivel de esfuerzo predeterminado.
Si no estás usando pensamiento extendido en Sonnet 4.5, puedes continuar sin él en Sonnet 4.6. Debes establecer explícitamente el esfuerzo al nivel apropiado para tu caso de uso. Con esfuerzo low y el pensamiento deshabilitado, puedes esperar un rendimiento similar o mejor en comparación con Sonnet 4.5 sin pensamiento extendido.
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=8192,
output_config={"effort": "low"},
messages=[{"role": "user", "content": "Your prompt here"}],
)Si estás usando pensamiento extendido con budget_tokens en Sonnet 4.5, sigue siendo funcional en Sonnet 4.6 pero está obsoleto. Migra a pensamiento adaptativo con el parámetro de esfuerzo.
El pensamiento adaptativo es el reemplazo recomendado para budget_tokens en Sonnet 4.6. Es particularmente adecuado para los siguientes patrones de carga de trabajo:
high. Si la latencia o el uso de tokens es una preocupación, reduce a medium.Al usar pensamiento adaptativo, evalúa los niveles de esfuerzo medium y high en tus tareas. El nivel correcto depende del equilibrio de tu carga de trabajo entre calidad, latencia y uso de tokens.
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=64000,
thinking={"type": "adaptive"},
output_config={"effort": "medium"},
messages=[{"role": "user", "content": "Your prompt here"}],
)Si observas un comportamiento inconsistente o regresiones de calidad con el pensamiento adaptativo, intenta primero reducir la configuración de esfuerzo o usar max_tokens como límite estricto. El pensamiento extendido con budget_tokens sigue siendo funcional en Sonnet 4.6 pero está obsoleto y ya no se recomienda.
Si necesitas mantener budget_tokens temporalmente mientras migras, un presupuesto de alrededor de 16k tokens proporciona margen para problemas más difíciles sin riesgo de uso descontrolado de tokens. Esta configuración está obsoleta y se eliminará en una versión futura del modelo.
Para programación agéntica, diseño frontend, flujos de trabajo con uso intensivo de herramientas y flujos de trabajo empresariales complejos, comienza con esfuerzo medium. Si encuentras que la latencia es demasiado alta, considera reducir el esfuerzo a low. Si necesitas mayor inteligencia, considera aumentar el esfuerzo a high o migrar a Opus 4.7.
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=16384,
thinking={"type": "enabled", "budget_tokens": 16384},
output_config={"effort": "medium"},
betas=["interleaved-thinking-2025-05-14"],
messages=[{"role": "user", "content": "Your prompt here"}],
)Para chat, generación de contenido, búsqueda, clasificación y otras tareas no relacionadas con programación, comienza con esfuerzo low con pensamiento extendido. Si necesitas más profundidad, aumenta el esfuerzo a medium.
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=8192,
thinking={"type": "enabled", "budget_tokens": 16384},
output_config={"effort": "low"},
betas=["interleaved-thinking-2025-05-14"],
messages=[{"role": "user", "content": "Your prompt here"}],
)claude-sonnet-4-6output_config.format en su lugartext_editor_20250728, code_execution_20250825); las versiones heredadas no son compatibles (si migras desde 3.x)undo_edit (si aplica)temperature O top_p, no ambos (si migras desde 3.x)refusal en tu aplicaciónfine-grained-tool-streaming-2025-05-14 (ahora disponible de forma general)output_format a output_config.formatthinking: {type: "enabled", budget_tokens: N} a thinking: {type: "adaptive"} con el parámetro de esfuerzo (budget_tokens está obsoleto y se eliminará en una versión futura)Claude Sonnet 4.5 combina una inteligencia sólida con un rendimiento rápido, lo que lo hace ideal para tareas cotidianas de programación, análisis y contenido.
Para una descripción completa de las capacidades, consulta la descripción general de modelos.
El precio de Sonnet 4.5 es de $3 por millón de tokens de entrada, $15 por millón de tokens de salida. Consulta precios de Claude para más detalles.
Actualiza el nombre de tu modelo:
# De Sonnet 3.7
model = "claude-3-7-sonnet-20250219" # Before
model = "claude-sonnet-4-5-20250929" # AfterEstos cambios críticos aplican al migrar desde modelos Claude 3.x Sonnet.
Actualiza los parámetros de muestreo
Este es un cambio crítico al migrar desde modelos Claude 3.x.
Usa solo temperature O top_p, no ambos.
Actualiza las versiones de herramientas
Este es un cambio crítico al migrar desde modelos Claude 3.x.
Actualiza a las versiones más recientes de herramientas (text_editor_20250728, code_execution_20250825). Elimina cualquier código que use el comando undo_edit.
Maneja el stop reason refusal
Actualiza tu aplicación para manejar los stop reasons refusal.
Actualiza tus prompts para los cambios de comportamiento
Los modelos Claude 4 tienen un estilo de comunicación más conciso y directo. Revisa las mejores prácticas de prompting para obtener orientación sobre optimización.
claude-sonnet-4-5-20250929text_editor_20250728, code_execution_20250825); las versiones heredadas no son compatibles (si migras desde 3.x)undo_edit (si aplica)temperature O top_p, no ambos (si migras desde 3.x)refusal en tu aplicaciónClaude Haiku 4.5 es el modelo Haiku más rápido e inteligente con rendimiento cercano a la frontera, ofreciendo calidad de modelo premium para aplicaciones interactivas y procesamiento de alto volumen.
Para una descripción completa de las capacidades, consulta la descripción general de modelos.
El precio de Haiku 4.5 es de $1 por millón de tokens de entrada, $5 por millón de tokens de salida. Consulta precios de Claude para más detalles.
Actualiza el nombre de tu modelo:
# De Haiku 3.5
model = "claude-3-5-haiku-20241022" # Before
model = "claude-haiku-4-5-20251001" # AfterRevisa los nuevos límites de velocidad: Haiku 4.5 tiene límites de velocidad separados de Haiku 3.5. Consulta la documentación de límites de velocidad para más detalles.
Para mejoras significativas de rendimiento en tareas de programación y razonamiento, considera habilitar el pensamiento extendido con thinking: {type: "enabled", budget_tokens: N}.
El pensamiento extendido afecta la eficiencia del almacenamiento en caché de prompts.
El pensamiento extendido está obsoleto en los modelos Claude 4.6 y se eliminó en Claude Opus 4.7. Si usas modelos más recientes, usa pensamiento adaptativo en su lugar.
Explora nuevas capacidades: Consulta la descripción general de modelos para obtener detalles sobre conciencia de contexto, mayor capacidad de salida (64k tokens), mayor inteligencia y velocidad mejorada.
Estos cambios críticos aplican al migrar desde modelos Claude 3.x Haiku.
Actualiza los parámetros de muestreo
Este es un cambio crítico al migrar desde modelos Claude 3.x.
Usa solo temperature O top_p, no ambos.
Actualiza las versiones de herramientas
Este es un cambio crítico al migrar desde modelos Claude 3.x.
Actualiza a las versiones más recientes de herramientas (text_editor_20250728, code_execution_20250825). Elimina cualquier código que use el comando undo_edit.
Maneja el stop reason refusal
Actualiza tu aplicación para manejar los stop reasons refusal.
Actualiza tus prompts para los cambios de comportamiento
Los modelos Claude 4 tienen un estilo de comunicación más conciso y directo. Revisa las mejores prácticas de prompting para obtener orientación sobre optimización.
claude-haiku-4-5-20251001text_editor_20250728, code_execution_20250825); las versiones heredadas no son compatiblesundo_edit (si aplica)temperature O top_p, no ambosrefusal en tu aplicaciónWas this page helpful?