Mejores prácticasIngeniería de prompts

Prompting para Claude Sonnet 5

Diferencias de comportamiento y patrones de prompting para Claude Sonnet 5, que cubren el esfuerzo, los valores predeterminados del pensamiento adaptativo, el uso de herramientas y la migración desde Claude Sonnet 4.6.

Esta guía cubre los patrones de prompting específicos de Claude Sonnet 5. Para conocer las capacidades del modelo y los cambios en la API, consulta Novedades de Claude Sonnet 5. Para técnicas que aplican a todos los modelos actuales de Claude, consulta Mejores prácticas de prompting.

Claude Sonnet 5 tiene fortalezas particulares en tareas de programación y agénticas. Funciona bien de forma predeterminada con prompts existentes de Claude Sonnet 4.6. Los patrones de esta guía cubren los comportamientos que con mayor frecuencia requieren ajustes.

Para conocer los cambios en los parámetros de la API al migrar desde Claude Sonnet 4.6 (pensamiento adaptativo activado de forma predeterminada, parámetros de muestreo no aceptados, pensamiento extendido manual eliminado y el nuevo tokenizador), consulta la guía de migración.

Longitud de respuesta y verbosidad

Claude Sonnet 5 calibra la longitud de la respuesta según la complejidad de la tarea en lugar de usar una verbosidad fija de forma predeterminada. Esto generalmente significa respuestas más cortas en consultas simples y más largas en análisis abiertos.

Si tu producto depende de un cierto estilo o verbosidad de salida, es posible que necesites ajustar tus prompts. Como ejemplo, para reducir la verbosidad, podrías agregar:

Provide concise, focused responses. Skip non-essential context, and keep examples minimal.

Si observas tipos específicos de verbosidad (como explicaciones excesivas), puedes agregar instrucciones adicionales en tu prompt para evitarlos. Los ejemplos positivos que muestran cómo Claude puede comunicarse con el nivel apropiado de concisión tienden a ser más efectivos que los ejemplos negativos o las instrucciones que le dicen al modelo qué no hacer.

Calibrar el esfuerzo y la profundidad del pensamiento

El parámetro effort (esfuerzo) te permite ajustar la inteligencia de Claude frente al gasto de tokens, intercambiando capacidad por mayor velocidad y menores costos. En Claude Sonnet 5, el esfuerzo tiene como valor predeterminado high, igual que en Claude Sonnet 4.6. Para las tareas de programación y agénticas más difíciles, aumenta el esfuerzo a xhigh. Experimenta con otros niveles de esfuerzo para ajustar aún más el uso de tokens y la inteligencia:

max: Capacidad máxima absoluta sin restricciones en el gasto de tokens.
xhigh: El esfuerzo extra alto es la configuración recomendada para los casos de uso de programación y agénticos más difíciles.
high: El valor predeterminado. Esta configuración equilibra el uso de tokens y la inteligencia para la mayoría de los casos de uso.
medium: Adecuado para casos de uso sensibles al costo que necesitan reducir el uso de tokens a cambio de algo de inteligencia.
low: Resérvalo para tareas cortas y acotadas y cargas de trabajo sensibles a la latencia que no son sensibles a la inteligencia.

Como una correspondencia aproximada entre modelos al migrar: Claude Sonnet 5 en medium es comparable en inteligencia a Claude Sonnet 4.6 en high, y Claude Sonnet 5 en high es comparable a Claude Sonnet 4.6 en max. Al hacer benchmarking, haz la correspondencia según la longitud de pensamiento observada en lugar del nombre del nivel de esfuerzo.

Claude Sonnet 5 respeta los niveles de esfuerzo de forma estricta, especialmente en el extremo inferior. En low y medium, el modelo limita su trabajo a lo que se le pidió en lugar de ir más allá. Esto es bueno para la latencia y el costo, pero en tareas moderadamente complejas que se ejecutan con esfuerzo low existe cierto riesgo de razonamiento insuficiente.

Si observas un razonamiento superficial en problemas complejos, aumenta el esfuerzo a high o xhigh en lugar de intentar compensarlo con el prompt. Si necesitas mantener el esfuerzo en low por razones de latencia, agrega orientación específica:

This task involves multi-step reasoning. Think carefully through the problem before responding.

En Claude Sonnet 5, el adaptive thinking (pensamiento adaptativo) está activado de forma predeterminada. Las solicitudes sin un campo thinking se ejecutan con pensamiento adaptativo. Esto es un cambio respecto a Claude Sonnet 4.6, donde las mismas solicitudes se ejecutaban sin pensamiento. Para desactivar el pensamiento por completo, pasa thinking: {type: "disabled"}. Dado que max_tokens es un límite estricto sobre la salida total (pensamiento más texto de respuesta), revísalo para cargas de trabajo que se ejecutaban sin pensamiento en Claude Sonnet 4.6. Si anteriormente usabas el pensamiento desactivado con Claude Sonnet 4.6, prueba el pensamiento activado con niveles de esfuerzo más bajos para Claude Sonnet 5.

El comportamiento de activación del pensamiento adaptativo es dirigible. Si encuentras que el modelo emite bloques de pensamiento con más frecuencia de la que te gustaría, lo cual puede ocurrir con indicaciones del sistema grandes o complejas, agrega orientación para dirigirlo. Como siempre, mide el efecto de cualquier cambio en el prompt sobre el rendimiento. Ejemplo:

Thinking adds latency and should only be used when it will meaningfully improve answer quality, typically for problems that require multi-step reasoning. When in doubt, respond directly.

Por el contrario, si estás ejecutando cargas de trabajo difíciles en medium y observas razonamiento insuficiente, la primera palanca es aumentar el esfuerzo. Si necesitas un control más fino, indícalo directamente en el prompt.

El pensamiento extendido manual (thinking: {type: "enabled", budget_tokens: N}) no es compatible con Claude Sonnet 5 y devuelve un error 400. Fue marcado como obsoleto en Claude Sonnet 4.6 y ahora se ha eliminado. Usa el pensamiento adaptativo con el parámetro de esfuerzo en su lugar.

Si estás ejecutando Claude Sonnet 5 con esfuerzo high, xhigh o max, deja margen en max_tokens para que el modelo tenga espacio para el pensamiento y las llamadas a herramientas. En tareas largas, el pensamiento adaptativo puede usar una gran parte del presupuesto; si el presupuesto es ajustado, es posible que veas una respuesta que es casi completamente pensamiento seguida de una respuesta truncada y stop_reason: "max_tokens". Aumentar max_tokens o bajar a esfuerzo medium resuelve esto. Dado que Claude Sonnet 5 usa un nuevo tokenizador que produce aproximadamente un 30% más de tokens para el mismo texto, los límites de max_tokens ajustados para Claude Sonnet 4.6 pueden truncar una salida equivalente.

Activación del uso de herramientas

Claude Sonnet 5 es más agéntico que Claude Sonnet 4.6 de forma predeterminada y recurrirá a herramientas y ejecutará bucles de autoverificación con mayor facilidad. Con el pensamiento desactivado, es menos probable que el modelo recurra a herramientas o considere buscar; si dependes de llamadas a herramientas con el pensamiento desactivado, agrega un empujón explícito en la indicación del sistema. El esfuerzo también es una palanca para el uso de herramientas: las configuraciones de esfuerzo high o xhigh muestran un uso de herramientas sustancialmente mayor en búsqueda agéntica y programación. Para escenarios donde deseas más uso de herramientas, también puedes ajustar tu prompt para instruir explícitamente al modelo sobre cuándo y cómo usar correctamente sus herramientas. Por ejemplo, si encuentras que el modelo no está usando tus herramientas de búsqueda web, describe claramente por qué y cómo debería hacerlo.

Actualizaciones de progreso para el usuario

Claude Sonnet 5 proporciona actualizaciones regulares y de mayor calidad al usuario a lo largo de trazas agénticas largas. Si has agregado andamiaje para forzar mensajes de estado intermedios ("Después de cada 3 llamadas a herramientas, resume el progreso"), prueba eliminarlo. Si encuentras que la longitud o el contenido de las actualizaciones para el usuario de Claude Sonnet 5 no están bien calibrados para tu caso de uso, describe explícitamente cómo deberían verse estas actualizaciones en el prompt y proporciona ejemplos.

Seguimiento de instrucciones más literal

Claude Sonnet 5 interpreta los prompts de forma literal y explícita, particularmente en niveles de esfuerzo más bajos. No generaliza silenciosamente una instrucción de un elemento a otro, y no infiere solicitudes que no hiciste. La ventaja de este literalismo es la precisión, y generalmente funciona mejor para casos de uso de la API con prompts cuidadosamente ajustados, extracción estructurada y pipelines donde deseas un comportamiento predecible. Si necesitas que Claude aplique una instrucción de forma amplia, indica el alcance explícitamente (por ejemplo, "Aplica este formato a cada sección, no solo a la primera").

Tono y estilo de escritura

Como con cualquier modelo nuevo, el estilo de prosa en escritura de formato largo puede cambiar. Si tu producto depende de una voz específica, reevalúa los prompts de estilo frente a la nueva línea base.

Por ejemplo, si la voz de tu producto es más cálida o conversacional, agrega:

Use a warm, collaborative tone. Acknowledge the user's framing before answering.

Si anteriormente dependías de temperature para la variedad estilística, ten en cuenta que establecer temperature, top_p o top_k en un valor no predeterminado devuelve un error 400 en Claude Sonnet 5. Esta restricción es nueva para los modelos de clase Sonnet. Elimina estos parámetros al migrar y usa instrucciones en la indicación del sistema para guiar el tono y la variedad en su lugar.

Valores predeterminados de diseño y frontend

Claude Sonnet 5 puede adoptar un estilo visual predeterminado consistente en encargos abiertos de frontend y diseño. Un estilo propio predeterminado puede funcionar bien para algunos encargos pero sentirse fuera de lugar para dashboards, herramientas de desarrollo, fintech, salud o aplicaciones empresariales.

Las instrucciones genéricas ("no uses ese color", "hazlo limpio y minimalista") tienden a desplazar al modelo hacia una paleta fija diferente en lugar de producir variedad. Dos enfoques funcionan de manera confiable:

1. Especifica una alternativa concreta. El modelo sigue especificaciones explícitas con precisión:

Design a desktop landing page for a supplement brand called AEFRM.

The visual direction should come from a cold monochrome atmosphere using pale silver-gray tones that gradually deepen into blue-gray and near-black, similar to a misted metallic surface.

The page should feel sharp and controlled, with a strong sense of structure and restraint.

Use this tonal system across the full page instead of introducing bright accent colors.

Use the uploaded image on the hero design in black and white.

The layout should be built with clear horizontal sections and a centered max-width container. Use 4px corner radius consistently across cards, buttons, inputs, and media frames. Margins should feel generous, with enough empty space around each section so the page breathes.

Typography should use a square, angular sans-serif with wider letter spacing than usual, especially in headings and navigation, so the text feels more engineered and less compressed. Headline text can be large and uppercase, while supporting copy remains short and sparse. The sub texts should be written with Alumni Sans SC in 4-6px like tiny little texts on corners bottom centre like that.

For the structure, start with a hero section containing a strong product statement, one short supporting paragraph, and a clean product placeholder or packshot frame. Below that, add a benefit grid with three or four blocks, then a formulation or ingredients section, and finally a cta.

Buttons should be flat and precise, with subtle hover changes using transition: all 160ms ease out where brightness and border contrast shift slightly rather than using dramatic motion.

Color palette should stay within this range:
#E9ECEC, #C9D2D4, #8C9A9E, #44545B, #11171B.

2. Haz que el modelo proponga opciones antes de construir. Esto rompe el valor predeterminado y da control a los usuarios. Dado que temperature no se acepta en Claude Sonnet 5, este enfoque es la forma recomendada de producir direcciones de diseño significativamente diferentes entre ejecuciones. Ejemplo de prompt:

Before building, propose 4 distinct visual directions tailored to this brief (each as: bg hex / accent hex / typeface, plus a one-line rationale). Ask the user to pick one, then implement only that direction.

Para alejarte de los patrones genéricos que los usuarios llaman la estética "AI slop", puedes incluir una directiva corta en tu indicación del sistema. La skill frontend-design proporciona un tratamiento más completo, pero este fragmento funciona bien junto con los enfoques de variedad anteriores:

<frontend_aesthetics>
NEVER use generic AI-generated aesthetics like overused font families (Inter, Roboto, Arial, system fonts), cliched color schemes (particularly purple gradients on white or dark backgrounds), predictable layouts and component patterns, and cookie-cutter design that lacks context-specific character. Use unique fonts, cohesive colors and themes, and animations for effects and micro-interactions.
</frontend_aesthetics>

Productos de programación interactivos

El uso de tokens y el comportamiento pueden diferir entre agentes de programación autónomos y asíncronos con un solo turno de usuario y agentes de programación interactivos y síncronos con múltiples turnos de usuario. Para maximizar tanto el rendimiento como la eficiencia de tokens en productos de programación, usa esfuerzo xhigh o high, agrega funciones autónomas como un modo automático y reduce el número de interacciones humanas requeridas de tus usuarios.

Al limitar el número de interacciones de usuario requeridas, es importante especificar la tarea, la intención y las restricciones relevantes desde el principio en el primer turno humano. Proporcionar descripciones de tareas bien especificadas, claras y precisas desde el principio puede ayudar a maximizar la autonomía y la inteligencia mientras se minimiza el uso adicional de tokens después de los turnos de usuario. En contraste, los prompts ambiguos o poco especificados transmitidos progresivamente a lo largo de múltiples turnos de usuario tienden a reducir relativamente la eficiencia de tokens y, a veces, el rendimiento.

Harnesses de revisión de código

Si tu "harness" (arnés) de revisión de código fue ajustado para un modelo anterior, es posible que inicialmente veas un "recall" (exhaustividad) más bajo en Claude Sonnet 5. Esto probablemente sea un efecto del harness, no una regresión de capacidad. Cuando un prompt de revisión dice cosas como "solo reporta problemas de alta severidad", "sé conservador" o "no seas quisquilloso", Claude Sonnet 5 puede seguir esa instrucción más fielmente que los modelos anteriores: puede investigar el código con la misma profundidad, identificar los errores y luego no reportar hallazgos que juzga que están por debajo del umbral que indicaste. Esto puede manifestarse como que el modelo realiza la misma profundidad de investigación pero convierte menos investigaciones en hallazgos reportados, especialmente en errores de menor severidad. La precisión típicamente aumenta, pero el recall medido puede disminuir aunque la capacidad subyacente del modelo para encontrar errores haya mejorado.

Algo de lenguaje recomendado para el prompt:

Report every issue you find, including ones you are uncertain about or consider low-severity. Do not filter for importance or confidence at this stage - a separate verification step will do that. Your goal here is coverage: it is better to surface a finding that later gets filtered out than to silently drop a real bug. For each finding, include your confidence level and an estimated severity so a downstream filter can rank them.

Este prompt puede usarse sin tener un segundo paso real, pero mover el filtrado por confianza fuera del paso de hallazgo a menudo ayuda. Si tu harness tiene una etapa separada de verificación, deduplicación o clasificación, dile al modelo explícitamente que su trabajo en la etapa de hallazgo es la cobertura en lugar del filtrado.

Si deseas que el modelo se autofiltre en una sola pasada, sé concreto sobre dónde está el umbral en lugar de usar términos cualitativos como "importante": por ejemplo, "reporta cualquier error que pueda causar comportamiento incorrecto, un fallo de prueba o un resultado engañoso; solo omite detalles menores como preferencias puramente de estilo o nomenclatura".

Itera sobre los prompts contra un subconjunto de tus evaluaciones o casos de prueba para validar las mejoras en recall o puntuación F1.

Uso de computadora

Claude Sonnet 5 admite la versión de herramienta computer_20251124. La capacidad de computer use (uso de computadora) funciona en distintas resoluciones, hasta una resolución máxima de 2576px / 3.75MP. Las pruebas internas de uso de computadora muestran que enviar imágenes a 1080p proporciona un buen equilibrio entre rendimiento y costo.

Para cargas de trabajo particularmente sensibles al costo, 720p o 1366×768 son opciones de menor costo con un rendimiento sólido. Realiza tus propias pruebas para encontrar la configuración ideal para tu caso de uso; experimentar con las configuraciones de esfuerzo también puede ayudar a ajustar el comportamiento del modelo.

Was this page helpful?

Mejores prácticasIngeniería de prompts

Prompting para Claude Sonnet 5

Longitud de respuesta y verbosidad

Si tu producto depende de un cierto estilo o verbosidad de salida, es posible que necesites ajustar tus prompts. Como ejemplo, para reducir la verbosidad, podrías agregar:

Provide concise, focused responses. Skip non-essential context, and keep examples minimal.

Calibrar el esfuerzo y la profundidad del pensamiento

max: Capacidad máxima absoluta sin restricciones en el gasto de tokens.
xhigh: El esfuerzo extra alto es la configuración recomendada para los casos de uso de programación y agénticos más difíciles.
high: El valor predeterminado. Esta configuración equilibra el uso de tokens y la inteligencia para la mayoría de los casos de uso.
medium: Adecuado para casos de uso sensibles al costo que necesitan reducir el uso de tokens a cambio de algo de inteligencia.
low: Resérvalo para tareas cortas y acotadas y cargas de trabajo sensibles a la latencia que no son sensibles a la inteligencia.

This task involves multi-step reasoning. Think carefully through the problem before responding.

Thinking adds latency and should only be used when it will meaningfully improve answer quality, typically for problems that require multi-step reasoning. When in doubt, respond directly.

Activación del uso de herramientas

Actualizaciones de progreso para el usuario

Seguimiento de instrucciones más literal

Tono y estilo de escritura

Por ejemplo, si la voz de tu producto es más cálida o conversacional, agrega:

Use a warm, collaborative tone. Acknowledge the user's framing before answering.

Valores predeterminados de diseño y frontend

1. Especifica una alternativa concreta. El modelo sigue especificaciones explícitas con precisión:

Design a desktop landing page for a supplement brand called AEFRM.

The visual direction should come from a cold monochrome atmosphere using pale silver-gray tones that gradually deepen into blue-gray and near-black, similar to a misted metallic surface.

The page should feel sharp and controlled, with a strong sense of structure and restraint.

Use this tonal system across the full page instead of introducing bright accent colors.

Use the uploaded image on the hero design in black and white.

The layout should be built with clear horizontal sections and a centered max-width container. Use 4px corner radius consistently across cards, buttons, inputs, and media frames. Margins should feel generous, with enough empty space around each section so the page breathes.

Typography should use a square, angular sans-serif with wider letter spacing than usual, especially in headings and navigation, so the text feels more engineered and less compressed. Headline text can be large and uppercase, while supporting copy remains short and sparse. The sub texts should be written with Alumni Sans SC in 4-6px like tiny little texts on corners bottom centre like that.

For the structure, start with a hero section containing a strong product statement, one short supporting paragraph, and a clean product placeholder or packshot frame. Below that, add a benefit grid with three or four blocks, then a formulation or ingredients section, and finally a cta.

Buttons should be flat and precise, with subtle hover changes using transition: all 160ms ease out where brightness and border contrast shift slightly rather than using dramatic motion.

Color palette should stay within this range:
#E9ECEC, #C9D2D4, #8C9A9E, #44545B, #11171B.

Before building, propose 4 distinct visual directions tailored to this brief (each as: bg hex / accent hex / typeface, plus a one-line rationale). Ask the user to pick one, then implement only that direction.

<frontend_aesthetics>
NEVER use generic AI-generated aesthetics like overused font families (Inter, Roboto, Arial, system fonts), cliched color schemes (particularly purple gradients on white or dark backgrounds), predictable layouts and component patterns, and cookie-cutter design that lacks context-specific character. Use unique fonts, cohesive colors and themes, and animations for effects and micro-interactions.
</frontend_aesthetics>

Productos de programación interactivos

Harnesses de revisión de código

Algo de lenguaje recomendado para el prompt:

Report every issue you find, including ones you are uncertain about or consider low-severity. Do not filter for importance or confidence at this stage - a separate verification step will do that. Your goal here is coverage: it is better to surface a finding that later gets filtered out than to silently drop a real bug. For each finding, include your confidence level and an estimated severity so a downstream filter can rank them.

Itera sobre los prompts contra un subconjunto de tus evaluaciones o casos de prueba para validar las mejoras en recall o puntuación F1.

Uso de computadora

Was this page helpful?

Longitud de respuesta y verbosidad

Calibrar el esfuerzo y la profundidad del pensamiento

Activación del uso de herramientas

Actualizaciones de progreso para el usuario

Seguimiento de instrucciones más literal

Tono y estilo de escritura

Valores predeterminados de diseño y frontend

Productos de programación interactivos

Harnesses de revisión de código

Uso de computadora

Longitud de respuesta y verbosidad

Calibrar el esfuerzo y la profundidad del pensamiento

Activación del uso de herramientas

Actualizaciones de progreso para el usuario

Seguimiento de instrucciones más literal

Tono y estilo de escritura

Valores predeterminados de diseño y frontend

Productos de programación interactivos

Harnesses de revisión de código

Uso de computadora

Longitud de respuesta y verbosidad

Calibrar el esfuerzo y la profundidad del pensamiento

Activación del uso de herramientas

Actualizaciones de progreso para el usuario

Seguimiento de instrucciones más literal

Tono y estilo de escritura

Valores predeterminados de diseño y frontend

Productos de programación interactivos

Harnesses de revisión de código

Uso de computadora

Longitud de respuesta y verbosidad

Calibrar el esfuerzo y la profundidad del pensamiento

Activación del uso de herramientas

Actualizaciones de progreso para el usuario

Seguimiento de instrucciones más literal

Tono y estilo de escritura

Valores predeterminados de diseño y frontend

Productos de programación interactivos

Harnesses de revisión de código

Uso de computadora