Esta guía cubre los patrones de prompting específicos de Claude Opus 4.8. Para conocer las capacidades del modelo y los cambios en la API, consulta Novedades en Claude Opus 4.8. Para técnicas que aplican a todos los modelos actuales de Claude, consulta Mejores prácticas de prompting.
Claude Opus 4.8 tiene fortalezas particulares en trabajo agéntico de largo horizonte, trabajo de conocimiento, visión y tareas de memoria. Funciona bien de forma inmediata con prompts existentes de Claude Opus 4.7. Los patrones a continuación cubren los comportamientos que con mayor frecuencia requieren ajustes.
Para los cambios en los parámetros de la API al migrar desde Claude Opus 4.7 (parámetros de muestreo, valor predeterminado de esfuerzo, ventana de contexto predeterminada de 1M (200k en Microsoft Foundry), mensajes del sistema a mitad de conversación y detalles de detención por rechazo), consulta la guía de migración.
Claude Opus 4.8 calibra la longitud de la respuesta según qué tan compleja considera que es la tarea, en lugar de usar una verbosidad fija por defecto. Esto generalmente significa respuestas más cortas en búsquedas simples y mucho más largas en análisis abiertos.
Si tu producto depende de un cierto estilo o verbosidad de salida, es posible que necesites ajustar tus prompts. Como ejemplo, para disminuir la verbosidad, podrías agregar:
Provide concise, focused responses. Skip non-essential context, and keep examples minimal.Si observas ejemplos específicos de tipos de verbosidad (como explicar en exceso), puedes agregar instrucciones adicionales en tu prompt para prevenirlos. Los ejemplos positivos que muestran cómo Claude puede comunicarse con el nivel apropiado de concisión tienden a ser más efectivos que los ejemplos negativos o las instrucciones que le dicen al modelo qué no hacer.
El parámetro de esfuerzo te permite ajustar la inteligencia de Claude frente al gasto de tokens, intercambiando capacidad por mayor velocidad y menores costos. Comienza con el nivel de esfuerzo xhigh para casos de uso de programación y agénticos, y usa un mínimo de esfuerzo high para la mayoría de los casos de uso sensibles a la inteligencia. Experimenta con otros niveles de esfuerzo para ajustar aún más el uso de tokens y la inteligencia:
max: El esfuerzo máximo puede ofrecer mejoras de rendimiento en algunos casos de uso, pero puede mostrar rendimientos decrecientes por el aumento en el uso de tokens. Esta configuración también puede ser a veces propensa a pensar en exceso. Prueba el esfuerzo máximo para tareas que exigen mucha inteligencia.xhigh: El esfuerzo extra alto es la mejor configuración para la mayoría de los casos de uso de programación y agénticos.high: Esta configuración equilibra el uso de tokens y la inteligencia. Para la mayoría de los casos de uso sensibles a la inteligencia, usa un mínimo de esfuerzo high.medium: Adecuado para casos de uso sensibles al costo que necesitan reducir el uso de tokens a cambio de sacrificar inteligencia.low: Resérvalo para tareas cortas y acotadas, y cargas de trabajo sensibles a la latencia que no son sensibles a la inteligencia.Claude Opus 4.8 respeta los niveles de esfuerzo de manera estricta, especialmente en el extremo inferior. En low y medium, el modelo limita su trabajo a lo que se le pidió en lugar de ir más allá. Esto es bueno para la latencia y el costo, pero en tareas moderadamente complejas que se ejecutan con esfuerzo low existe cierto riesgo de pensar de forma insuficiente.
Si observas un razonamiento superficial en problemas complejos, aumenta el esfuerzo a high o xhigh en lugar de intentar compensarlo con el prompt. Si necesitas mantener el esfuerzo en low por latencia, agrega orientación específica:
This task involves multi-step reasoning. Think carefully through the problem before responding.Es probable que el esfuerzo sea más importante para este modelo que para cualquier Opus anterior, así que experimenta activamente con él cuando actualices.
En Claude Opus 4.8, el pensamiento está desactivado a menos que establezcas explícitamente thinking: {type: "adaptive"}. El comportamiento de activación del pensamiento adaptativo es dirigible. Si encuentras que el modelo piensa con más frecuencia de lo que te gustaría, lo cual puede ocurrir con indicaciones del sistema grandes o complejas, agrega orientación para dirigirlo. Como siempre, mide el efecto de cualquier cambio en el prompting sobre el rendimiento. Ejemplo:
Thinking adds latency and should only be used when it will meaningfully improve answer
quality — typically for problems that require multi-step reasoning. When in doubt,
respond directly.Por el contrario, si estás ejecutando cargas de trabajo difíciles en medium y observas pensamiento insuficiente, la primera palanca es aumentar el esfuerzo. Si necesitas un control más fino, indícalo directamente en el prompt.
Si estás ejecutando Claude Opus 4.8 con esfuerzo max o xhigh, establece un presupuesto grande de tokens máximos de salida para que el modelo tenga espacio para pensar y actuar a través de sus subagentes y llamadas a herramientas. Comienza con 64k tokens y ajusta desde ahí.
Claude Opus 4.8 tiene tendencia a favorecer el razonamiento sobre las llamadas a herramientas. Esto produce mejores resultados en la mayoría de los casos. Sin embargo, aumentar la configuración de esfuerzo es una palanca útil para incrementar el nivel de uso de herramientas, especialmente en trabajo de conocimiento. Las configuraciones de esfuerzo high o xhigh muestran un uso de herramientas sustancialmente mayor en búsqueda agéntica y programación. Para escenarios donde deseas más uso de herramientas, también puedes ajustar tu prompt para instruir explícitamente al modelo sobre cuándo y cómo usar correctamente sus herramientas. Por ejemplo, si encuentras que el modelo no está usando tus herramientas de búsqueda web, describe claramente por qué y cómo debería hacerlo.
Claude Opus 4.8 proporciona actualizaciones más regulares y de mayor calidad al usuario a lo largo de trazas agénticas largas. Si has agregado andamiaje para forzar mensajes de estado intermedios ("Después de cada 3 llamadas a herramientas, resume el progreso"), intenta eliminarlo. Si encuentras que la longitud o el contenido de las actualizaciones visibles para el usuario de Claude Opus 4.8 no están bien calibrados para tu caso de uso, describe explícitamente cómo deberían verse estas actualizaciones en el prompt y proporciona ejemplos.
Claude Opus 4.8 interpreta los prompts de manera literal y explícita, particularmente en niveles de esfuerzo más bajos. No generaliza silenciosamente una instrucción de un elemento a otro, y no infiere solicitudes que no hiciste. La ventaja de este literalismo es la precisión y menos idas y vueltas, y generalmente funciona mejor para casos de uso de la API con prompts cuidadosamente ajustados, extracción estructurada y pipelines donde deseas un comportamiento predecible. Si necesitas que Claude aplique una instrucción de manera amplia, indica el alcance explícitamente (por ejemplo, "Aplica este formato a cada sección, no solo a la primera").
Como con cualquier modelo nuevo, el estilo de prosa en escritura de formato largo puede cambiar. Claude Opus 4.8 tiende hacia un estilo directo y con opiniones propias, con un uso mínimo de frases orientadas a la validación y un uso moderado de emojis. Si tu producto depende de una voz específica, reevalúa los prompts de estilo frente a la nueva línea base.
Por ejemplo, si la voz de tu producto es más cálida o conversacional, agrega:
Use a warm, collaborative tone. Acknowledge the user's framing before answering.Claude Opus 4.8 tiende a crear menos subagentes por defecto. Sin embargo, este comportamiento es dirigible mediante prompting; dale a Claude Opus 4.8 orientación explícita sobre cuándo son deseables los subagentes. Un ejemplo ilustrativo para un caso de uso de programación:
Do not spawn a subagent for work you can complete directly in a single response (e.g.
refactoring a function you can already see).
Spawn multiple subagents in the same turn when fanning out across items or reading multiple files.Claude Opus 4.8 tiene fuertes instintos de diseño, con un estilo propio predeterminado consistente: fondos crema cálido/blanco hueso (~#F4F1EA), tipografía de display serif (Georgia, Fraunces, Playfair), acentos de palabras en cursiva y un color de acento terracota/ámbar. Esto funciona bien para briefs editoriales, de hospitalidad y de portafolio, pero se sentirá fuera de lugar para dashboards, herramientas de desarrollo, fintech, salud o aplicaciones empresariales. El valor predeterminado aparece tanto en presentaciones de diapositivas como en interfaces web.
Este valor predeterminado es persistente. Las instrucciones genéricas ("no uses crema", "hazlo limpio y minimalista") tienden a cambiar el modelo a una paleta fija diferente en lugar de producir variedad. Dos enfoques funcionan de manera confiable:
1. Especifica una alternativa concreta. El modelo sigue especificaciones explícitas con precisión:
Design a desktop landing page for a supplement brand called AEFRM.
The visual direction should come from a cold monochrome atmosphere using pale
silver-gray tones that gradually deepen into blue-gray and near-black, similar to a
misted metallic surface.
The page should feel sharp and controlled, with a strong sense of structure and restraint.
Use this tonal system across the full page instead of introducing bright accent colors.
Use the uploaded image on the hero design in black and white.
The layout should be built with clear horizontal sections and a centered max-width
container. Use 4px corner radius consistently across cards, buttons, inputs, and media
frames. Margins should feel generous, with enough empty space around each section so the
page breathes.
Typography should use a square, angular sans-serif with wider letter spacing than usual,
especially in headings and navigation, so the text feels more engineered and less
compressed. Headline text can be large and uppercase, while supporting copy remains
short and sparse. The sub texts should be written with Alumni Sans SC in 4-6px like tiny
little texts on corners bottom centre like that.
For the structure, start with a hero section containing a strong product statement, one
short supporting paragraph, and a clean product placeholder or packshot frame. Below
that, add a benefit grid with three or four blocks, then a formulation or ingredients
section, and finally a cta.
Buttons should be flat and precise, with subtle hover changes using transition: all
160ms ease out where brightness and border contrast shift slightly rather than using
dramatic motion.
Color palette should stay within this range:
#E9ECEC, #C9D2D4, #8C9A9E, #44545B, #11171B.2. Haz que el modelo proponga opciones antes de construir. Esto rompe el valor predeterminado y da control a los usuarios. Si anteriormente dependías de temperature para obtener variedad de diseño, usa este enfoque; produce direcciones significativamente diferentes entre ejecuciones. Ejemplo de prompt:
Before building, propose 4 distinct visual directions tailored to this brief (each as:
bg hex / accent hex / typeface — one-line rationale). Ask the user to pick one, then
implement only that direction.Además, Claude Opus 4.8 requiere menos prompting de diseño frontend que los modelos anteriores para evitar patrones genéricos que los usuarios llaman la estética de "AI slop". Con modelos anteriores, Anthropic recomendaba un fragmento de prompt más extenso en la skill de frontend-design. Sin embargo, Claude Opus 4.8 genera frontends distintivos y creativos con una orientación de prompting más mínima. Este fragmento de prompt funciona bien con los consejos de prompting anteriores para obtener variedad:
<frontend_aesthetics>
NEVER use generic AI-generated aesthetics like overused font families (Inter, Roboto,
Arial, system fonts), cliched color schemes (particularly purple gradients on white or
dark backgrounds), predictable layouts and component patterns, and cookie-cutter design
that lacks context-specific character. Use unique fonts, cohesive colors and themes, and
animations for effects and micro-interactions.
</frontend_aesthetics>El uso de tokens y el comportamiento de Claude Opus 4.8 pueden diferir entre agentes de programación autónomos y asíncronos con un solo turno de usuario, y agentes de programación interactivos y síncronos con múltiples turnos de usuario. Específicamente, tiende a usar más tokens en entornos interactivos, principalmente porque razona más después de los turnos del usuario. Esto puede mejorar la coherencia de largo horizonte, el seguimiento de instrucciones y las capacidades de programación en sesiones de programación largas e interactivas, pero también conlleva un mayor uso de tokens. Para maximizar tanto el rendimiento como la eficiencia de tokens en productos de programación, usa esfuerzo xhigh o high, agrega funciones autónomas como un modo automático y reduce el número de interacciones humanas requeridas de tus usuarios.
Por supuesto, al limitar el número de interacciones de usuario requeridas, es importante especificar la tarea, la intención y las restricciones relevantes desde el principio en el primer turno humano. Proporcionar descripciones de tareas bien especificadas, claras y precisas desde el principio puede ayudar a maximizar la autonomía y la inteligencia mientras se minimiza el uso adicional de tokens después de los turnos del usuario. Debido a que Claude Opus 4.8 es más autónomo que los modelos anteriores, este patrón de uso ayuda a maximizar el rendimiento. En contraste, los prompts ambiguos o poco especificados transmitidos progresivamente a lo largo de múltiples turnos de usuario tienden a reducir relativamente la eficiencia de tokens y, a veces, el rendimiento.
Claude Opus 4.8 es significativamente mejor para encontrar bugs que los modelos anteriores, y tiene tanto mayor recall como precisión en evaluaciones internas. Sin embargo, si tu harness de revisión de código fue ajustado para un modelo anterior, es posible que inicialmente veas un recall más bajo. Esto probablemente sea un efecto del harness, no una regresión de capacidad. Cuando un prompt de revisión dice cosas como "solo reporta problemas de alta severidad", "sé conservador" o "no seas quisquilloso", Claude Opus 4.8 puede seguir esa instrucción más fielmente que los modelos anteriores: puede investigar el código con la misma profundidad, identificar los bugs y luego no reportar hallazgos que considera que están por debajo del umbral que indicaste. Esto puede manifestarse como que el modelo realiza la misma profundidad de investigación pero convierte menos investigaciones en hallazgos reportados, especialmente en bugs de menor severidad. La precisión típicamente aumenta, pero el recall medido puede disminuir aunque la capacidad subyacente del modelo para encontrar bugs haya mejorado.
Algo de lenguaje de prompt recomendado:
Report every issue you find, including ones you are uncertain about or consider
low-severity. Do not filter for importance or confidence at this stage - a separate
verification step will do that. Your goal here is coverage: it is better to surface a
finding that later gets filtered out than to silently drop a real bug. For each finding,
include your confidence level and an estimated severity so a downstream filter can rank
them.Este prompt puede usarse sin tener un segundo paso real, pero mover el filtrado por confianza fuera del paso de búsqueda a menudo ayuda. Si tu harness tiene una etapa separada de verificación, deduplicación o clasificación, dile al modelo explícitamente que su trabajo en la etapa de búsqueda es la cobertura en lugar del filtrado.
Si deseas que el modelo se autofiltre en una sola pasada, sé concreto sobre dónde está el umbral en lugar de usar términos cualitativos como "importante": por ejemplo, "reporta cualquier bug que pueda causar comportamiento incorrecto, una falla de prueba o un resultado engañoso; solo omite detalles menores como preferencias puramente de estilo o de nomenclatura".
Itera sobre los prompts contra un subconjunto de tus evaluaciones o casos de prueba para validar las mejoras en recall o puntuación F1.
La capacidad de uso de computadora funciona en distintas resoluciones, hasta una resolución máxima de 2576px / 3.75MP. Las pruebas internas de uso de computadora muestran que enviar imágenes a 1080p proporciona un buen equilibrio entre rendimiento y costo.
Para cargas de trabajo particularmente sensibles al costo, 720p o 1366×768 son opciones de menor costo con un rendimiento sólido. Realiza tus propias pruebas para encontrar la configuración ideal para tu caso de uso; experimentar con la configuración de esfuerzo también puede ayudar a ajustar el comportamiento del modelo.
Was this page helpful?