• Mensajes
  • Agentes gestionados
  • Administración

Search...
⌘K
Casos de uso
Descripción generalEnrutamiento de ticketsAgente de atención al clienteModeración de contenidoResumen legal
Ingeniería de prompts
Descripción generalMejores prácticas de promptsPrompts para Claude Fable 5Prompts para Claude Opus 4.8Herramientas de prompts de la Consola
Probar y evaluar
Definir el éxito y crear evaluacionesUso de la herramienta de evaluación en la ConsolaReducir la latencia
Reforzar las barreras de protección
Reducir alucinacionesAumentar la consistencia de salidaMitigar jailbreaksReducir la filtración de prompts
Referencia
Glosario

Log in
Definir el éxito y crear evaluaciones
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Mejores prácticas/Probar y evaluar

Define criterios de éxito y construye evaluaciones

Construir una aplicación exitosa basada en LLM comienza por definir claramente tus criterios de éxito y luego diseñar evaluaciones para medir el rendimiento en función de ellos. Este ciclo es fundamental para la ingeniería de prompts.

Diagrama de flujo de ingeniería de prompts: casos de prueba, prompt preliminar, pruebas iterativas y refinamiento, validación final, lanzamiento

Define tus criterios de éxito

Los buenos criterios de éxito son:

  • Específicos: Define claramente lo que quieres lograr. En lugar de "buen rendimiento", especifica "clasificación precisa de sentimientos".

  • Medibles: Usa métricas cuantitativas o escalas cualitativas bien definidas. Los números proporcionan claridad y escalabilidad, pero las medidas cualitativas pueden ser valiosas si se aplican de manera consistente junto con medidas cuantitativas.

    • Incluso temas "difusos" como la ética y la seguridad pueden cuantificarse:
      Criterios de seguridad
      MaloSalidas seguras
      BuenoMenos del 0.1% de las salidas de 10,000 pruebas marcadas por toxicidad por nuestro filtro de contenido.

  • Alcanzables: Basa tus objetivos en puntos de referencia de la industria, experimentos previos, investigación en IA o conocimiento experto. Tus métricas de éxito no deben ser poco realistas respecto a las capacidades actuales de los modelos de vanguardia.

  • Relevantes: Alinea tus criterios con el propósito de tu aplicación y las necesidades de los usuarios. Una alta precisión en las citas podría ser crítica para aplicaciones médicas, pero menos importante para chatbots casuales.

Criterios de éxito comunes

Aquí hay algunos criterios que podrían ser importantes para tu caso de uso. Esta lista no es exhaustiva.

La mayoría de los casos de uso necesitarán una evaluación multidimensional a lo largo de varios criterios de éxito.


Construye evaluaciones

Principios de diseño de evaluaciones

  1. Sé específico para la tarea: Diseña evaluaciones que reflejen la distribución de tareas del mundo real. ¡No olvides tener en cuenta los casos límite!

  2. Automatiza cuando sea posible: Estructura las preguntas para permitir la calificación automatizada (por ejemplo, opción múltiple, coincidencia de cadenas, calificación por código, calificación por LLM).
  3. Prioriza el volumen sobre la calidad: Más preguntas con calificación automatizada de señal ligeramente menor es mejor que menos preguntas con evaluaciones de alta calidad calificadas manualmente por humanos.

Ejemplos de evaluaciones


¡Escribir cientos de casos de prueba puede ser difícil de hacer a mano! Pídele a Claude que te ayude a generar más a partir de un conjunto base de casos de prueba de ejemplo.

Si no sabes qué métodos de evaluación podrían ser útiles para evaluar tus criterios de éxito, ¡también puedes hacer una lluvia de ideas con Claude!

Califica tus evaluaciones

Al decidir qué método usar para calificar las evaluaciones, elige el método más rápido, más confiable y más escalable:

  1. Calificación basada en código: La más rápida y confiable, extremadamente escalable, pero también carece de matices para juicios más complejos que requieren menos rigidez basada en reglas.

    • Coincidencia exacta: output == golden_answer
    • Coincidencia de cadena: key_phrase in output
  2. Calificación humana: La más flexible y de alta calidad, pero lenta y costosa. Evítala si es posible.

  3. Calificación basada en LLM: Rápida y flexible, escalable y adecuada para juicios complejos. Prueba primero para garantizar la confiabilidad y luego escala.

Consejos para la calificación basada en LLM

  • Ten rúbricas detalladas y claras: "La respuesta siempre debe mencionar 'Acme Inc.' en la primera oración. Si no lo hace, la respuesta se califica automáticamente como 'incorrecta'."
    
    Un caso de uso determinado, o incluso un criterio de éxito específico para ese caso de uso, podría requerir varias rúbricas para una evaluación holística.
  • Empírico o específico: Por ejemplo, indica al LLM que genere solo 'correcto' o 'incorrecto', o que juzgue en una escala del 1 al 5. Las evaluaciones puramente cualitativas son difíciles de evaluar rápidamente y a escala.
  • Fomenta el razonamiento: Pide al LLM que piense primero antes de decidir una puntuación de evaluación, y luego descarta el razonamiento. Esto aumenta el rendimiento de la evaluación, particularmente para tareas que requieren juicios complejos.

Próximos pasos


Lluvia de ideas sobre criterios


Haz una lluvia de ideas sobre criterios de éxito para tu caso de uso con Claude en claude.ai.

Consejo: ¡Incluye esta página en el chat como guía para Claude!


Cookbook de evaluaciones


Más ejemplos de código de evaluaciones calificadas por humanos, por código y por LLM.

Was this page helpful?

  • Define tus criterios de éxito
  • Criterios de éxito comunes
  • Construye evaluaciones
  • Principios de diseño de evaluaciones
  • Ejemplos de evaluaciones
  • Califica tus evaluaciones
  • Consejos para la calificación basada en LLM
  • Próximos pasos