Loading...
    • Guía para desarrolladores
    • Referencia de API
    • MCP
    • Recursos
    • Notas de la versión
    Search...
    ⌘K
    Primeros pasos
    Introducción a ClaudeInicio rápido
    Modelos y precios
    Descripción general de modelosElegir un modeloNovedades en Claude 4.6Guía de migraciónModelos deprecadosPrecios
    Crear con Claude
    Descripción general de característicasUsar la API de MessagesManejar razones de paradaMejores prácticas de prompting
    Gestión de contexto
    Ventanas de contextoCompactaciónEdición de contexto
    Capacidades
    Almacenamiento en caché de promptsPensamiento extendidoPensamiento adaptativoEsfuerzoStreaming de MessagesProcesamiento por lotesCitasSoporte multilingüeConteo de tokensEmbeddingsVisiónSoporte de PDFAPI de FilesResultados de búsquedaSalidas estructuradas
    Herramientas
    Descripción generalCómo implementar el uso de herramientasStreaming de herramientas de grano finoHerramienta BashHerramienta de ejecución de códigoLlamada de herramientas programáticaHerramienta de uso de computadoraHerramienta de editor de textoHerramienta de búsqueda webHerramienta de búsqueda webHerramienta de memoriaHerramienta de búsqueda de herramientas
    Agent Skills
    Descripción generalInicio rápidoMejores prácticasSkills para empresasUsar Skills con la API
    Agent SDK
    Descripción generalInicio rápidoSDK de TypeScriptTypeScript V2 (vista previa)SDK de PythonGuía de migración
    MCP en la API
    Conector MCPServidores MCP remotos
    Claude en plataformas de terceros
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingeniería de prompts
    Descripción generalGenerador de promptsUsar plantillas de promptsMejorador de promptsSer claro y directoUsar ejemplos (prompting multishot)Dejar que Claude piense (CoT)Usar etiquetas XMLDar a Claude un rol (prompts del sistema)Encadenar prompts complejosConsejos de contexto largoConsejos de pensamiento extendido
    Probar y evaluar
    Definir criterios de éxitoDesarrollar casos de pruebaUsar la herramienta de evaluaciónReducir latencia
    Fortalecer protecciones
    Reducir alucinacionesAumentar consistencia de salidaMitigar ataques de jailbreakRechazos de streamingReducir fuga de promptsMantener a Claude en personaje
    Administración y monitoreo
    Descripción general de Admin APIResidencia de datosEspacios de trabajoAPI de uso y costosAPI de Claude Code AnalyticsRetención de datos cero
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Probar y evaluar

    Crear evaluaciones empíricas sólidas

    Aprende a diseñar evaluaciones para medir el rendimiento del LLM contra tus criterios de éxito

    Después de definir tus criterios de éxito, el siguiente paso es diseñar evaluaciones para medir el rendimiento del LLM contra esos criterios. Esta es una parte vital del ciclo de ingeniería de prompts.

    Diagrama de flujo de ingeniería de prompts: casos de prueba, prompt preliminar, pruebas iterativas y refinamiento, validación final, lanzamiento

    Esta guía se enfoca en cómo desarrollar tus casos de prueba.

    Construir evals y casos de prueba

    Principios de diseño de eval

    1. Sé específico de la tarea: Diseña evals que reflejen tu distribución de tareas del mundo real. ¡No olvides factorizar los casos límite!

    2. Automatiza cuando sea posible: Estructura preguntas para permitir calificación automatizada (por ejemplo, opción múltiple, coincidencia de cadena, calificación de código, calificación por LLM).
    3. Prioriza volumen sobre calidad: Más preguntas con calificación automatizada de señal ligeramente más baja es mejor que menos preguntas con evals de alta calidad calificadas manualmente por humanos.

    Evals de ejemplo

    ¡Escribir cientos de casos de prueba puede ser difícil de hacer a mano! Obtén ayuda de Claude para generar más a partir de un conjunto de casos de prueba de ejemplo de referencia.
    Si no sabes qué métodos de eval podrían ser útiles para evaluar tus criterios de éxito, ¡también puedes hacer una lluvia de ideas con Claude!

    Calificar evals

    Al decidir qué método usar para calificar evals, elige el método más rápido, más confiable y más escalable:

    1. Calificación basada en código: La más rápida y confiable, extremadamente escalable, pero también carece de matices para juicios más complejos que requieren menos rigidez basada en reglas.

      • Coincidencia exacta: output == golden_answer
      • Coincidencia de cadena: key_phrase in output
    2. Calificación humana: La más flexible y de alta calidad, pero lenta y cara. Evita si es posible.

    3. Calificación basada en LLM: Rápida y flexible, escalable y adecuada para juicios complejos. Prueba primero para asegurar confiabilidad y luego escala.

    Consejos para calificación basada en LLM

    • Ten rúbricas detalladas y claras: "La respuesta siempre debe mencionar 'Acme Inc.' en la primera oración. Si no lo hace, la respuesta se califica automáticamente como 'incorrecta'."
      Un caso de uso dado, o incluso un criterio de éxito específico para ese caso de uso, podría requerir varias rúbricas para una evaluación holística.
    • Empírico o específico: Por ejemplo, instruye al LLM para que genere solo 'correcto' o 'incorrecto', o para que juzgue en una escala del 1 al 5. Las evaluaciones puramente cualitativas son difíciles de evaluar rápidamente y a escala.
    • Fomenta el razonamiento: Pide al LLM que piense primero antes de decidir una puntuación de evaluación, y luego descarta el razonamiento. Esto aumenta el rendimiento de la evaluación, particularmente para tareas que requieren juicio complejo.

    Próximos pasos

    Brainstorm evaluaciones

    Aprende cómo crear prompts que maximicen tus puntuaciones de eval.

    Cookbook de evals

    Más ejemplos de código de evals calificadas por humanos, código y LLM.

    Was this page helpful?

    • Construir evals y casos de prueba
    • Principios de diseño de eval
    • Evals de ejemplo
    • Calificar evals
    • Consejos para calificación basada en LLM
    • Próximos pasos