Loading...
  • Construir
  • Admin
  • Modelos e preços
  • SDKs do cliente
  • Referência da API
Search...
⌘K
Log in
Definir sucesso e criar avaliações
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Construir/Testar e avaliar

Defina critérios de sucesso e construa avaliações

Aprenda a definir critérios de sucesso claros e construir avaliações para medir o desempenho de aplicações baseadas em LLM.

Was this page helpful?

  • Defina seus critérios de sucesso
  • Critérios de sucesso comuns
  • Construa avaliações
  • Princípios de design de avaliação
  • Avaliações de exemplo
  • Classifique suas avaliações
  • Dicas para classificação baseada em LLM
  • Próximos passos

Construir uma aplicação bem-sucedida baseada em LLM começa com a definição clara de seus critérios de sucesso e, em seguida, o design de avaliações para medir o desempenho em relação a eles. Este ciclo é central para a engenharia de prompts.

Fluxograma de engenharia de prompts: casos de teste, prompt preliminar, testes e refinamento iterativos, validação final, lançamento

Defina seus critérios de sucesso

Bons critérios de sucesso são:

  • Específicos: Defina claramente o que você quer alcançar. Em vez de "bom desempenho", especifique "classificação de sentimento precisa".

  • Mensuráveis: Use métricas quantitativas ou escalas qualitativas bem definidas. Os números fornecem clareza e escalabilidade, mas as medidas qualitativas podem ser valiosas se aplicadas consistentemente juntamente com medidas quantitativas.

    • Até mesmo tópicos "nebulosos" como ética e segurança podem ser quantificados:
      Critérios de segurança
      RuimSaídas seguras
      BomMenos de 0,1% das saídas em 10.000 testes sinalizadas por toxicidade pelo nosso filtro de conteúdo.

  • Alcançáveis: Baseie seus objetivos em benchmarks da indústria, experimentos anteriores, pesquisa em IA ou conhecimento de especialistas. Suas métricas de sucesso não devem ser irrealistas em relação às capacidades atuais dos modelos de fronteira.

  • Relevantes: Alinhe seus critérios com o propósito de sua aplicação e as necessidades dos usuários. A precisão forte de citações pode ser crítica para aplicações médicas, mas menos para chatbots casuais.

Critérios de sucesso comuns

Aqui estão alguns critérios que podem ser importantes para seu caso de uso. Esta lista não é exaustiva.

A maioria dos casos de uso precisará de avaliação multidimensional ao longo de vários critérios de sucesso.


Construa avaliações

Princípios de design de avaliação

  1. Seja específico da tarefa: Projete avaliações que reflitam sua distribuição de tarefa do mundo real. Não se esqueça de considerar casos extremos!

  2. Automatize quando possível: Estruture as perguntas para permitir classificação automatizada (por exemplo, múltipla escolha, correspondência de string, classificação por código, classificação por LLM).
  3. Priorize volume sobre qualidade: Mais perguntas com classificação automatizada de sinal ligeiramente inferior é melhor do que menos perguntas com avaliações de alta qualidade classificadas manualmente por humanos.

Avaliações de exemplo

Escrever centenas de casos de teste pode ser difícil de fazer manualmente! Peça ajuda ao Claude para gerar mais a partir de um conjunto de casos de teste de exemplo de linha de base.
Se você não sabe quais métodos de avaliação podem ser úteis para avaliar seus critérios de sucesso, você também pode fazer brainstorming com Claude!

Classifique suas avaliações

Ao decidir qual método usar para classificar avaliações, escolha o método mais rápido, mais confiável e mais escalável:

  1. Classificação baseada em código: Mais rápida e confiável, extremamente escalável, mas também carece de nuance para julgamentos mais complexos que requerem menos rigidez baseada em regras.

    • Correspondência exata: output == golden_answer
    • Correspondência de string: key_phrase in output
  2. Classificação humana: Mais flexível e de alta qualidade, mas lenta e cara. Evite se possível.

  3. Classificação baseada em LLM: Rápida e flexível, escalável e adequada para julgamentos complexos. Teste para garantir confiabilidade primeiro e depois dimensione.

Dicas para classificação baseada em LLM

  • Tenha rubricas detalhadas e claras: "A resposta deve sempre mencionar 'Acme Inc.' na primeira frase. Se não mencionar, a resposta é automaticamente classificada como 'incorreta'."
    Um caso de uso específico, ou até mesmo um critério de sucesso específico para esse caso de uso, pode exigir várias rubricas para avaliação holística.
  • Empírico ou específico: Por exemplo, instrua o LLM a produzir apenas 'correto' ou 'incorreto', ou a julgar em uma escala de 1-5. Avaliações puramente qualitativas são difíceis de avaliar rapidamente e em escala.
  • Incentive o raciocínio: Peça ao LLM para pensar primeiro antes de decidir uma pontuação de avaliação e depois descarte o raciocínio. Isso aumenta o desempenho da avaliação, particularmente para tarefas que exigem julgamento complexo.

Próximos passos

Brainstorm de critérios

Faça brainstorm de critérios de sucesso para seu caso de uso com Claude em claude.ai.

Dica: Coloque esta página no chat como orientação para Claude!

Cookbook de avaliações

Mais exemplos de código de avaliações classificadas por humanos, código e LLM.