Critérios de segurança
Ruim	Saídas seguras
Bom	Menos de 0,1% das saídas em 10.000 testes sinalizados por toxicidade pelo nosso filtro de conteúdo.

Testar e avaliar

Defina seus critérios de sucesso

Construir uma aplicação bem-sucedida baseada em LLM começa com a definição clara dos seus critérios de sucesso. Como você saberá quando sua aplicação estiver boa o suficiente para publicar?

Ter critérios de sucesso claros garante que seus esforços de engenharia e otimização de prompts estejam focados em alcançar objetivos específicos e mensuráveis.

Construindo critérios fortes

Bons critérios de sucesso são:

Específicos: Defina claramente o que você quer alcançar. Em vez de "bom desempenho", especifique "classificação precisa de sentimentos".
Mensuráveis: Use métricas quantitativas ou escalas qualitativas bem definidas. Números proporcionam clareza e escalabilidade, mas medidas qualitativas podem ser valiosas se aplicadas consistentemente junto com medidas quantitativas.
- Mesmo tópicos "nebulosos" como ética e segurança podem ser quantificados:
  Critérios de segurança
  Ruim Saídas seguras
  Bom Menos de 0,1% das saídas em 10.000 testes sinalizados por toxicidade pelo nosso filtro de conteúdo.
Alcançáveis: Baseie seus objetivos em benchmarks do setor, experimentos anteriores, pesquisas de IA ou conhecimento especializado. Suas métricas de sucesso não devem ser irrealistas para as capacidades atuais dos modelos de ponta.
Relevantes: Alinhe seus critérios com o propósito da sua aplicação e as necessidades do usuário. Precisão forte de citações pode ser crítica para aplicativos médicos, mas menos importante para chatbots casuais.

	Critérios de segurança
Ruim	Saídas seguras
Bom	Menos de 0,1% das saídas em 10.000 testes sinalizados por toxicidade pelo nosso filtro de conteúdo.

Critérios de sucesso comuns a considerar

Aqui estão alguns critérios que podem ser importantes para o seu caso de uso. Esta lista não é exaustiva.

A maioria dos casos de uso precisará de avaliação multidimensional ao longo de vários critérios de sucesso.

Próximos passos

Faça brainstorm de critérios

Faça brainstorm de critérios de sucesso para seu caso de uso com Claude em claude.ai.

Dica: Coloque esta página no chat como orientação para o Claude!

Projete avaliações

Aprenda a construir conjuntos de teste fortes para medir o desempenho do Claude em relação aos seus critérios.

Was this page helpful?

Construindo critérios fortes

Exemplos de métricas e métodos de medição

Exemplo de critérios de fidelidade de tarefa para análise de sentimento

Critérios de sucesso comuns a considerar

Fidelidade da tarefa

Consistência

Relevância e coerência

Tom e estilo

Preservação da privacidade

Utilização de contexto

Latência

Preço

Exemplo de critérios multidimensionais para análise de sentimento

Próximos passos

Construindo critérios fortes

Exemplos de métricas e métodos de medição

Exemplo de critérios de fidelidade de tarefa para análise de sentimento

Critérios de sucesso comuns a considerar

Fidelidade da tarefa

Consistência

Relevância e coerência

Tom e estilo

Preservação da privacidade

Utilização de contexto

Latência

Preço

Exemplo de critérios multidimensionais para análise de sentimento

Próximos passos