Was this page helpful?
Construir uma aplicação bem-sucedida baseada em LLM começa com a definição clara de seus critérios de sucesso e, em seguida, o design de avaliações para medir o desempenho em relação a eles. Este ciclo é central para a engenharia de prompts.

Bons critérios de sucesso são:
Específicos: Defina claramente o que você quer alcançar. Em vez de "bom desempenho", especifique "classificação de sentimento precisa".
Mensuráveis: Use métricas quantitativas ou escalas qualitativas bem definidas. Os números fornecem clareza e escalabilidade, mas as medidas qualitativas podem ser valiosas se aplicadas consistentemente juntamente com medidas quantitativas.
| Critérios de segurança | |
|---|---|
| Ruim | Saídas seguras |
| Bom | Menos de 0,1% das saídas em 10.000 testes sinalizadas por toxicidade pelo nosso filtro de conteúdo. |
Alcançáveis: Baseie seus objetivos em benchmarks da indústria, experimentos anteriores, pesquisa em IA ou conhecimento de especialistas. Suas métricas de sucesso não devem ser irrealistas em relação às capacidades atuais dos modelos de fronteira.
Relevantes: Alinhe seus critérios com o propósito de sua aplicação e as necessidades dos usuários. A precisão forte de citações pode ser crítica para aplicações médicas, mas menos para chatbots casuais.
Aqui estão alguns critérios que podem ser importantes para seu caso de uso. Esta lista não é exaustiva.
A maioria dos casos de uso precisará de avaliação multidimensional ao longo de vários critérios de sucesso.
Ao decidir qual método usar para classificar avaliações, escolha o método mais rápido, mais confiável e mais escalável:
Classificação baseada em código: Mais rápida e confiável, extremamente escalável, mas também carece de nuance para julgamentos mais complexos que requerem menos rigidez baseada em regras.
output == golden_answerkey_phrase in outputClassificação humana: Mais flexível e de alta qualidade, mas lenta e cara. Evite se possível.
Classificação baseada em LLM: Rápida e flexível, escalável e adequada para julgamentos complexos. Teste para garantir confiabilidade primeiro e depois dimensione.
Mais exemplos de código de avaliações classificadas por humanos, código e LLM.