Após definir seus critérios de sucesso, o próximo passo é projetar avaliações para medir o desempenho do LLM contra esses critérios. Esta é uma parte vital do ciclo de engenharia de prompt.

Este guia foca em como desenvolver seus casos de teste.
Ao decidir qual método usar para classificar avaliações, escolha o método mais rápido, mais confiável e mais escalável:
Classificação baseada em código: Mais rápida e mais confiável, extremamente escalável, mas também carece de nuance para julgamentos mais complexos que requerem menos rigidez baseada em regras.
output == golden_answerkey_phrase in outputClassificação humana: Mais flexível e de alta qualidade, mas lenta e cara. Evite se possível.
Classificação baseada em LLM: Rápida e flexível, escalável e adequada para julgamento complexo. Teste para garantir confiabilidade primeiro, depois escale.
Mais exemplos de código de avaliações classificadas por humanos, código e LLM.