Dopo aver definito i tuoi criteri di successo, il passo successivo è progettare valutazioni per misurare le prestazioni dell'LLM rispetto a quei criteri. Questa è una parte vitale del ciclo di ingegneria dei prompt.

Questa guida si concentra su come sviluppare i tuoi casi di test.
Quando decidi quale metodo utilizzare per valutare le valutazioni, scegli il metodo più veloce, più affidabile e più scalabile:
Valutazione basata su codice: Più veloce e più affidabile, estremamente scalabile, ma manca anche di sfumature per giudizi più complessi che richiedono meno rigidità basata su regole.
output == golden_answerkey_phrase in outputValutazione umana: Più flessibile e di alta qualità, ma lenta e costosa. Evita se possibile.
Valutazione basata su LLM: Veloce e flessibile, scalabile e adatta per giudizi complessi. Testa prima per assicurare l'affidabilità poi scala.
Altri esempi di codice di valutazioni valutate da umani, codice e LLM.