Dopo aver definito i tuoi criteri di successo, il passo successivo è progettare valutazioni per misurare le prestazioni dell'LLM rispetto a tali criteri. Questa è una parte vitale del ciclo di prompt engineering.

Questa guida si concentra su come sviluppare i tuoi test case.
Was this page helpful?
Quando decidi quale metodo utilizzare per valutare le eval, scegli il metodo più veloce, affidabile e scalabile:
Valutazione basata su codice: La più veloce e affidabile, estremamente scalabile, ma manca di sfumature per giudizi più complessi che richiedono una rigidità meno basata su regole.
output == golden_answerkey_phrase in outputValutazione umana: La più flessibile e di alta qualità, ma lenta e costosa. Evita se possibile.
Valutazione basata su LLM: Veloce e flessibile, scalabile e adatta a giudizi complessi. Testa prima per garantire l'affidabilità, quindi scala.