Definire i criteri di successo e costruire valutazioni
Impara a definire chiaramente i criteri di successo per le applicazioni basate su LLM e a progettare valutazioni per misurare le prestazioni.
Costruire un'applicazione basata su LLM di successo inizia con la definizione chiara dei tuoi criteri di successo e quindi con la progettazione di valutazioni per misurare le prestazioni rispetto a essi. Questo ciclo è centrale nell'ingegneria dei prompt.
Definisci i tuoi criteri di successo
I buoni criteri di successo sono:
Specifici: Definisci chiaramente cosa vuoi ottenere. Invece di "buone prestazioni", specifica "classificazione accurata del sentimento".
Misurabili: Utilizza metriche quantitative o scale qualitative ben definite. I numeri forniscono chiarezza e scalabilità, ma le misure qualitative possono essere preziose se applicate coerentemente insieme alle misure quantitative.
Anche argomenti "sfumati" come l'etica e la sicurezza possono essere quantificati:
Criteri di sicurezza
Cattivo
Output sicuri
Buono
Meno dello 0,1% degli output su 10.000 prove contrassegnati per tossicità dal nostro filtro dei contenuti.
Realizzabili: Basa i tuoi obiettivi su benchmark del settore, esperimenti precedenti, ricerca sull'IA o conoscenze di esperti. I tuoi metriche di successo non dovrebbero essere irrealistiche rispetto alle capacità attuali dei modelli frontier.
Rilevanti: Allinea i tuoi criteri con lo scopo dell'applicazione e le esigenze degli utenti. L'accuratezza forte delle citazioni potrebbe essere critica per le app mediche ma meno per i chatbot casuali.
Criteri di successo comuni
Ecco alcuni criteri che potrebbero essere importanti per il tuo caso d'uso. Questo elenco non è esaustivo.
La maggior parte dei casi d'uso richiederà una valutazione multidimensionale secondo diversi criteri di successo.
Costruisci valutazioni
Principi di progettazione della valutazione
Sii specifico del compito: Progetta valutazioni che rispecchiano la distribuzione del tuo compito nel mondo reale. Non dimenticare di considerare i casi limite!
Automatizza quando possibile: Struttura le domande per consentire la valutazione automatizzata (ad es. scelta multipla, corrispondenza di stringhe, valutazione codificata, valutazione basata su LLM).
Dai priorità al volume rispetto alla qualità: Più domande con segnale leggermente inferiore di valutazione automatizzata è meglio di meno domande con valutazioni di alta qualità valutate manualmente.
Valutazioni di esempio
Scrivere centinaia di casi di test può essere difficile da fare manualmente! Chiedi a Claude di aiutarti a generarne di più da un set di base di casi di test di esempio.
Se non sai quali metodi di valutazione potrebbero essere utili per valutare i tuoi criteri di successo, puoi anche fare brainstorming con Claude!
Valuta le tue valutazioni
Quando decidi quale metodo utilizzare per valutare le valutazioni, scegli il metodo più veloce, affidabile e scalabile:
Valutazione basata su codice: Più veloce e affidabile, estremamente scalabile, ma manca di sfumature per giudizi più complessi che richiedono una rigidità meno basata su regole.
Corrispondenza esatta: output == golden_answer
Corrispondenza di stringhe: key_phrase in output
Valutazione umana: Più flessibile e di alta qualità, ma lenta e costosa. Evita se possibile.
Valutazione basata su LLM: Veloce e flessibile, scalabile e adatta a giudizi complessi. Testa prima per garantire l'affidabilità, quindi scala.
Suggerimenti per la valutazione basata su LLM
Avere rubriche dettagliate e chiare: "La risposta dovrebbe sempre menzionare 'Acme Inc.' nella prima frase. Se non lo fa, la risposta viene automaticamente valutata come 'non corretta'."
Un dato caso d'uso, o anche un criterio di successo specifico per quel caso d'uso, potrebbe richiedere diverse rubriche per una valutazione olistica.
Empirico o specifico: Ad esempio, istruisci l'LLM a produrre solo 'corretto' o 'non corretto', o a giudicare su una scala da 1 a 5. Le valutazioni puramente qualitative sono difficili da valutare rapidamente e su larga scala.
Incoraggia il ragionamento: Chiedi all'LLM di pensare prima di decidere un punteggio di valutazione, e poi scarta il ragionamento. Questo aumenta le prestazioni di valutazione, in particolare per compiti che richiedono giudizi complessi.