Loading...
  • Costruisci
  • Amministrazione
  • Modelli e prezzi
  • Client SDK
  • Riferimento API
Search...
⌘K
Log in
Definisci il successo e costruisci valutazioni
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Costruisci/Testa e valuta

Definire i criteri di successo e costruire valutazioni

Impara a definire chiaramente i criteri di successo per le applicazioni basate su LLM e a progettare valutazioni per misurare le prestazioni.

Costruire un'applicazione basata su LLM di successo inizia con la definizione chiara dei tuoi criteri di successo e quindi con la progettazione di valutazioni per misurare le prestazioni rispetto a essi. Questo ciclo è centrale nell'ingegneria dei prompt.

Flowchart of prompt engineering: test cases, preliminary prompt, iterative testing and refinement, final validation, ship

Definisci i tuoi criteri di successo

I buoni criteri di successo sono:

  • Specifici: Definisci chiaramente cosa vuoi ottenere. Invece di "buone prestazioni", specifica "classificazione accurata del sentimento".

  • Misurabili: Utilizza metriche quantitative o scale qualitative ben definite. I numeri forniscono chiarezza e scalabilità, ma le misure qualitative possono essere preziose se applicate coerentemente insieme alle misure quantitative.

    • Anche argomenti "sfumati" come l'etica e la sicurezza possono essere quantificati:
      Criteri di sicurezza
      CattivoOutput sicuri
      BuonoMeno dello 0,1% degli output su 10.000 prove contrassegnati per tossicità dal nostro filtro dei contenuti.

  • Realizzabili: Basa i tuoi obiettivi su benchmark del settore, esperimenti precedenti, ricerca sull'IA o conoscenze di esperti. I tuoi metriche di successo non dovrebbero essere irrealistiche rispetto alle capacità attuali dei modelli frontier.

  • Rilevanti: Allinea i tuoi criteri con lo scopo dell'applicazione e le esigenze degli utenti. L'accuratezza forte delle citazioni potrebbe essere critica per le app mediche ma meno per i chatbot casuali.

Criteri di successo comuni

Ecco alcuni criteri che potrebbero essere importanti per il tuo caso d'uso. Questo elenco non è esaustivo.

La maggior parte dei casi d'uso richiederà una valutazione multidimensionale secondo diversi criteri di successo.


Costruisci valutazioni

Principi di progettazione della valutazione

  1. Sii specifico del compito: Progetta valutazioni che rispecchiano la distribuzione del tuo compito nel mondo reale. Non dimenticare di considerare i casi limite!

  2. Automatizza quando possibile: Struttura le domande per consentire la valutazione automatizzata (ad es. scelta multipla, corrispondenza di stringhe, valutazione codificata, valutazione basata su LLM).
  3. Dai priorità al volume rispetto alla qualità: Più domande con segnale leggermente inferiore di valutazione automatizzata è meglio di meno domande con valutazioni di alta qualità valutate manualmente.

Valutazioni di esempio

Scrivere centinaia di casi di test può essere difficile da fare manualmente! Chiedi a Claude di aiutarti a generarne di più da un set di base di casi di test di esempio.
Se non sai quali metodi di valutazione potrebbero essere utili per valutare i tuoi criteri di successo, puoi anche fare brainstorming con Claude!

Valuta le tue valutazioni

Quando decidi quale metodo utilizzare per valutare le valutazioni, scegli il metodo più veloce, affidabile e scalabile:

  1. Valutazione basata su codice: Più veloce e affidabile, estremamente scalabile, ma manca di sfumature per giudizi più complessi che richiedono una rigidità meno basata su regole.

    • Corrispondenza esatta: output == golden_answer
    • Corrispondenza di stringhe: key_phrase in output
  2. Valutazione umana: Più flessibile e di alta qualità, ma lenta e costosa. Evita se possibile.

  3. Valutazione basata su LLM: Veloce e flessibile, scalabile e adatta a giudizi complessi. Testa prima per garantire l'affidabilità, quindi scala.

Suggerimenti per la valutazione basata su LLM

  • Avere rubriche dettagliate e chiare: "La risposta dovrebbe sempre menzionare 'Acme Inc.' nella prima frase. Se non lo fa, la risposta viene automaticamente valutata come 'non corretta'."
    Un dato caso d'uso, o anche un criterio di successo specifico per quel caso d'uso, potrebbe richiedere diverse rubriche per una valutazione olistica.
  • Empirico o specifico: Ad esempio, istruisci l'LLM a produrre solo 'corretto' o 'non corretto', o a giudicare su una scala da 1 a 5. Le valutazioni puramente qualitative sono difficili da valutare rapidamente e su larga scala.
  • Incoraggia il ragionamento: Chiedi all'LLM di pensare prima di decidere un punteggio di valutazione, e poi scarta il ragionamento. Questo aumenta le prestazioni di valutazione, in particolare per compiti che richiedono giudizi complessi.

Passaggi successivi

Brainstorm criteri

Brainstorm criteri di successo per il tuo caso d'uso con Claude su claude.ai.

Suggerimento: Inserisci questa pagina nella chat come guida per Claude!

Cookbook di valutazioni

Altri esempi di codice di valutazioni valutate da umani, codice e LLM.

Was this page helpful?

  • Definisci i tuoi criteri di successo
  • Criteri di successo comuni
  • Costruisci valutazioni
  • Principi di progettazione della valutazione
  • Valutazioni di esempio
  • Valuta le tue valutazioni
  • Suggerimenti per la valutazione basata su LLM
  • Passaggi successivi