Loading...
    • Guida per sviluppatori
    • Riferimento API
    • MCP
    • Risorse
    • Note sulla versione
    Search...
    ⌘K
    Primi passi
    Introduzione a ClaudeAvvio rapido
    Modelli e prezzi
    Panoramica dei modelliScelta di un modelloNovità in Claude 4.6Guida alla migrazioneDeprecazioni dei modelliPrezzi
    Crea con Claude
    Panoramica delle funzioniUtilizzo dell'API MessagesGestione dei motivi di arrestoBest practice per i prompt
    Capacità del modello
    Extended thinkingAdaptive thinkingEffortFast mode (anteprima di ricerca)Output strutturatiCitazioniStreaming dei messaggiElaborazione batchSupporto PDFRisultati di ricercaSupporto multilingueEmbeddingsVision
    Strumenti
    PanoramicaCome implementare l'uso degli strumentiStrumento di ricerca webStrumento di recupero webStrumento di esecuzione del codiceStrumento di memoriaStrumento BashStrumento Computer useStrumento editor di testo
    Infrastruttura degli strumenti
    Ricerca strumentiChiamata programmatica degli strumentiStreaming granulare degli strumenti
    Gestione del contesto
    Finestre di contestoCompattazioneModifica del contestoPrompt cachingConteggio dei token
    File e risorse
    API Files
    Agent Skills
    PanoramicaAvvio rapidoBest practiceSkills per l'aziendaUtilizzo di Skills con l'API
    Agent SDK
    PanoramicaAvvio rapidoTypeScript SDKTypeScript V2 (anteprima)Python SDKGuida alla migrazione
    MCP nell'API
    Connettore MCPServer MCP remoti
    Claude su piattaforme di terze parti
    Amazon BedrockMicrosoft FoundryVertex AI
    Prompt engineering
    PanoramicaGeneratore di promptUsa modelli di promptMiglioratore di promptSii chiaro e direttoUsa esempi (multishot prompting)Lascia che Claude pensi (CoT)Usa tag XMLDai a Claude un ruolo (prompt di sistema)Concatena prompt complessiSuggerimenti per il contesto lungoSuggerimenti per extended thinking
    Test e valutazione
    Definisci criteri di successoSviluppa casi di testUtilizzo dello strumento di valutazioneRiduzione della latenza
    Rafforza i guardrail
    Riduci le allucinazioniAumenta la coerenza dell'outputMitiga i jailbreakStreaming dei rifiutiRiduci la perdita di promptMantieni Claude nel personaggio
    Amministrazione e monitoraggio
    Panoramica dell'API AdminResidenza dei datiWorkspaceAPI di utilizzo e costiAPI Claude Code AnalyticsZero Data Retention
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Test e valutazione

    Creare valutazioni empiriche forti

    Scopri come sviluppare test case e valutazioni per misurare le prestazioni dell'LLM rispetto ai tuoi criteri di successo.

    Dopo aver definito i tuoi criteri di successo, il passo successivo è progettare valutazioni per misurare le prestazioni dell'LLM rispetto a tali criteri. Questa è una parte vitale del ciclo di prompt engineering.

    Flowchart of prompt engineering: test cases, preliminary prompt, iterative testing and refinement, final validation, ship

    Questa guida si concentra su come sviluppare i tuoi test case.

    Costruire evals e test case

    Principi di progettazione delle eval

    1. Essere specifici per il compito: Progetta eval che rispecchiano la distribuzione dei compiti nel mondo reale. Non dimenticare di considerare i casi limite!

    2. Automatizzare quando possibile: Struttura le domande per consentire la valutazione automatizzata (ad es., scelta multipla, corrispondenza di stringhe, valutazione basata su codice, valutazione basata su LLM).
    3. Dare priorità al volume rispetto alla qualità: Più domande con valutazione automatizzata leggermente meno precisa è meglio di meno domande con eval di alta qualità valutate manualmente da umani.

    Esempio di eval

    Scrivere centinaia di test case può essere difficile da fare manualmente! Chiedi a Claude di aiutarti a generarne altri da un set di base di test case di esempio.
    Se non sai quali metodi di eval potrebbero essere utili per valutare i tuoi criteri di successo, puoi anche fare brainstorming con Claude!

    Valutazione delle eval

    Quando decidi quale metodo utilizzare per valutare le eval, scegli il metodo più veloce, affidabile e scalabile:

    1. Valutazione basata su codice: La più veloce e affidabile, estremamente scalabile, ma manca di sfumature per giudizi più complessi che richiedono una rigidità meno basata su regole.

      • Corrispondenza esatta: output == golden_answer
      • Corrispondenza di stringhe: key_phrase in output
    2. Valutazione umana: La più flessibile e di alta qualità, ma lenta e costosa. Evita se possibile.

    3. Valutazione basata su LLM: Veloce e flessibile, scalabile e adatta a giudizi complessi. Testa prima per garantire l'affidabilità, quindi scala.

    Suggerimenti per la valutazione basata su LLM

    • Avere rubriche dettagliate e chiare: "La risposta dovrebbe sempre menzionare 'Acme Inc.' nella prima frase. Se non lo fa, la risposta viene automaticamente valutata come 'scorretta'."
      Un determinato caso di utilizzo, o anche un criterio di successo specifico per quel caso di utilizzo, potrebbe richiedere diverse rubriche per una valutazione olistica.
    • Empirico o specifico: Ad esempio, istruisci l'LLM per output solo 'corretto' o 'scorretto', o per giudicare su una scala da 1 a 5. Le valutazioni puramente qualitative sono difficili da valutare rapidamente e su larga scala.
    • Incoraggia il ragionamento: Chiedi all'LLM di pensare prima di decidere un punteggio di valutazione, quindi scarta il ragionamento. Questo aumenta le prestazioni di valutazione, in particolare per compiti che richiedono giudizi complessi.

    Passaggi successivi

    Brainstorm evaluations

    Scopri come creare prompt che massimizzano i tuoi punteggi di eval.

    Evals cookbook

    Altri esempi di codice di eval valutate da umani, basate su codice e basate su LLM.

    Was this page helpful?

    • Costruire evals e test case
    • Principi di progettazione delle eval
    • Esempio di eval
    • Valutazione delle eval
    • Suggerimenti per la valutazione basata su LLM
    • Passaggi successivi