Loading...
    • Guida per sviluppatori
    • Riferimento API
    • MCP
    • Risorse
    • Note di rilascio
    Search...
    ⌘K

    Primi passi

    Introduzione a ClaudeGuida rapida

    Modelli e prezzi

    Panoramica dei modelliScegliere un modelloNovità in Claude 4.5Migrazione a Claude 4.5Deprecazioni dei modelliPrezzi

    Crea con Claude

    Panoramica delle funzionalitàLavorare con l'API MessagesFinestre di contestoMigliori pratiche di prompt engineering

    Capacità

    Caching dei promptModifica del contestoPensiero estesoStreaming dei MessaggiElaborazione batchCitazioniSupporto multilingueConteggio dei tokenEmbeddingsVisioneSupporto PDFFiles APIRisultati di ricercaComponente aggiuntivo di Google Sheets

    Strumenti

    PanoramicaCome implementare l'uso degli strumentiUtilizzo efficiente dei token per gli strumentiStreaming granulare degli strumentiStrumento BashStrumento di esecuzione del codiceStrumento di utilizzo del computerStrumento editor di testoStrumento di recupero webStrumento di ricerca webStrumento memoria

    Competenze Agente

    PanoramicaIniziare con Agent Skills nell'APIMigliori pratiche per la creazione di SkillsUtilizzo di Skills

    Agent SDK

    Panoramica dell'Agent SDKRiferimento SDK Agent - TypeScriptRiferimento SDK Agent - Python

    Guide

    Input in StreamingGestione dei PermessiGestione delle SessioniHosting dell'Agent SDKModifica dei prompt di sistemaMCP nell'SDKStrumenti PersonalizzatiSubagenti nell'SDKComandi Slash nell'SDKAgent Skills nell'SDKTracciamento di Costi e UtilizzoListe TodoPlugin nell'SDK

    MCP nell'API

    Connettore MCPServer MCP remoti

    Claude su piattaforme di terze parti

    Amazon BedrockVertex AI

    Ingegneria dei prompt

    PanoramicaGeneratore di promptUsa template di promptMiglioratore di promptSii chiaro e direttoUsa esempi (prompt multishot)Lascia pensare Claude (CoT)Usa i tag XMLDare un ruolo a Claude (system prompt)Precompila la risposta di ClaudeConcatena prompt complessiSuggerimenti contesto lungoSuggerimenti per il pensiero esteso

    Testa e valuta

    Definisci criteri di successoSviluppare casi di testUtilizzo dello Strumento di ValutazioneRidurre la latenza

    Rafforza le protezioni

    Ridurre le allucinazioniAumentare la coerenza dell'outputMitigare i jailbreakhandle-streaming-refusalsRidurre la fuga di promptMantenere Claude nel personaggio

    Amministrazione e monitoraggio

    Panoramica dell'API AdminAPI di Utilizzo e CostiAPI di analisi del codice Claude
    Console
    Testa e valuta

    Creare valutazioni empiriche solide

    Sviluppa casi di test per misurare le prestazioni del tuo LLM rispetto ai criteri di successo definiti.

    Dopo aver definito i tuoi criteri di successo, il passo successivo è progettare valutazioni per misurare le prestazioni dell'LLM rispetto a quei criteri. Questa è una parte vitale del ciclo di ingegneria dei prompt.

    Questa guida si concentra su come sviluppare i tuoi casi di test.

    Costruire valutazioni e casi di test

    Principi di progettazione delle valutazioni

    1. Essere specifici per il compito: Progetta valutazioni che rispecchino la distribuzione del tuo compito nel mondo reale. Non dimenticare di considerare i casi limite!

    2. Automatizzare quando possibile: Struttura le domande per consentire la valutazione automatizzata (ad es., scelta multipla, corrispondenza di stringhe, valutazione tramite codice, valutazione tramite LLM).
    3. Dare priorità al volume rispetto alla qualità: Più domande con valutazione automatizzata di segnale leggermente inferiore è meglio di meno domande con valutazioni manuali di alta qualità valutate da umani.

    Esempi di valutazioni

    Scrivere centinaia di casi di test può essere difficile da fare a mano! Fai aiutare Claude a generarne di più da un set di base di casi di test di esempio.
    Se non sai quali metodi di valutazione potrebbero essere utili per valutare i tuoi criteri di successo, puoi anche fare brainstorming con Claude!

    Valutare le valutazioni

    Quando decidi quale metodo utilizzare per valutare le valutazioni, scegli il metodo più veloce, più affidabile e più scalabile:

    1. Valutazione basata su codice: Più veloce e più affidabile, estremamente scalabile, ma manca anche di sfumature per giudizi più complessi che richiedono meno rigidità basata su regole.

      • Corrispondenza esatta: output == golden_answer
      • Corrispondenza di stringa: key_phrase in output
    2. Valutazione umana: Più flessibile e di alta qualità, ma lenta e costosa. Evita se possibile.

    3. Valutazione basata su LLM: Veloce e flessibile, scalabile e adatta per giudizi complessi. Testa prima per assicurare l'affidabilità poi scala.

    Suggerimenti per la valutazione basata su LLM

    • Avere rubriche dettagliate e chiare: "La risposta dovrebbe sempre menzionare 'Acme Inc.' nella prima frase. Se non lo fa, la risposta viene automaticamente valutata come 'incorretta.'"
      Un dato caso d'uso, o anche un criterio di successo specifico per quel caso d'uso, potrebbe richiedere diverse rubriche per una valutazione olistica.
    • Empirico o specifico: Ad esempio, istruisci l'LLM a produrre solo 'corretto' o 'incorretto', o a giudicare da una scala di 1-5. Le valutazioni puramente qualitative sono difficili da valutare rapidamente e su scala.
    • Incoraggiare il ragionamento: Chiedi all'LLM di pensare prima prima di decidere un punteggio di valutazione, e poi scarta il ragionamento. Questo aumenta le prestazioni di valutazione, particolarmente per compiti che richiedono giudizi complessi.

    Prossimi passi

    Brainstorming valutazioni

    Impara come creare prompt che massimizzano i tuoi punteggi di valutazione.

    Cookbook delle valutazioni

    Altri esempi di codice di valutazioni valutate da umani, codice e LLM.

    • Costruire valutazioni e casi di test
    • Principi di progettazione delle valutazioni
    • Esempi di valutazioni
    • Valutare le valutazioni
    • Suggerimenti per la valutazione basata su LLM
    © 2025 ANTHROPIC PBC

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    © 2025 ANTHROPIC PBC