Loading...
    • Entwicklerleitfaden
    • API-Referenz
    • MCP
    • Ressourcen
    • Versionshinweise
    Search...
    ⌘K
    Erste Schritte
    Einführung in ClaudeSchnelleinstieg
    Modelle & Preise
    ModellübersichtModell auswählenNeuerungen in Claude 4.6MigrationsleitfadenModellabschreibungenPreise
    Mit Claude entwickeln
    FunktionsübersichtMessages API verwendenStop-Gründe verarbeitenBest Practices für Prompts
    Modellfähigkeiten
    Extended ThinkingAdaptive ThinkingAufwandFast Mode (Research Preview)Strukturierte AusgabenZitateStreaming MessagesBatch-VerarbeitungPDF-UnterstützungSuchergebnisseMehrsprachige UnterstützungEmbeddingsVision
    Tools
    ÜbersichtTool-Nutzung implementierenWeb-Such-ToolWeb-Abruf-ToolCode-Ausführungs-ToolMemory-ToolBash-ToolComputer-Use-ToolText-Editor-Tool
    Tool-Infrastruktur
    Tool-SucheProgrammgesteuerte Tool-AufrufeFeingranulares Tool-Streaming
    Kontextverwaltung
    KontextfensterKomprimierungKontextbearbeitungPrompt CachingToken-Zählung
    Dateien & Assets
    Files API
    Agent Skills
    ÜbersichtSchnelleinstiegBest PracticesSkills für UnternehmenSkills mit der API verwenden
    Agent SDK
    ÜbersichtSchnelleinstiegTypeScript SDKTypeScript V2 (Preview)Python SDKMigrationsleitfaden
    MCP in der API
    MCP-ConnectorRemote MCP-Server
    Claude auf Plattformen von Drittanbietern
    Amazon BedrockMicrosoft FoundryVertex AI
    Prompt Engineering
    ÜbersichtPrompt-GeneratorPrompt-Vorlagen verwendenPrompt-VerbessererKlar und direkt seinBeispiele verwenden (Multishot Prompting)Claude denken lassen (CoT)XML-Tags verwendenClaude eine Rolle geben (System Prompts)Komplexe Prompts verkettenTipps für lange KontexteTipps für Extended Thinking
    Testen & Evaluieren
    Erfolgskriterien definierenTestfälle entwickelnEvaluierungstool verwendenLatenz reduzieren
    Schutzmaßnahmen verstärken
    Halluzinationen reduzierenAusgabekonsistenz erhöhenJailbreaks abschwächenStreaming-AblehnungenPrompt-Lecks reduzierenClaude im Charakter halten
    Verwaltung und Überwachung
    Admin API ÜbersichtDatenspeicherortArbeitsbereicheUsage and Cost APIClaude Code Analytics APIZero Data Retention
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Testen & Evaluieren

    Erstellen Sie starke empirische Evaluierungen

    Erfahren Sie, wie Sie Evaluierungen und Testfälle entwerfen, um die LLM-Leistung zu messen.

    Nach der Definition Ihrer Erfolgskriterien besteht der nächste Schritt darin, Evaluierungen zu entwerfen, um die LLM-Leistung gegen diese Kriterien zu messen. Dies ist ein wichtiger Teil des Prompt-Engineering-Zyklus.

    Flowchart of prompt engineering: test cases, preliminary prompt, iterative testing and refinement, final validation, ship

    Dieser Leitfaden konzentriert sich auf die Entwicklung Ihrer Testfälle.

    Evals und Testfälle erstellen

    Eval-Designprinzipien

    1. Aufgabenspezifisch sein: Entwerfen Sie Evals, die Ihre reale Aufgabenverteilung widerspiegeln. Vergessen Sie nicht, Grenzfälle einzubeziehen!

    2. Automatisieren Sie, wenn möglich: Strukturieren Sie Fragen so, dass automatisierte Bewertung möglich ist (z. B. Multiple-Choice, String-Abgleich, Code-bewertet, LLM-bewertet).
    3. Priorisieren Sie Volumen über Qualität: Mehr Fragen mit leicht niedrigerem Signal automatisierter Bewertung ist besser als weniger Fragen mit hochqualitativen manuell bewerteten Evals.

    Beispiel-Evals

    Das Schreiben von Hunderten von Testfällen kann schwierig sein! Lassen Sie Claude Ihnen helfen, mehr aus einem Basissatz von Beispiel-Testfällen zu generieren.
    Wenn Sie nicht wissen, welche Eval-Methoden zur Bewertung Ihrer Erfolgskriterien nützlich sein könnten, können Sie auch mit Claude brainstormen!

    Evals bewerten

    Bei der Entscheidung, welche Methode zum Bewerten von Evals verwendet werden soll, wählen Sie die schnellste, zuverlässigste und skalierbarste Methode:

    1. Code-basierte Bewertung: Am schnellsten und zuverlässigsten, äußerst skalierbar, aber auch mangelnde Nuance für komplexere Urteile, die weniger regelbasierte Starrheit erfordern.

      • Exact Match: output == golden_answer
      • String Match: key_phrase in output
    2. Menschliche Bewertung: Am flexibelsten und höchster Qualität, aber langsam und teuer. Vermeiden Sie wenn möglich.

    3. LLM-basierte Bewertung: Schnell und flexibel, skalierbar und geeignet für komplexe Urteile. Testen Sie zuerst auf Zuverlässigkeit, dann skalieren Sie.

    Tipps für LLM-basierte Bewertung

    • Haben Sie detaillierte, klare Rubriken: „Die Antwort sollte immer ‚Acme Inc.' im ersten Satz erwähnen. Wenn nicht, wird die Antwort automatisch als ‚falsch' bewertet."
      Ein bestimmter Anwendungsfall oder sogar ein spezifisches Erfolgskriterium für diesen Anwendungsfall könnte mehrere Rubriken für eine ganzheitliche Bewertung erfordern.
    • Empirisch oder spezifisch: Weisen Sie das LLM beispielsweise an, nur „korrekt" oder „falsch" auszugeben, oder urteilen Sie auf einer Skala von 1-5. Rein qualitative Bewertungen sind schwer schnell und im großen Maßstab zu bewerten.
    • Fördern Sie Überlegungen: Bitten Sie das LLM, zuerst zu überlegen, bevor es eine Bewertungspunktzahl entscheidet, und verwerfen Sie dann die Überlegungen. Dies verbessert die Bewertungsleistung, besonders für Aufgaben, die komplexe Urteile erfordern.

    Nächste Schritte

    Evaluierungen brainstormen

    Erfahren Sie, wie Sie Prompts erstellen, die Ihre Eval-Scores maximieren.

    Evals Cookbook

    Weitere Codebeispiele von manuell-, Code- und LLM-bewerteten Evals.

    Was this page helpful?

    • Evals und Testfälle erstellen
    • Eval-Designprinzipien
    • Beispiel-Evals
    • Evals bewerten
    • Tipps für LLM-basierte Bewertung
    • Nächste Schritte