Loading...
    • Erstellen
    • Admin
    • Modelle & Preise
    • Client SDKs
    • API-Referenz
    Search...
    ⌘K
    Erste Schritte
    Einführung in ClaudeSchnellstart
    Mit Claude erstellen
    FunktionsübersichtVerwendung der Messages APIClaude API-FähigkeitStop-Gründe verarbeiten
    Modellmöglichkeiten
    Extended ThinkingAdaptive ThinkingAufwandTask Budgets (Beta)Fast Mode (Beta: Research Preview)Strukturierte AusgabenZitateStreaming MessagesBatch-VerarbeitungSuchergebnisseStreaming-AblehnungenMehrsprachige UnterstützungEmbeddings
    Tools
    ÜbersichtWie Tool-Nutzung funktioniertWeb Search ToolWeb Fetch ToolCode Execution ToolAdvisor ToolMemory ToolBash ToolComputer Use ToolText Editor Tool
    Tool-Infrastruktur
    Tool-ReferenzTool-SucheProgrammgesteuerte Tool-AufrufeFeingranulares Tool-Streaming
    Kontextverwaltung
    KontextfensterKomprimierungKontextbearbeitungPrompt CachingToken-Zählung
    Mit Dateien arbeiten
    Files APIPDF-UnterstützungBilder und Vision
    Skills
    ÜbersichtSchnellstartBest PracticesSkills für UnternehmenSkills in der API
    MCP
    Remote MCP ServerMCP Connector
    Prompt Engineering
    ÜbersichtBest Practices für PromptingConsole Prompting Tools
    Testen und evaluieren
    Erfolg definieren und Evaluierungen erstellenVerwendung des Evaluation Tools in ConsoleLatenz reduzieren
    Guardrails verstärken
    Halluzinationen reduzierenAusgabekonsistenz erhöhenJailbreaks abschwächenPrompt-Leak reduzieren
    Ressourcen
    Glossar
    Versionshinweise
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Testen und evaluieren

    Erfolgskriterien definieren und Evaluierungen erstellen

    Erfahren Sie, wie Sie klare Erfolgskriterien für Ihre LLM-basierte Anwendung definieren und Evaluierungen entwerfen, um die Leistung zu messen.

    Der Aufbau einer erfolgreichen LLM-basierten Anwendung beginnt damit, dass Sie Ihre Erfolgskriterien klar definieren und dann Evaluierungen entwerfen, um die Leistung anhand dieser Kriterien zu messen. Dieser Zyklus ist zentral für Prompt Engineering.

    Flowchart des Prompt Engineering: Testfälle, vorläufiger Prompt, iteratives Testen und Verfeinerung, endgültige Validierung, Veröffentlichung

    Definieren Sie Ihre Erfolgskriterien

    Gute Erfolgskriterien sind:

    • Spezifisch: Definieren Sie klar, was Sie erreichen möchten. Statt „gute Leistung" geben Sie an „genaue Stimmungsklassifizierung".

    • Messbar: Verwenden Sie quantitative Metriken oder gut definierte qualitative Skalen. Zahlen bieten Klarheit und Skalierbarkeit, aber qualitative Maßnahmen können wertvoll sein, wenn sie konsistent angewendet werden zusammen mit quantitativen Maßnahmen.

      • Selbst „verschwommene" Themen wie Ethik und Sicherheit können quantifiziert werden:
        Sicherheitskriterien
        SchlechtSichere Ausgaben
        GutWeniger als 0,1% der Ausgaben von 10.000 Versuchen, die von unserem Content-Filter als toxisch gekennzeichnet werden.

    • Erreichbar: Basieren Sie Ihre Ziele auf Branchenbenchmarks, vorherigen Experimenten, KI-Forschung oder Expertenwissen. Ihre Erfolgskennzahlen sollten nicht unrealistisch für die aktuellen Fähigkeiten von Frontier-Modellen sein.

    • Relevant: Richten Sie Ihre Kriterien nach dem Zweck Ihrer Anwendung und den Bedürfnissen der Benutzer aus. Starke Zitiergenauigkeit könnte für medizinische Apps kritisch sein, aber weniger für beiläufige Chatbots.

    Häufige Erfolgskriterien

    Hier sind einige Kriterien, die für Ihren Anwendungsfall wichtig sein könnten. Diese Liste ist nicht vollständig.

    Die meisten Anwendungsfälle erfordern eine mehrdimensionale Evaluierung nach mehreren Erfolgskriterien.


    Erstellen Sie Evaluierungen

    Evaluierungsdesign-Prinzipien

    1. Seien Sie aufgabenspezifisch: Entwerfen Sie Evaluierungen, die Ihre reale Aufgabenverteilung widerspiegeln. Vergessen Sie nicht, Grenzfälle einzubeziehen!

    2. Automatisieren Sie, wenn möglich: Strukturieren Sie Fragen so, dass sie automatische Bewertung ermöglichen (z. B. Multiple Choice, String-Abgleich, Code-Bewertung, LLM-Bewertung).
    3. Priorisieren Sie Volumen vor Qualität: Mehr Fragen mit etwas niedrigerem Signal automatisierter Bewertung ist besser als weniger Fragen mit hochqualitativer manueller Bewertung.

    Beispiel-Evaluierungen

    Das Schreiben von Hunderten von Testfällen kann schwierig sein! Lassen Sie Claude Ihnen helfen, mehr aus einem Basissatz von Beispiel-Testfällen zu generieren.
    Wenn Sie nicht wissen, welche Evaluierungsmethoden für Ihre Erfolgskriterien nützlich sein könnten, können Sie auch mit Claude brainstormen!

    Bewerten Sie Ihre Evaluierungen

    Wählen Sie bei der Entscheidung, welche Methode zum Bewerten von Evaluierungen verwendet werden soll, die schnellste, zuverlässigste und skalierbarste Methode:

    1. Code-basierte Bewertung: Am schnellsten und zuverlässigsten, äußerst skalierbar, aber auch mangelnde Nuance für komplexere Urteile, die weniger regelbasierte Starrheit erfordern.

      • Exact Match: output == golden_answer
      • String Match: key_phrase in output
    2. Menschliche Bewertung: Am flexibelsten und höchster Qualität, aber langsam und teuer. Vermeiden Sie wenn möglich.

    3. LLM-basierte Bewertung: Schnell und flexibel, skalierbar und geeignet für komplexe Urteile. Testen Sie zuerst auf Zuverlässigkeit und skalieren Sie dann.

    Tipps für LLM-basierte Bewertung

    • Haben Sie detaillierte, klare Rubriken: „Die Antwort sollte immer „Acme Inc." im ersten Satz erwähnen. Wenn nicht, wird die Antwort automatisch als „falsch" bewertet."
      Ein bestimmter Anwendungsfall oder sogar ein spezifisches Erfolgskriterium für diesen Anwendungsfall könnte mehrere Rubriken für eine ganzheitliche Evaluierung erfordern.
    • Empirisch oder spezifisch: Weisen Sie das LLM beispielsweise an, nur „korrekt" oder „falsch" auszugeben, oder urteilen Sie auf einer Skala von 1-5. Rein qualitative Evaluierungen sind schwer schnell und in großem Maßstab zu bewerten.
    • Fördern Sie Überlegungen: Bitten Sie das LLM, zuerst zu überlegen, bevor es eine Evaluierungspunktzahl entscheidet, und verwerfen Sie dann die Überlegungen. Dies verbessert die Evaluierungsleistung, besonders für Aufgaben, die komplexe Urteile erfordern.

    Nächste Schritte

    Erfolgskriterien brainstormen

    Brainstormen Sie Erfolgskriterien für Ihren Anwendungsfall mit Claude auf claude.ai.

    Tipp: Werfen Sie diese Seite als Anleitung für Claude in den Chat!

    Evals Cookbook

    Weitere Codebeispiele für menschlich-, code- und LLM-bewertete Evaluierungen.

    Was this page helpful?

    • Definieren Sie Ihre Erfolgskriterien
    • Häufige Erfolgskriterien
    • Erstellen Sie Evaluierungen
    • Evaluierungsdesign-Prinzipien
    • Beispiel-Evaluierungen
    • Bewerten Sie Ihre Evaluierungen
    • Tipps für LLM-basierte Bewertung
    • Nächste Schritte