Loading...
  • Erstellen
  • Admin
  • Modelle & Preise
  • Client-SDKs
  • API-Referenz
Search...
⌘K
Log in
Erfolg definieren und Evaluierungen erstellen
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Erstellen/Testen und evaluieren

Erfolgskriterien definieren und Evaluierungen erstellen

Erfahren Sie, wie Sie klare Erfolgskriterien für Ihre LLM-basierte Anwendung definieren und Evaluierungen entwerfen, um die Leistung zu messen.

Was this page helpful?

  • Definieren Sie Ihre Erfolgskriterien
  • Häufige Erfolgskriterien
  • Erstellen Sie Evaluierungen
  • Evaluierungsdesign-Prinzipien
  • Beispiel-Evaluierungen
  • Bewerten Sie Ihre Evaluierungen
  • Tipps für LLM-basierte Bewertung
  • Nächste Schritte

Der Aufbau einer erfolgreichen LLM-basierten Anwendung beginnt damit, dass Sie Ihre Erfolgskriterien klar definieren und dann Evaluierungen entwerfen, um die Leistung anhand dieser Kriterien zu messen. Dieser Zyklus ist zentral für Prompt Engineering.

Flowchart des Prompt Engineering: Testfälle, vorläufiger Prompt, iteratives Testen und Verfeinerung, endgültige Validierung, Veröffentlichung

Definieren Sie Ihre Erfolgskriterien

Gute Erfolgskriterien sind:

  • Spezifisch: Definieren Sie klar, was Sie erreichen möchten. Statt „gute Leistung" geben Sie an „genaue Stimmungsklassifizierung".

  • Messbar: Verwenden Sie quantitative Metriken oder gut definierte qualitative Skalen. Zahlen bieten Klarheit und Skalierbarkeit, aber qualitative Maßnahmen können wertvoll sein, wenn sie konsistent angewendet werden zusammen mit quantitativen Maßnahmen.

    • Selbst „verschwommene" Themen wie Ethik und Sicherheit können quantifiziert werden:
      Sicherheitskriterien
      SchlechtSichere Ausgaben
      GutWeniger als 0,1% der Ausgaben von 10.000 Versuchen, die von unserem Content-Filter als toxisch gekennzeichnet werden.

  • Erreichbar: Basieren Sie Ihre Ziele auf Branchenbenchmarks, vorherigen Experimenten, KI-Forschung oder Expertenwissen. Ihre Erfolgskennzahlen sollten nicht unrealistisch für die aktuellen Fähigkeiten von Frontier-Modellen sein.

  • Relevant: Richten Sie Ihre Kriterien nach dem Zweck Ihrer Anwendung und den Bedürfnissen der Benutzer aus. Starke Zitiergenauigkeit könnte für medizinische Apps kritisch sein, aber weniger für beiläufige Chatbots.

Häufige Erfolgskriterien

Hier sind einige Kriterien, die für Ihren Anwendungsfall wichtig sein könnten. Diese Liste ist nicht vollständig.

Die meisten Anwendungsfälle erfordern eine mehrdimensionale Evaluierung nach mehreren Erfolgskriterien.


Erstellen Sie Evaluierungen

Evaluierungsdesign-Prinzipien

  1. Seien Sie aufgabenspezifisch: Entwerfen Sie Evaluierungen, die Ihre reale Aufgabenverteilung widerspiegeln. Vergessen Sie nicht, Grenzfälle einzubeziehen!

  2. Automatisieren Sie, wenn möglich: Strukturieren Sie Fragen so, dass sie automatische Bewertung ermöglichen (z. B. Multiple Choice, String-Abgleich, Code-Bewertung, LLM-Bewertung).
  3. Priorisieren Sie Volumen vor Qualität: Mehr Fragen mit etwas niedrigerem Signal automatisierter Bewertung ist besser als weniger Fragen mit hochqualitativer manueller Bewertung.

Beispiel-Evaluierungen

Das Schreiben von Hunderten von Testfällen kann schwierig sein! Lassen Sie Claude Ihnen helfen, mehr aus einem Basissatz von Beispiel-Testfällen zu generieren.
Wenn Sie nicht wissen, welche Evaluierungsmethoden für Ihre Erfolgskriterien nützlich sein könnten, können Sie auch mit Claude brainstormen!

Bewerten Sie Ihre Evaluierungen

Wählen Sie bei der Entscheidung, welche Methode zum Bewerten von Evaluierungen verwendet werden soll, die schnellste, zuverlässigste und skalierbarste Methode:

  1. Code-basierte Bewertung: Am schnellsten und zuverlässigsten, äußerst skalierbar, aber auch mangelnde Nuance für komplexere Urteile, die weniger regelbasierte Starrheit erfordern.

    • Exact Match: output == golden_answer
    • String Match: key_phrase in output
  2. Menschliche Bewertung: Am flexibelsten und höchster Qualität, aber langsam und teuer. Vermeiden Sie wenn möglich.

  3. LLM-basierte Bewertung: Schnell und flexibel, skalierbar und geeignet für komplexe Urteile. Testen Sie zuerst auf Zuverlässigkeit und skalieren Sie dann.

Tipps für LLM-basierte Bewertung

  • Haben Sie detaillierte, klare Rubriken: „Die Antwort sollte immer „Acme Inc." im ersten Satz erwähnen. Wenn nicht, wird die Antwort automatisch als „falsch" bewertet."
    Ein bestimmter Anwendungsfall oder sogar ein spezifisches Erfolgskriterium für diesen Anwendungsfall könnte mehrere Rubriken für eine ganzheitliche Evaluierung erfordern.
  • Empirisch oder spezifisch: Weisen Sie das LLM beispielsweise an, nur „korrekt" oder „falsch" auszugeben, oder urteilen Sie auf einer Skala von 1-5. Rein qualitative Evaluierungen sind schwer schnell und in großem Maßstab zu bewerten.
  • Fördern Sie Überlegungen: Bitten Sie das LLM, zuerst zu überlegen, bevor es eine Evaluierungspunktzahl entscheidet, und verwerfen Sie dann die Überlegungen. Dies verbessert die Evaluierungsleistung, besonders für Aufgaben, die komplexe Urteile erfordern.

Nächste Schritte

Erfolgskriterien brainstormen

Brainstormen Sie Erfolgskriterien für Ihren Anwendungsfall mit Claude auf claude.ai.

Tipp: Werfen Sie diese Seite als Anleitung für Claude in den Chat!

Evals Cookbook

Weitere Codebeispiele für menschlich-, code- und LLM-bewertete Evaluierungen.