Starke empirische Evaluierungen erstellen

Evals und Testfälle erstellen

Eval-Designprinzipien

Aufgabenspezifisch sein: Entwerfen Sie Evals, die Ihre reale Aufgabenverteilung widerspiegeln. Vergessen Sie nicht, Grenzfälle zu berücksichtigen!

Automatisieren wenn möglich: Strukturieren Sie Fragen so, dass automatisierte Bewertung möglich ist (z.B. Multiple-Choice, String-Match, Code-bewertet, LLM-bewertet).

Volumen über Qualität priorisieren: Mehr Fragen mit etwas niedrigerem Signal bei automatisierter Bewertung ist besser als weniger Fragen mit hochwertigen manuell bewerteten Evals.

Beispiel-Evals

Hunderte von Testfällen von Hand zu schreiben kann schwierig sein! Lassen Sie Claude Ihnen dabei helfen, mehr aus einem Basissatz von Beispiel-Testfällen zu generieren.

Wenn Sie nicht wissen, welche Eval-Methoden nützlich sein könnten, um Ihre Erfolgskriterien zu bewerten, können Sie auch mit Claude brainstormen!

Evals bewerten

Bei der Entscheidung, welche Methode zur Bewertung von Evals verwendet werden soll, wählen Sie die schnellste, zuverlässigste, skalierbarste Methode:

Code-basierte Bewertung: Am schnellsten und zuverlässigsten, extrem skalierbar, aber fehlt auch Nuancierung für komplexere Beurteilungen, die weniger regelbasierte Starrheit erfordern.

Exakte Übereinstimmung: output == golden_answer
String-Übereinstimmung: key_phrase in output

Menschliche Bewertung: Am flexibelsten und hochwertigsten, aber langsam und teuer. Vermeiden Sie es wenn möglich.

LLM-basierte Bewertung: Schnell und flexibel, skalierbar und geeignet für komplexe Beurteilungen. Testen Sie zuerst die Zuverlässigkeit, dann skalieren Sie.

Tipps für LLM-basierte Bewertung

Detaillierte, klare Rubriken haben: "Die Antwort sollte immer 'Acme Inc.' im ersten Satz erwähnen. Wenn sie das nicht tut, wird die Antwort automatisch als 'falsch' bewertet."

Ein gegebener Anwendungsfall oder sogar ein spezifisches Erfolgskriterium für diesen Anwendungsfall könnte mehrere Rubriken für eine ganzheitliche Bewertung erfordern.

Empirisch oder spezifisch: Weisen Sie das LLM beispielsweise an, nur 'korrekt' oder 'falsch' auszugeben oder auf einer Skala von 1-5 zu beurteilen. Rein qualitative Bewertungen sind schwer schnell und im großen Maßstab zu bewerten.

Begründung fördern: Bitten Sie das LLM, zuerst zu denken, bevor es eine Bewertungspunktzahl entscheidet, und verwerfen Sie dann die Begründung. Dies erhöht die Bewertungsleistung, insbesondere für Aufgaben, die komplexe Beurteilungen erfordern.

Evals und Testfälle erstellen

Eval-Designprinzipien

Beispiel-Grenzfälle

Beispiel-Evals

Aufgabentreue (Sentimentanalyse) - Exakte Übereinstimmungsevaluierung

Evals bewerten

Tipps für LLM-basierte Bewertung

Beispiel: LLM-basierte Bewertung

Nächste Schritte

Konsistenz (FAQ-Bot) - Kosinus-Ähnlichkeitsevaluierung

Relevanz und Kohärenz (Zusammenfassung) - ROUGE-L-Evaluierung

Ton und Stil (Kundenservice) - LLM-basierte Likert-Skala

Datenschutzwahrung (Medizinischer Chatbot) - LLM-basierte binäre Klassifikation

Kontextnutzung (Gesprächsassistent) - LLM-basierte Ordinalskala