Was this page helpful?
Nach der Definition Ihrer Erfolgskriterien besteht der nächste Schritt darin, Evaluierungen zu entwerfen, um die LLM-Leistung gegen diese Kriterien zu messen. Dies ist ein wichtiger Teil des Prompt-Engineering-Zyklus.

Dieser Leitfaden konzentriert sich auf die Entwicklung Ihrer Testfälle.
Bei der Entscheidung, welche Methode zum Bewerten von Evals verwendet werden soll, wählen Sie die schnellste, zuverlässigste und skalierbarste Methode:
Code-basierte Bewertung: Am schnellsten und zuverlässigsten, äußerst skalierbar, aber auch mangelnde Nuance für komplexere Urteile, die weniger regelbasierte Starrheit erfordern.
output == golden_answerkey_phrase in outputMenschliche Bewertung: Am flexibelsten und höchster Qualität, aber langsam und teuer. Vermeiden Sie wenn möglich.
LLM-basierte Bewertung: Schnell und flexibel, skalierbar und geeignet für komplexe Urteile. Testen Sie zuerst auf Zuverlässigkeit, dann skalieren Sie.
Weitere Codebeispiele von manuell-, Code- und LLM-bewerteten Evals.