Nach der Definition Ihrer Erfolgskriterien ist der nächste Schritt die Gestaltung von Evaluierungen zur Messung der LLM-Leistung gegen diese Kriterien. Dies ist ein wichtiger Teil des Prompt-Engineering-Zyklus.

Dieser Leitfaden konzentriert sich darauf, wie Sie Ihre Testfälle entwickeln.
Bei der Entscheidung, welche Methode zur Bewertung von Evals verwendet werden soll, wählen Sie die schnellste, zuverlässigste, skalierbarste Methode:
Code-basierte Bewertung: Am schnellsten und zuverlässigsten, extrem skalierbar, aber fehlt auch Nuancierung für komplexere Beurteilungen, die weniger regelbasierte Starrheit erfordern.
output == golden_answerkey_phrase in outputMenschliche Bewertung: Am flexibelsten und hochwertigsten, aber langsam und teuer. Vermeiden Sie es wenn möglich.
LLM-basierte Bewertung: Schnell und flexibel, skalierbar und geeignet für komplexe Beurteilungen. Testen Sie zuerst die Zuverlässigkeit, dann skalieren Sie.
Mehr Code-Beispiele für menschlich-, code- und LLM-bewertete Evals.