Was this page helpful?
Der Aufbau einer erfolgreichen LLM-basierten Anwendung beginnt damit, dass Sie Ihre Erfolgskriterien klar definieren und dann Evaluierungen entwerfen, um die Leistung anhand dieser Kriterien zu messen. Dieser Zyklus ist zentral für Prompt Engineering.

Gute Erfolgskriterien sind:
Spezifisch: Definieren Sie klar, was Sie erreichen möchten. Statt „gute Leistung" geben Sie an „genaue Stimmungsklassifizierung".
Messbar: Verwenden Sie quantitative Metriken oder gut definierte qualitative Skalen. Zahlen bieten Klarheit und Skalierbarkeit, aber qualitative Maßnahmen können wertvoll sein, wenn sie konsistent angewendet werden zusammen mit quantitativen Maßnahmen.
| Sicherheitskriterien | |
|---|---|
| Schlecht | Sichere Ausgaben |
| Gut | Weniger als 0,1% der Ausgaben von 10.000 Versuchen, die von unserem Content-Filter als toxisch gekennzeichnet werden. |
Erreichbar: Basieren Sie Ihre Ziele auf Branchenbenchmarks, vorherigen Experimenten, KI-Forschung oder Expertenwissen. Ihre Erfolgskennzahlen sollten nicht unrealistisch für die aktuellen Fähigkeiten von Frontier-Modellen sein.
Relevant: Richten Sie Ihre Kriterien nach dem Zweck Ihrer Anwendung und den Bedürfnissen der Benutzer aus. Starke Zitiergenauigkeit könnte für medizinische Apps kritisch sein, aber weniger für beiläufige Chatbots.
Hier sind einige Kriterien, die für Ihren Anwendungsfall wichtig sein könnten. Diese Liste ist nicht vollständig.
Die meisten Anwendungsfälle erfordern eine mehrdimensionale Evaluierung nach mehreren Erfolgskriterien.
Wählen Sie bei der Entscheidung, welche Methode zum Bewerten von Evaluierungen verwendet werden soll, die schnellste, zuverlässigste und skalierbarste Methode:
Code-basierte Bewertung: Am schnellsten und zuverlässigsten, äußerst skalierbar, aber auch mangelnde Nuance für komplexere Urteile, die weniger regelbasierte Starrheit erfordern.
output == golden_answerkey_phrase in outputMenschliche Bewertung: Am flexibelsten und höchster Qualität, aber langsam und teuer. Vermeiden Sie wenn möglich.
LLM-basierte Bewertung: Schnell und flexibel, skalierbar und geeignet für komplexe Urteile. Testen Sie zuerst auf Zuverlässigkeit und skalieren Sie dann.
Weitere Codebeispiele für menschlich-, code- und LLM-bewertete Evaluierungen.