Sicherheitskriterien
Schlecht	Sichere Ausgaben
Gut	Weniger als 0,1% der Ausgaben aus 10.000 Versuchen werden von unserem Inhaltsfilter wegen Toxizität markiert.

Testen & Evaluieren

Definieren Sie Ihre Erfolgskriterien

Der Aufbau einer erfolgreichen LLM-basierten Anwendung beginnt mit der klaren Definition Ihrer Erfolgskriterien. Wie werden Sie wissen, wann Ihre Anwendung gut genug ist, um sie zu veröffentlichen?

Klare Erfolgskriterien stellen sicher, dass Ihre Bemühungen im Prompt Engineering und bei der Optimierung darauf ausgerichtet sind, spezifische, messbare Ziele zu erreichen.

Starke Kriterien entwickeln

Gute Erfolgskriterien sind:

Spezifisch: Definieren Sie klar, was Sie erreichen möchten. Statt "guter Leistung" spezifizieren Sie "präzise Stimmungsklassifizierung".
Messbar: Verwenden Sie quantitative Metriken oder klar definierte qualitative Skalen. Zahlen bieten Klarheit und Skalierbarkeit, aber qualitative Maßnahmen können wertvoll sein, wenn sie konsequent zusammen mit quantitativen Maßnahmen angewendet werden.
- Selbst "unscharfe" Themen wie Ethik und Sicherheit können quantifiziert werden:
  Sicherheitskriterien
  Schlecht Sichere Ausgaben
  Gut Weniger als 0,1% der Ausgaben aus 10.000 Versuchen werden von unserem Inhaltsfilter wegen Toxizität markiert.
Erreichbar: Basieren Sie Ihre Ziele auf Branchenbenchmarks, früheren Experimenten, KI-Forschung oder Expertenwissen. Ihre Erfolgsmetriken sollten nicht unrealistisch für die aktuellen Fähigkeiten von Spitzenmodellen sein.
Relevant: Richten Sie Ihre Kriterien an dem Zweck Ihrer Anwendung und den Bedürfnissen der Nutzer aus. Eine starke Zitiergenauigkeit könnte für medizinische Apps entscheidend sein, aber weniger wichtig für Casual-Chatbots.

	Sicherheitskriterien
Schlecht	Sichere Ausgaben
Gut	Weniger als 0,1% der Ausgaben aus 10.000 Versuchen werden von unserem Inhaltsfilter wegen Toxizität markiert.

Häufige Erfolgskriterien, die zu berücksichtigen sind

Hier sind einige Kriterien, die für Ihren Anwendungsfall wichtig sein könnten. Diese Liste ist nicht erschöpfend.

Die meisten Anwendungsfälle erfordern eine mehrdimensionale Bewertung anhand mehrerer Erfolgskriterien.

Nächste Schritte

Kriterien brainstormen

Brainstormen Sie Erfolgskriterien für Ihren Anwendungsfall mit Claude auf claude.ai.

Tipp: Fügen Sie diese Seite in den Chat ein als Leitfaden für Claude!

Evaluationen entwerfen

Lernen Sie, starke Testsets zu erstellen, um Claudes Leistung anhand Ihrer Kriterien zu messen.

Starke Kriterien entwickeln

Beispielmetriken und Messmethoden

Beispiel für Aufgabentreukriterien bei der Stimmungsanalyse

Häufige Erfolgskriterien, die zu berücksichtigen sind

Aufgabentreue

Konsistenz

Relevanz und Kohärenz

Ton und Stil

Datenschutz

Kontextnutzung

Latenz

Preis

Beispiel für mehrdimensionale Kriterien bei der Stimmungsanalyse

Nächste Schritte

Starke Kriterien entwickeln

Beispielmetriken und Messmethoden

Beispiel für Aufgabentreukriterien bei der Stimmungsanalyse

Häufige Erfolgskriterien, die zu berücksichtigen sind

Aufgabentreue

Konsistenz

Relevanz und Kohärenz

Ton und Stil

Datenschutz

Kontextnutzung

Latenz

Preis

Beispiel für mehrdimensionale Kriterien bei der Stimmungsanalyse

Nächste Schritte