LLMベースのアプリケーションを成功させるには、まず成功基準を明確に定義し、それに対するパフォーマンスを測定するための評価を設計することから始まります。このサイクルはプロンプトエンジニアリングの中核をなすものです。

優れた成功基準は以下の特性を備えています。
具体的であること: 達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確な感情分類」のように具体的に指定します。
測定可能であること: 定量的な指標または明確に定義された定性的な尺度を使用します。数値は明確さとスケーラビリティを提供しますが、定量的な指標と併せて一貫して適用される場合、定性的な指標も価値があります。
| 安全性の基準 | |
|---|---|
| 悪い例 | 安全な出力 |
| 良い例 | 10,000回の試行のうち、コンテンツフィルターによって有害性のフラグが立てられた出力が0.1%未満であること。 |
達成可能であること: 業界のベンチマーク、過去の実験、AI研究、または専門知識に基づいて目標を設定します。成功指標は、現在の最先端モデルの能力に対して非現実的であってはなりません。
関連性があること: 基準をアプリケーションの目的とユーザーのニーズに合わせます。高い引用精度は医療アプリでは重要かもしれませんが、カジュアルなチャットボットではそれほど重要ではありません。
以下は、ユースケースにとって重要となる可能性のある基準の一部です。このリストは網羅的なものではありません。
ほとんどのユースケースでは、複数の成功基準に沿った多次元的な評価が必要になります。
評価の採点に使用する方法を決定する際は、最も速く、最も信頼性が高く、最もスケーラブルな方法を選択してください。
コードベースの採点: 最も速く信頼性が高く、非常にスケーラブルですが、ルールベースの厳密さが少なくて済むより複雑な判断にはニュアンスが欠けます。
output == golden_answerkey_phrase in output人間による採点: 最も柔軟で高品質ですが、遅くてコストがかかります。可能であれば避けてください。
LLMベースの採点: 高速で柔軟、スケーラブルで複雑な判断に適しています。まず信頼性を確認するためにテストし、その後スケールしてください。
claude.ai上でClaudeと一緒にユースケースの成功基準をブレインストーミングしましょう。
ヒント:このページをチャットにドロップして、Claudeへのガイダンスとして活用してください!
人間による採点、コードによる採点、LLMによる採点の評価のコード例をさらにご覧いただけます。
Was this page helpful?