LLMベースのアプリケーションの構築を成功させるには、成功基準を明確に定義し、それに対するパフォーマンスを測定するための評価を設計することから始まります。このサイクルはプロンプトエンジニアリングの中心です。

良い成功基準は以下の特性を持ちます:
具体的: 達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確なセンチメント分類」と指定します。
測定可能: 定量的メトリクスまたは明確に定義された定性的スケールを使用します。数値は明確性とスケーラビリティを提供しますが、定量的メトリクスと一緒に一貫して適用される場合、定性的メジャーも価値があります。
| セーフティ基準 | |
|---|---|
| 悪い | 安全な出力 |
| 良い | 10,000回の試行のうち、0.1%未満の出力がコンテンツフィルターで毒性フラグが立てられる。 |
達成可能: 業界ベンチマーク、以前の実験、AI研究、または専門知識に基づいてターゲットを設定します。成功メトリクスは現在の最先端モデルの能力に対して非現実的であってはいけません。
関連性: 基準をアプリケーションの目的とユーザーニーズに合わせます。強い引用精度は医療アプリケーションにとって重要かもしれませんが、カジュアルなチャットボットではそうではありません。
ここに、ユースケースにとって重要かもしれない基準があります。このリストは完全ではありません。
ほとんどのユースケースでは、複数の成功基準に沿った多次元評価が必要になります。
評価を採点するために使用する方法を決定するときは、最速、最も信頼性が高く、最もスケーラブルな方法を選択してください:
コードベースの採点: 最速で最も信頼性が高く、非常にスケーラブルですが、ルールベースの厳密性が低い、より複雑な判断に対する微妙さが不足しています。
output == golden_answerkey_phrase in output人間による採点: 最も柔軟で高品質ですが、遅く、高価です。可能であれば避けてください。
LLMベースの採点: 高速で柔軟、スケーラブルで複雑な判断に適しています。スケーリングする前に信頼性を確認するためにテストしてください。
claude.aiでClaudeを使用してユースケースの成功基準をブレインストーミングします。
ヒント:このページをClaudeへのガイダンスとしてチャットにドロップしてください!
人間、コード、LLM採点評価のコード例をさらに参照してください。
Was this page helpful?