ベストプラクティステストと評価

成功基準の定義と評価の構築

LLMベースのアプリケーションを成功させるには、まず成功基準を明確に定義し、次にそれに対するパフォーマンスを測定するための評価を設計することから始まります。このサイクルはプロンプトエンジニアリングの中心です。

プロンプトエンジニアリングのフローチャート：テストケース、予備プロンプト、反復的なテストと改良、最終検証、リリース

成功基準を定義する

良い成功基準とは：

具体的（Specific）： 達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確な感情分類」と指定します。
測定可能（Measurable）： 定量的な指標または明確に定義された定性的な尺度を使用します。数値は明確さとスケーラビリティをもたらしますが、定量的な測定と併せて一貫して適用されれば、定性的な測定も価値があります。
- 倫理や安全性のような「曖昧な」トピックでも定量化できます：
  安全性の基準
  悪い例安全な出力
  良い例 10,000回の試行のうち、コンテンツフィルターによって有害性がフラグ付けされた出力が0.1%未満。
達成可能（Achievable）： 業界のベンチマーク、過去の実験、AI研究、または専門知識に基づいて目標を設定します。成功指標は、現在のフロンティアモデルの能力に対して非現実的であってはなりません。
関連性（Relevant）： 基準をアプリケーションの目的とユーザーのニーズに合わせます。高い引用精度は医療アプリには重要かもしれませんが、カジュアルなチャットボットにはそれほど重要ではありません。

	安全性の基準
悪い例	安全な出力
良い例	10,000回の試行のうち、コンテンツフィルターによって有害性がフラグ付けされた出力が0.1%未満。

一般的な成功基準

以下は、ユースケースにとって重要となる可能性のある基準です。このリストは網羅的ではありません。

ほとんどのユースケースでは、複数の成功基準に沿った多次元的な評価が必要になります。

評価を構築する

評価設計の原則

タスク固有にする： 実際のタスク分布を反映した評価を設計します。エッジケースを考慮することを忘れないでください！
可能な限り自動化する： 自動採点が可能なように質問を構成します（例：多肢選択、文字列一致、コードによる採点、LLMによる採点）。
品質よりも量を優先する： 高品質な人間による手動採点の評価が少数あるよりも、シグナルがやや低い自動採点の質問が多数ある方が優れています。

評価の例

何百ものテストケースを手作業で書くのは大変です！ベースラインとなるテストケースの例のセットから、Claudeにさらに多くのテストケースを生成してもらいましょう。

成功基準を評価するためにどの評価方法が有用かわからない場合は、Claudeとブレインストーミングすることもできます！

評価を採点する

評価の採点にどの方法を使用するかを決定する際は、最も速く、最も信頼性が高く、最もスケーラブルな方法を選択してください：

コードベースの採点： 最も速く、最も信頼性が高く、非常にスケーラブルですが、ルールベースの厳格さをあまり必要としない、より複雑な判断に対するニュアンスに欠けます。
- 完全一致：output == golden_answer
- 文字列一致：key_phrase in output
人間による採点： 最も柔軟で高品質ですが、遅くて高価です。可能であれば避けてください。
LLMベースの採点： 速くて柔軟、スケーラブルで複雑な判断に適しています。まず信頼性を確認するためにテストしてから、スケールさせてください。

LLMベースの採点のヒント

詳細で明確なルーブリックを用意する： 「回答は常に最初の文で『Acme Inc.』に言及する必要があります。そうでない場合、回答は自動的に『不正解』と採点されます。」
特定のユースケース、あるいはそのユースケースの特定の成功基準でさえ、包括的な評価のために複数のルーブリックが必要になる場合があります。
経験的または具体的に： 例えば、LLMに「correct」または「incorrect」のみを出力するよう指示したり、1〜5の尺度で判断するよう指示したりします。純粋に定性的な評価は、迅速かつ大規模に評価することが困難です。
推論を促す： 評価スコアを決定する前にLLMにまず考えさせ、その後推論を破棄します。これにより、特に複雑な判断を必要とするタスクにおいて、評価のパフォーマンスが向上します。

次のステップ

基準のブレインストーミング

claude.aiでClaudeと一緒にユースケースの成功基準をブレインストーミングしましょう。

ヒント：このページをチャットにドロップして、Claudeへのガイダンスとして使用してください！

評価のクックブック

人間による採点、コードによる採点、LLMによる採点の評価に関するその他のコード例。

Was this page helpful?

ベストプラクティステストと評価

成功基準の定義と評価の構築

プロンプトエンジニアリングのフローチャート：テストケース、予備プロンプト、反復的なテストと改良、最終検証、リリース

成功基準を定義する

良い成功基準とは：

具体的（Specific）： 達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確な感情分類」と指定します。
測定可能（Measurable）： 定量的な指標または明確に定義された定性的な尺度を使用します。数値は明確さとスケーラビリティをもたらしますが、定量的な測定と併せて一貫して適用されれば、定性的な測定も価値があります。
- 倫理や安全性のような「曖昧な」トピックでも定量化できます：
  安全性の基準
  悪い例安全な出力
  良い例 10,000回の試行のうち、コンテンツフィルターによって有害性がフラグ付けされた出力が0.1%未満。
達成可能（Achievable）： 業界のベンチマーク、過去の実験、AI研究、または専門知識に基づいて目標を設定します。成功指標は、現在のフロンティアモデルの能力に対して非現実的であってはなりません。
関連性（Relevant）： 基準をアプリケーションの目的とユーザーのニーズに合わせます。高い引用精度は医療アプリには重要かもしれませんが、カジュアルなチャットボットにはそれほど重要ではありません。

	安全性の基準
悪い例	安全な出力
良い例	10,000回の試行のうち、コンテンツフィルターによって有害性がフラグ付けされた出力が0.1%未満。

一般的な成功基準

以下は、ユースケースにとって重要となる可能性のある基準です。このリストは網羅的ではありません。

ほとんどのユースケースでは、複数の成功基準に沿った多次元的な評価が必要になります。

評価を構築する

評価設計の原則

タスク固有にする： 実際のタスク分布を反映した評価を設計します。エッジケースを考慮することを忘れないでください！
可能な限り自動化する： 自動採点が可能なように質問を構成します（例：多肢選択、文字列一致、コードによる採点、LLMによる採点）。
品質よりも量を優先する： 高品質な人間による手動採点の評価が少数あるよりも、シグナルがやや低い自動採点の質問が多数ある方が優れています。

評価の例

成功基準を評価するためにどの評価方法が有用かわからない場合は、Claudeとブレインストーミングすることもできます！

評価を採点する

評価の採点にどの方法を使用するかを決定する際は、最も速く、最も信頼性が高く、最もスケーラブルな方法を選択してください：

コードベースの採点： 最も速く、最も信頼性が高く、非常にスケーラブルですが、ルールベースの厳格さをあまり必要としない、より複雑な判断に対するニュアンスに欠けます。
- 完全一致：output == golden_answer
- 文字列一致：key_phrase in output
人間による採点： 最も柔軟で高品質ですが、遅くて高価です。可能であれば避けてください。
LLMベースの採点： 速くて柔軟、スケーラブルで複雑な判断に適しています。まず信頼性を確認するためにテストしてから、スケールさせてください。

LLMベースの採点のヒント

詳細で明確なルーブリックを用意する： 「回答は常に最初の文で『Acme Inc.』に言及する必要があります。そうでない場合、回答は自動的に『不正解』と採点されます。」
特定のユースケース、あるいはそのユースケースの特定の成功基準でさえ、包括的な評価のために複数のルーブリックが必要になる場合があります。
経験的または具体的に： 例えば、LLMに「correct」または「incorrect」のみを出力するよう指示したり、1〜5の尺度で判断するよう指示したりします。純粋に定性的な評価は、迅速かつ大規模に評価することが困難です。
推論を促す： 評価スコアを決定する前にLLMにまず考えさせ、その後推論を破棄します。これにより、特に複雑な判断を必要とするタスクにおいて、評価のパフォーマンスが向上します。

次のステップ

基準のブレインストーミング

評価のクックブック

人間による採点、コードによる採点、LLMによる採点の評価に関するその他のコード例。

Was this page helpful?

成功基準を定義する

指標と測定方法の例

感情分析におけるタスク忠実度の基準の例

一般的な成功基準

タスク忠実度

一貫性

関連性と一貫性

トーンとスタイル

プライバシー保護

コンテキストの活用

レイテンシ

価格

感情分析における多次元的な基準の例

評価を構築する

評価設計の原則

エッジケースの例

評価の例

タスク忠実度（感情分析）- 完全一致評価

一貫性（FAQボット）- コサイン類似度評価

関連性と一貫性（要約）- ROUGE-L評価

トーンとスタイル（カスタマーサービス）- LLMベースのリッカート尺度

プライバシー保護（医療チャットボット）- LLMベースの二値分類

コンテキストの活用（会話アシスタント）- LLMベースの順序尺度

評価を採点する

LLMベースの採点のヒント

例：LLMベースの採点

次のステップ

成功基準を定義する

指標と測定方法の例

感情分析におけるタスク忠実度の基準の例

一般的な成功基準

タスク忠実度

一貫性

関連性と一貫性

トーンとスタイル

プライバシー保護

コンテキストの活用

レイテンシ

価格

感情分析における多次元的な基準の例

評価を構築する

評価設計の原則

エッジケースの例

評価の例

タスク忠実度（感情分析）- 完全一致評価

一貫性（FAQボット）- コサイン類似度評価

関連性と一貫性（要約）- ROUGE-L評価

トーンとスタイル（カスタマーサービス）- LLMベースのリッカート尺度

プライバシー保護（医療チャットボット）- LLMベースの二値分類

コンテキストの活用（会話アシスタント）- LLMベースの順序尺度

評価を採点する

LLMベースの採点のヒント

例：LLMベースの採点

次のステップ

成功基準を定義する

一般的な成功基準

評価を構築する

評価設計の原則

評価の例

評価を採点する

LLMベースの採点のヒント

次のステップ

成功基準を定義する

一般的な成功基準

評価を構築する

評価設計の原則

評価の例

評価を採点する

LLMベースの採点のヒント

次のステップ