テストと評価

強力な実証的評価を作成する

LLMのパフォーマンスを成功基準に対して測定するための効果的な評価を設計する方法を学びます。

成功基準を定義した後、次のステップはそれらの基準に対してLLMのパフォーマンスを測定するための評価を設計することです。これはプロンプトエンジニアリングサイクルの重要な部分です。

プロンプトエンジニアリングのフローチャート：テストケース、予備プロンプト、反復テストと改善、最終検証、出荷

このガイドでは、テストケースの開発方法に焦点を当てます。

評価とテストケースの構築

評価設計の原則

タスク固有にする：実際のタスク分布を反映する評価を設計します。エッジケースも忘れずに考慮してください！
可能な限り自動化する：自動採点が可能な形式で質問を構成します（例：多肢選択、文字列一致、コードベース採点、LLMベース採点）。
品質よりも量を優先する：やや低いシグナルの自動採点でも多くの質問がある方が、高品質な人間による手動採点の少数の質問よりも優れています。

評価の例

数百のテストケースを手作業で書くのは大変です！Claudeにベースラインのテストケース例からさらに生成してもらいましょう。

成功基準を評価するためにどの評価方法が有用かわからない場合は、Claudeとブレインストーミングすることもできます！

評価の採点

評価を採点する方法を決定する際は、最も速く、最も信頼性が高く、最もスケーラブルな方法を選択してください：

コードベースの採点：最も速く、最も信頼性が高く、非常にスケーラブルですが、ルールベースの厳密さでは対応できない、より複雑な判断にはニュアンスが欠けます。
- 完全一致：output == golden_answer
- 文字列一致：key_phrase in output
人間による採点：最も柔軟で高品質ですが、遅くてコストがかかります。可能な限り避けてください。
LLMベースの採点：高速で柔軟、スケーラブルで複雑な判断に適しています。まず信頼性をテストしてからスケールしてください。

LLMベースの採点のヒント

詳細で明確なルーブリックを用意する：「回答は常に最初の文で'Acme Inc.'に言及する必要があります。言及しない場合、回答は自動的に'不正解'と採点されます。」
特定のユースケース、またはそのユースケースの特定の成功基準でさえ、包括的な評価のために複数のルーブリックが必要になる場合があります。
実証的または具体的にする：例えば、LLMに'correct'または'incorrect'のみを出力するよう指示するか、1-5のスケールで判断させます。純粋に定性的な評価は、迅速かつ大規模に評価するのが困難です。
推論を促す：評価スコアを決定する前にまず考えるようLLMに求め、その後推論を破棄します。これにより、特に複雑な判断を必要とするタスクの評価パフォーマンスが向上します。

次のステップ

評価のブレインストーミング

評価スコアを最大化するプロンプトの作成方法を学びます。

評価クックブック

人間、コード、LLMによる採点評価のさらなるコード例。

Was this page helpful?

評価とテストケースの構築

評価設計の原則

タスク固有にする：実際のタスク分布を反映する評価を設計します。エッジケースも忘れずに考慮してください！

可能な限り自動化する：自動採点が可能な形式で質問を構成します（例：多肢選択、文字列一致、コードベース採点、LLMベース採点）。

品質よりも量を優先する：やや低いシグナルの自動採点でも多くの質問がある方が、高品質な人間による手動採点の少数の質問よりも優れています。

評価の例

数百のテストケースを手作業で書くのは大変です！Claudeにベースラインのテストケース例からさらに生成してもらいましょう。

成功基準を評価するためにどの評価方法が有用かわからない場合は、Claudeとブレインストーミングすることもできます！

評価の採点

評価を採点する方法を決定する際は、最も速く、最も信頼性が高く、最もスケーラブルな方法を選択してください：

コードベースの採点：最も速く、最も信頼性が高く、非常にスケーラブルですが、ルールベースの厳密さでは対応できない、より複雑な判断にはニュアンスが欠けます。

完全一致：output == golden_answer
文字列一致：key_phrase in output

人間による採点：最も柔軟で高品質ですが、遅くてコストがかかります。可能な限り避けてください。

LLMベースの採点：高速で柔軟、スケーラブルで複雑な判断に適しています。まず信頼性をテストしてからスケールしてください。

LLMベースの採点のヒント

詳細で明確なルーブリックを用意する：「回答は常に最初の文で'Acme Inc.'に言及する必要があります。言及しない場合、回答は自動的に'不正解'と採点されます。」

特定のユースケース、またはそのユースケースの特定の成功基準でさえ、包括的な評価のために複数のルーブリックが必要になる場合があります。

実証的または具体的にする：例えば、LLMに'correct'または'incorrect'のみを出力するよう指示するか、1-5のスケールで判断させます。純粋に定性的な評価は、迅速かつ大規模に評価するのが困難です。

推論を促す：評価スコアを決定する前にまず考えるようLLMに求め、その後推論を破棄します。これにより、特に複雑な判断を必要とするタスクの評価パフォーマンスが向上します。

評価とテストケースの構築

評価設計の原則

エッジケースの例

評価の例

タスク忠実度（感情分析）- 完全一致評価

一貫性（FAQボット）- コサイン類似度評価

関連性と一貫性（要約）- ROUGE-L評価

トーンとスタイル（カスタマーサービス）- LLMベースのリッカート尺度

プライバシー保護（医療チャットボット）- LLMベースの二値分類

コンテキスト活用（会話アシスタント）- LLMベースの順序尺度

評価の採点

LLMベースの採点のヒント

例：LLMベースの採点

次のステップ

評価とテストケースの構築

評価設計の原則

エッジケースの例

評価の例

タスク忠実度（感情分析）- 完全一致評価

一貫性（FAQボット）- コサイン類似度評価

関連性と一貫性（要約）- ROUGE-L評価

トーンとスタイル（カスタマーサービス）- LLMベースのリッカート尺度

プライバシー保護（医療チャットボット）- LLMベースの二値分類

コンテキスト活用（会話アシスタント）- LLMベースの順序尺度

評価の採点

LLMベースの採点のヒント

例：LLMベースの採点

次のステップ