• メッセージ
  • マネージドエージェント
  • 管理

Search...
⌘K
ユースケース
概要チケットルーティングカスタマーサポートエージェントコンテンツモデレーション法務文書の要約
プロンプトエンジニアリング
概要プロンプトのベストプラクティスClaude Fable 5のプロンプトClaude Opus 4.8のプロンプトコンソールのプロンプトツール
テストと評価
成功の定義と評価の構築コンソールでの評価ツールの使用レイテンシの削減
ガードレールの強化
ハルシネーションの削減出力の一貫性の向上ジェイルブレイクの軽減プロンプトリークの削減
リファレンス
用語集

Log in
成功の定義と評価の構築
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
ベストプラクティス/テストと評価

成功基準の定義と評価の構築

LLMベースのアプリケーションを成功させるには、まず成功基準を明確に定義し、それに対するパフォーマンスを測定するための評価を設計することから始まります。このサイクルはプロンプトエンジニアリングの中核をなすものです。

プロンプトエンジニアリングのフローチャート:テストケース、予備プロンプト、反復的なテストと改良、最終検証、リリース

成功基準を定義する

優れた成功基準は以下の特性を備えています。

  • 具体的であること: 達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確な感情分類」のように具体的に指定します。

  • 測定可能であること: 定量的な指標または明確に定義された定性的な尺度を使用します。数値は明確さとスケーラビリティを提供しますが、定量的な指標と併せて一貫して適用される場合、定性的な指標も価値があります。

    • 倫理や安全性といった「曖昧な」トピックでも定量化できます。
      安全性の基準
      悪い例安全な出力
      良い例10,000回の試行のうち、コンテンツフィルターによって有害性のフラグが立てられた出力が0.1%未満であること。

  • 達成可能であること: 業界のベンチマーク、過去の実験、AI研究、または専門知識に基づいて目標を設定します。成功指標は、現在の最先端モデルの能力に対して非現実的であってはなりません。

  • 関連性があること: 基準をアプリケーションの目的とユーザーのニーズに合わせます。高い引用精度は医療アプリでは重要かもしれませんが、カジュアルなチャットボットではそれほど重要ではありません。

一般的な成功基準

以下は、ユースケースにとって重要となる可能性のある基準の一部です。このリストは網羅的なものではありません。

ほとんどのユースケースでは、複数の成功基準に沿った多次元的な評価が必要になります。


評価を構築する

評価設計の原則

  1. タスク固有であること: 実世界のタスク分布を反映した評価を設計します。エッジケースを考慮することを忘れないでください!

  2. 可能な限り自動化すること: 自動採点が可能になるように質問を構成します(例:多肢選択、文字列一致、コードによる採点、LLMによる採点)。
  3. 質よりも量を優先すること: シグナルがやや低い自動採点による多数の質問の方が、高品質な人間による手動採点の少数の質問よりも優れています。

評価の例


何百ものテストケースを手作業で作成するのは大変です!ベースラインとなるテストケースの例のセットから、Claudeにさらに多くのテストケースを生成してもらいましょう。

成功基準を評価するのにどの評価方法が役立つかわからない場合は、Claudeとブレインストーミングすることもできます!

評価を採点する

評価の採点に使用する方法を決定する際は、最も速く、最も信頼性が高く、最もスケーラブルな方法を選択してください。

  1. コードベースの採点: 最も速く信頼性が高く、非常にスケーラブルですが、ルールベースの厳密さが少なくて済むより複雑な判断にはニュアンスが欠けます。

    • 完全一致:output == golden_answer
    • 文字列一致:key_phrase in output
  2. 人間による採点: 最も柔軟で高品質ですが、遅くてコストがかかります。可能であれば避けてください。

  3. LLMベースの採点: 高速で柔軟、スケーラブルで複雑な判断に適しています。まず信頼性を確認するためにテストし、その後スケールしてください。

LLMベースの採点のヒント

  • 詳細で明確なルーブリックを用意する: 「回答は常に最初の文で『Acme Inc.』に言及すべきです。言及していない場合、回答は自動的に『不正解』と採点されます。」
    
    特定のユースケース、またはそのユースケースの特定の成功基準でさえ、包括的な評価のために複数のルーブリックが必要になる場合があります。
  • 経験的または具体的であること: たとえば、LLMに「正解」または「不正解」のみを出力するよう指示するか、1〜5のスケールで判断するよう指示します。純粋に定性的な評価は、迅速かつ大規模に評価するのが困難です。
  • 推論を促す: LLMに評価スコアを決定する前にまず考えるよう依頼し、その後推論を破棄します。これにより、特に複雑な判断を必要とするタスクにおいて、評価パフォーマンスが向上します。

次のステップ


基準をブレインストーミングする


claude.ai上でClaudeと一緒にユースケースの成功基準をブレインストーミングしましょう。

ヒント:このページをチャットにドロップして、Claudeへのガイダンスとして活用してください!


評価クックブック


人間による採点、コードによる採点、LLMによる採点の評価のコード例をさらにご覧いただけます。

Was this page helpful?

  • 成功基準を定義する
  • 一般的な成功基準
  • 評価を構築する
  • 評価設計の原則
  • 評価の例
  • 評価を採点する
  • LLMベースの採点のヒント
  • 次のステップ