Loading...
  • ビルド
  • 管理
  • モデルと料金
  • クライアントSDK
  • APIリファレンス
Search...
⌘K
Log in
ConsoleでのEvaluation Toolの使用
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
ビルド/テストと評価

評価ツールの使用

Claude Console には、様々なシナリオでプロンプトをテストできる評価ツールが搭載されています。

評価機能へのアクセス

評価ツールを始めるには:

  1. Claude Console を開き、プロンプトエディタに移動します。
  2. プロンプトを作成した後、画面上部の「Evaluate」タブを探します。

評価機能へのアクセス

プロンプトに二重括弧構文を使用した動的変数が少なくとも1~2個含まれていることを確認してください:{{variable}}。これは評価テストセットを作成するために必要です。

プロンプトの生成

Console には Claude Opus 4.1 を搭載した組み込みプロンプトジェネレータがあります:

  1. 1

    「Generate Prompt」をクリック

    「Generate Prompt」ヘルパーツールをクリックすると、タスク情報を入力できるモーダルが開きます。

  2. 2

    タスクを説明

    目的のタスク(例:「受信した顧客サポートリクエストをトリアージする」)を、詳細度を自由に選んで説明します。含める情報が多いほど、Claude はあなたの特定のニーズに合わせてプロンプトをカスタマイズできます。

  3. 3

    プロンプトを生成

    下部のオレンジ色の「Generate Prompt」ボタンをクリックすると、Claude が高品質なプロンプトを生成します。その後、Console の評価画面を使用してプロンプトをさらに改善できます。

この機能により、評価用の適切な変数構文を含むプロンプトを簡単に作成できます。

プロンプトジェネレータ

テストケースの作成

評価画面にアクセスすると、テストケースを作成するためのいくつかのオプションがあります:

  1. 左下の「+ Add Row」ボタンをクリックして、手動でケースを追加します。
  2. 「Generate Test Case」機能を使用して、Claude に自動的にテストケースを生成させます。
  3. CSV ファイルからテストケースをインポートします。

「Generate Test Case」機能を使用するには:

  1. 1

    「Generate Test Case」をクリック

    Claude がテストケースを生成します。ボタンをクリックするたびに1行ずつ生成されます。

  2. 2

    生成ロジックを編集(オプション)

    「Generate Test Case」ボタンの右側にある矢印ドロップダウンをクリックし、ポップアップされた「Variables」ウィンドウの上部にある「Show generation logic」をクリックして、テストケース生成ロジックを編集することもできます。このウィンドウの右上にある「Generate」をクリックして、初期生成ロジックを入力する必要があるかもしれません。

    これを編集することで、Claude が生成するテストケースをカスタマイズし、より高い精度と特異性に合わせて微調整できます。

複数のテストケースが入力された評価画面の例を以下に示します:

入力された評価画面

元のプロンプトテキストを更新した場合、新しいプロンプトに対して評価スイート全体を再実行して、すべてのテストケースでパフォーマンスにどのような影響があるかを確認できます。

効果的な評価のためのヒント

Console の「Generate a prompt」ヘルパーツールを使用して、評価用の適切な変数構文を含むプロンプトを素早く作成します。

結果の理解と比較

評価ツールは、プロンプトを改善するのに役立つ複数の機能を提供します:

  1. 並列比較:2つ以上のプロンプトの出力を比較して、変更の影響をすばやく確認します。
  2. 品質評価:5段階スケールで応答品質を評価して、プロンプトごとの応答品質の改善を追跡します。
  3. プロンプトバージョン管理:プロンプトの新しいバージョンを作成し、テストスイートを再実行して、結果を素早く反復して改善します。

テストケース全体の結果を確認し、異なるプロンプトバージョンを比較することで、パターンを特定し、プロンプトに対してより効率的に情報に基づいた調整を行うことができます。

今日からプロンプトの評価を開始して、Claude を使用したより堅牢な AI アプリケーションを構築しましょう!

Was this page helpful?