評価ツールを始めるには:

プロンプトに二重括弧構文を使用した動的変数が少なくとも1~2個含まれていることを確認してください:{{variable}}。これは評価テストセットを作成するために必要です。
Console には Claude Opus 4.1 を搭載した組み込みプロンプトジェネレータがあります:
「Generate Prompt」をクリック
「Generate Prompt」ヘルパーツールをクリックすると、タスク情報を入力できるモーダルが開きます。
タスクを説明
目的のタスク(例:「受信した顧客サポートリクエストをトリアージする」)を、詳細度を自由に選んで説明します。含める情報が多いほど、Claude はあなたの特定のニーズに合わせてプロンプトをカスタマイズできます。
プロンプトを生成
下部のオレンジ色の「Generate Prompt」ボタンをクリックすると、Claude が高品質なプロンプトを生成します。その後、Console の評価画面を使用してプロンプトをさらに改善できます。
この機能により、評価用の適切な変数構文を含むプロンプトを簡単に作成できます。

評価画面にアクセスすると、テストケースを作成するためのいくつかのオプションがあります:
「Generate Test Case」機能を使用するには:
「Generate Test Case」をクリック
Claude がテストケースを生成します。ボタンをクリックするたびに1行ずつ生成されます。
生成ロジックを編集(オプション)
「Generate Test Case」ボタンの右側にある矢印ドロップダウンをクリックし、ポップアップされた「Variables」ウィンドウの上部にある「Show generation logic」をクリックして、テストケース生成ロジックを編集することもできます。このウィンドウの右上にある「Generate」をクリックして、初期生成ロジックを入力する必要があるかもしれません。
これを編集することで、Claude が生成するテストケースをカスタマイズし、より高い精度と特異性に合わせて微調整できます。
複数のテストケースが入力された評価画面の例を以下に示します:

元のプロンプトテキストを更新した場合、新しいプロンプトに対して評価スイート全体を再実行して、すべてのテストケースでパフォーマンスにどのような影響があるかを確認できます。
Console の「Generate a prompt」ヘルパーツールを使用して、評価用の適切な変数構文を含むプロンプトを素早く作成します。
評価ツールは、プロンプトを改善するのに役立つ複数の機能を提供します:
テストケース全体の結果を確認し、異なるプロンプトバージョンを比較することで、パターンを特定し、プロンプトに対してより効率的に情報に基づいた調整を行うことができます。
今日からプロンプトの評価を開始して、Claude を使用したより堅牢な AI アプリケーションを構築しましょう!
Was this page helpful?