評価ツールを開始するには:

プロンプトに二重波括弧構文を使用した少なくとも1〜2個の動的変数が含まれていることを確認してください:{{variable}}。これは評価テストセットを作成するために必要です。
Consoleには、Claude Opus 4.1を搭載した内蔵のプロンプトジェネレーターがあります:
「Generate Prompt」をクリック
「Generate Prompt」ヘルパーツールをクリックすると、タスク情報を入力できるモーダルが開きます。
タスクを説明
希望するタスク(例:「受信カスタマーサポートリクエストのトリアージ」)を、詳細の多少に関わらず説明してください。より多くのコンテキストを含めるほど、Claudeはあなたの特定のニーズに合わせて生成されたプロンプトをより適切に調整できます。
プロンプトを生成
下部のオレンジ色の「Generate Prompt」ボタンをクリックすると、Claudeが高品質なプロンプトを生成します。その後、Consoleの評価画面を使用してそれらのプロンプトをさらに改善できます。
この機能により、評価に適した変数構文を持つプロンプトの作成が容易になります。

評価画面にアクセスすると、テストケースを作成するためのいくつかのオプションがあります:
「Generate Test Case」機能を使用するには:
「Generate Test Case」をクリック
Claudeがテストケースを生成します。ボタンをクリックするたびに一行ずつ生成されます。
生成ロジックを編集(オプション)
「Generate Test Case」ボタンの右側にある矢印ドロップダウンをクリックし、ポップアップするVariablesウィンドウの上部にある「Show generation logic」をクリックすることで、テストケース生成ロジックを編集することもできます。初期生成ロジックを表示するために、このウィンドウの右上にある「Generate」をクリックする必要がある場合があります。
これを編集することで、Claudeが生成するテストケースをより高い精度と特異性でカスタマイズし、微調整することができます。
以下は、複数のテストケースが入力された評価画面の例です:

元のプロンプトテキストを更新した場合、新しいプロンプトに対して評価スイート全体を再実行し、変更がすべてのテストケースでのパフォーマンスにどのように影響するかを確認できます。
Consoleの「Generate a prompt」ヘルパーツールを使用して、評価に適した変数構文を持つプロンプトを素早く作成してください。
評価ツールは、プロンプトを改良するのに役立つ複数の機能を提供します:
テストケース全体で結果を確認し、異なるプロンプトバージョンを比較することで、パターンを発見し、より効率的にプロンプトに情報に基づいた調整を行うことができます。
今日からプロンプトの評価を開始して、Claudeでより堅牢なAIアプリケーションを構築しましょう!