Loading...
    • ビルド
    • 管理
    • モデルと料金
    • クライアントSDK
    • APIリファレンス
    Search...
    ⌘K
    はじめに
    Claudeの概要クイックスタート
    Claudeで構築する
    機能概要Messages APIの使用停止理由の処理
    モデルの機能
    拡張思考適応的思考エフォート高速モード(ベータ:リサーチプレビュー)構造化出力引用ストリーミングメッセージバッチ処理検索結果ストリーミング拒否多言語サポート埋め込み
    ツール
    概要ツール使用の仕組みウェブ検索ツールウェブフェッチツールコード実行ツールメモリツールBashツールコンピューター使用ツールテキストエディタツール
    ツールインフラ
    ツール検索プログラムによるツール呼び出し細粒度ツールストリーミング
    コンテキスト管理
    コンテキストウィンドウコンパクションコンテキスト編集プロンプトキャッシュトークンカウント
    ファイルの操作
    Files APIPDFサポート画像とビジョン
    スキル
    概要クイックスタートベストプラクティスエンタープライズ向けスキルAPIのスキル
    MCP
    リモートMCPサーバーMCPコネクター
    プロンプトエンジニアリング
    概要プロンプトのベストプラクティスConsoleプロンプトツール
    テストと評価
    成功の定義と評価の構築ConsoleでのEvaluation Toolの使用レイテンシの削減
    ガードレールの強化
    幻覚の低減出力の一貫性向上ジェイルブレイクの軽減プロンプトリークの低減
    リソース
    用語集
    リリースノート
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    テストと評価

    評価ツールの使用

    Claude Consoleには、様々なシナリオでプロンプトをテストできる評価ツールが搭載されています。

    評価機能へのアクセス

    評価ツールを開始するには:

    1. Claude Consoleを開き、プロンプトエディターに移動します。
    2. プロンプトを作成した後、画面上部の「Evaluate」タブを探します。

    評価機能へのアクセス

    プロンプトに二重波括弧構文を使用した少なくとも1〜2個の動的変数が含まれていることを確認してください:{{variable}}。これは評価テストセットを作成するために必要です。

    プロンプトの生成

    Consoleには、Claude Opus 4.1を搭載した内蔵のプロンプトジェネレーターがあります:

    1. 1

      「Generate Prompt」をクリック

      「Generate Prompt」ヘルパーツールをクリックすると、タスク情報を入力できるモーダルが開きます。

    2. 2

      タスクを説明

      希望するタスク(例:「受信カスタマーサポートリクエストのトリアージ」)を、詳細の多少に関わらず説明してください。より多くのコンテキストを含めるほど、Claudeはあなたの特定のニーズに合わせて生成されたプロンプトをより適切に調整できます。

    3. 3

      プロンプトを生成

      下部のオレンジ色の「Generate Prompt」ボタンをクリックすると、Claudeが高品質なプロンプトを生成します。その後、Consoleの評価画面を使用してそれらのプロンプトをさらに改善できます。

    この機能により、評価に適した変数構文を持つプロンプトの作成が容易になります。

    プロンプトジェネレーター

    テストケースの作成

    評価画面にアクセスすると、テストケースを作成するためのいくつかのオプションがあります:

    1. 左下の「+ Add Row」ボタンをクリックして、手動でケースを追加します。
    2. 「Generate Test Case」機能を使用して、Claudeに自動的にテストケースを生成させます。
    3. CSVファイルからテストケースをインポートします。

    「Generate Test Case」機能を使用するには:

    1. 1

      「Generate Test Case」をクリック

      Claudeがテストケースを生成します。ボタンをクリックするたびに一行ずつ生成されます。

    2. 2

      生成ロジックを編集(オプション)

      「Generate Test Case」ボタンの右側にある矢印ドロップダウンをクリックし、ポップアップするVariablesウィンドウの上部にある「Show generation logic」をクリックすることで、テストケース生成ロジックを編集することもできます。初期生成ロジックを表示するために、このウィンドウの右上にある「Generate」をクリックする必要がある場合があります。

      これを編集することで、Claudeが生成するテストケースをより高い精度と特異性でカスタマイズし、微調整することができます。

    以下は、複数のテストケースが入力された評価画面の例です:

    入力済み評価画面

    元のプロンプトテキストを更新した場合、新しいプロンプトに対して評価スイート全体を再実行し、変更がすべてのテストケースでのパフォーマンスにどのように影響するかを確認できます。

    効果的な評価のためのヒント

    Consoleの「Generate a prompt」ヘルパーツールを使用して、評価に適した変数構文を持つプロンプトを素早く作成してください。

    結果の理解と比較

    評価ツールは、プロンプトを改良するのに役立つ複数の機能を提供します:

    1. 並列比較:2つ以上のプロンプトの出力を比較して、変更の影響を素早く確認できます。
    2. 品質評価:5段階スケールで応答品質を評価し、プロンプトごとの応答品質の改善を追跡します。
    3. プロンプトバージョニング:プロンプトの新しいバージョンを作成し、テストスイートを再実行して素早く反復し、結果を改善します。

    テストケース全体で結果を確認し、異なるプロンプトバージョンを比較することで、パターンを発見し、より効率的にプロンプトに情報に基づいた調整を行うことができます。

    今日からプロンプトの評価を開始して、Claudeでより堅牢なAIアプリケーションを構築しましょう!

    Was this page helpful?