Loading...
    • 開発者ガイド
    • API リファレンス
    • MCP
    • リソース
    • リリースノート
    Search...
    ⌘K
    はじめに
    Claude の紹介クイックスタート
    モデルと料金
    モデル概要モデルの選び方Claude 4.6 の新機能移行ガイドモデルの廃止料金
    Claude で構築する
    機能概要Messages API の使用停止理由の処理プロンプトのベストプラクティス
    コンテキスト管理
    コンテキストウィンドウコンパクションコンテキスト編集
    機能
    プロンプトキャッシング拡張思考適応型思考エフォートメッセージのストリーミングバッチ処理引用多言語サポートトークンカウントエンベディングビジョンPDF サポートFiles API検索結果構造化出力
    ツール
    概要ツール使用の実装方法きめ細かいツールストリーミングBash ツールコード実行ツールプログラムによるツール呼び出しコンピュータ使用ツールテキストエディタツールWeb フェッチツールWeb 検索ツールメモリツールツール検索ツール
    Agent Skills
    概要クイックスタートベストプラクティスエンタープライズ向け SkillsAPI での Skills の使用
    Agent SDK
    概要クイックスタートTypeScript SDKTypeScript V2(プレビュー)Python SDK移行ガイド
    API での MCP
    MCP コネクタリモート MCP サーバー
    サードパーティプラットフォームの Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    プロンプトエンジニアリング
    概要プロンプトジェネレータープロンプトテンプレートの使用プロンプト改善ツール明確かつ直接的に例を使う(マルチショットプロンプティング)Claude に考えさせる(CoT)XML タグを使うClaude に役割を与える(システムプロンプト)複雑なプロンプトを連鎖させる長文コンテキストのヒント拡張思考のヒント
    テストと評価
    成功基準の定義テストケースの開発評価ツールの使用レイテンシの削減
    ガードレールの強化
    ハルシネーションの削減出力の一貫性を高めるジェイルブレイクの軽減ストリーミング拒否プロンプト漏洩の防止Claude をキャラクターに保つ
    管理とモニタリング
    Admin API 概要データレジデンシーワークスペースUsage and Cost APIClaude Code Analytics APIゼロデータリテンション
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    テストと評価

    強力な実証的評価を作成する

    LLMのパフォーマンスを成功基準に対して測定するための効果的な評価を設計する方法を学びます。

    成功基準を定義した後、次のステップはそれらの基準に対してLLMのパフォーマンスを測定するための評価を設計することです。これはプロンプトエンジニアリングサイクルの重要な部分です。

    プロンプトエンジニアリングのフローチャート:テストケース、予備プロンプト、反復テストと改善、最終検証、出荷

    このガイドでは、テストケースの開発方法に焦点を当てます。

    評価とテストケースの構築

    評価設計の原則

    1. タスク固有にする:実際のタスク分布を反映する評価を設計します。エッジケースも忘れずに考慮してください!

    2. 可能な限り自動化する:自動採点が可能な形式で質問を構成します(例:多肢選択、文字列一致、コードベース採点、LLMベース採点)。
    3. 品質よりも量を優先する:やや低いシグナルの自動採点でも多くの質問がある方が、高品質な人間による手動採点の少数の質問よりも優れています。

    評価の例

    数百のテストケースを手作業で書くのは大変です!Claudeにベースラインのテストケース例からさらに生成してもらいましょう。
    成功基準を評価するためにどの評価方法が有用かわからない場合は、Claudeとブレインストーミングすることもできます!

    評価の採点

    評価を採点する方法を決定する際は、最も速く、最も信頼性が高く、最もスケーラブルな方法を選択してください:

    1. コードベースの採点:最も速く、最も信頼性が高く、非常にスケーラブルですが、ルールベースの厳密さでは対応できない、より複雑な判断にはニュアンスが欠けます。

      • 完全一致:output == golden_answer
      • 文字列一致:key_phrase in output
    2. 人間による採点:最も柔軟で高品質ですが、遅くてコストがかかります。可能な限り避けてください。

    3. LLMベースの採点:高速で柔軟、スケーラブルで複雑な判断に適しています。まず信頼性をテストしてからスケールしてください。

    LLMベースの採点のヒント

    • 詳細で明確なルーブリックを用意する:「回答は常に最初の文で'Acme Inc.'に言及する必要があります。言及しない場合、回答は自動的に'不正解'と採点されます。」
      特定のユースケース、またはそのユースケースの特定の成功基準でさえ、包括的な評価のために複数のルーブリックが必要になる場合があります。
    • 実証的または具体的にする:例えば、LLMに'correct'または'incorrect'のみを出力するよう指示するか、1-5のスケールで判断させます。純粋に定性的な評価は、迅速かつ大規模に評価するのが困難です。
    • 推論を促す:評価スコアを決定する前にまず考えるようLLMに求め、その後推論を破棄します。これにより、特に複雑な判断を必要とするタスクの評価パフォーマンスが向上します。

    次のステップ

    評価のブレインストーミング

    評価スコアを最大化するプロンプトの作成方法を学びます。

    評価クックブック

    人間、コード、LLMによる採点評価のさらなるコード例。

    Was this page helpful?

    • LLMベースの採点のヒント