Loading...
    • 開発者ガイド
    • APIリファレンス
    • MCP
    • リソース
    • リリースノート
    Search...
    ⌘K
    最初のステップ
    Claudeの紹介クイックスタート
    モデルと価格
    モデル概要モデルの選択Claude 4.5の新機能Claude 4.5への移行モデルの廃止予定価格
    Claudeで構築
    機能概要Messages APIの使用コンテキストウィンドウプロンプトのベストプラクティス
    機能
    プロンプトキャッシングコンテキスト編集拡張思考エフォートストリーミングメッセージバッチ処理引用多言語対応トークンカウント埋め込みビジョンPDF対応Files API検索結果構造化出力
    ツール
    概要ツール使用の実装方法細粒度ツールストリーミングBashツールコード実行ツールプログラマティックツール呼び出しコンピュータ使用ツールテキストエディタツールWebフェッチツールWeb検索ツールメモリツールツール検索ツール
    エージェントスキル
    概要クイックスタートベストプラクティスAPIでスキルを使用
    Agent SDK
    概要クイックスタートTypeScript SDKTypeScript V2(プレビュー)Python SDK移行ガイド
    APIのMCP
    MCPコネクタリモートMCPサーバー
    サードパーティプラットフォームのClaude
    Amazon BedrockMicrosoft FoundryVertex AI
    プロンプトエンジニアリング
    概要プロンプトジェネレータプロンプトテンプレートの使用プロンプト改善ツール明確で直接的に例を使用(マルチショットプロンプティング)Claudeに考えさせる(CoT)XMLタグを使用Claudeに役割を与える(システムプロンプト)Claudeの応答を事前入力複雑なプロンプトをチェーン長いコンテキストのヒント拡張思考のヒント
    テストと評価
    成功基準の定義テストケースの開発評価ツールの使用レイテンシの削減
    ガードレールの強化
    ハルシネーションの削減出力の一貫性を向上ジェイルブレイクの軽減ストリーミング拒否プロンプトリークの削減Claudeをキャラクターのままに
    管理とモニタリング
    Admin API概要使用状況とコストAPIClaude Code Analytics API
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    テストと評価

    成功基準を定義する

    LLMベースのアプリケーションを構築する際の明確な成功基準の設定方法について学びます。

    LLMベースのアプリケーションを成功させるには、まず成功基準を明確に定義することから始めます。アプリケーションが公開するのに十分な品質に達したと、どのように判断しますか?

    明確な成功基準を持つことで、プロンプトエンジニアリングと最適化の取り組みが、特定の測定可能な目標の達成に焦点を当てることができます。


    強固な基準の構築

    良い成功基準は以下の特徴を持ちます:

    • 具体的:達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確な感情分類」などと指定します。

    • 測定可能:定量的な指標または明確に定義された定性的な尺度を使用します。数値は明確さとスケーラビリティを提供しますが、定性的な測定も定量的な測定と「併用」して一貫して適用されれば価値があります。

      • 倫理や安全性などの「曖昧な」トピックでも定量化できます:
        安全性の基準
        悪い例安全な出力
        良い例10,000回の試行のうち、コンテンツフィルターによって有害性がフラグ付けされる出力が0.1%未満。

    • 達成可能:業界のベンチマーク、過去の実験、AI研究、または専門家の知識に基づいて目標を設定します。成功指標は現在のフロンティアモデルの能力に対して非現実的であってはなりません。

    • 関連性:基準をアプリケーションの目的とユーザーのニーズに合わせます。引用の正確性は医療アプリでは重要かもしれませんが、カジュアルなチャットボットではそれほど重要ではないかもしれません。


    考慮すべき一般的な成功基準

    以下は、ユースケースにとって重要かもしれない基準です。このリストは網羅的ではありません。

    ほとんどのユースケースでは、複数の成功基準に沿った多次元的な評価が必要になります。


    次のステップ

    基準をブレインストーミングする

    claude.aiでClaudeを使用して、ユースケースの成功基準をブレインストーミングしましょう。

    ヒント:このページをチャットに投げ込んで、Claudeのガイダンスとして活用しましょう!

    評価を設計する

    Claudeのパフォーマンスを基準に照らして評価するための強力なテストセットの構築方法を学びましょう。