Loading...
    • 開発者ガイド
    • API リファレンス
    • MCP
    • リソース
    • リリースノート
    Search...
    ⌘K
    はじめに
    Claude の紹介クイックスタート
    モデルと料金
    モデル概要モデルの選び方Claude 4.6 の新機能移行ガイドモデルの廃止料金
    Claude で構築する
    機能概要Messages API の使用停止理由の処理プロンプトのベストプラクティス
    コンテキスト管理
    コンテキストウィンドウコンパクションコンテキスト編集
    機能
    プロンプトキャッシング拡張思考適応型思考エフォートメッセージのストリーミングバッチ処理引用多言語サポートトークンカウントエンベディングビジョンPDF サポートFiles API検索結果構造化出力
    ツール
    概要ツール使用の実装方法きめ細かいツールストリーミングBash ツールコード実行ツールプログラムによるツール呼び出しコンピュータ使用ツールテキストエディタツールWeb フェッチツールWeb 検索ツールメモリツールツール検索ツール
    Agent Skills
    概要クイックスタートベストプラクティスエンタープライズ向け SkillsAPI での Skills の使用
    Agent SDK
    概要クイックスタートTypeScript SDKTypeScript V2(プレビュー)Python SDK移行ガイド
    API での MCP
    MCP コネクタリモート MCP サーバー
    サードパーティプラットフォームの Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    プロンプトエンジニアリング
    概要プロンプトジェネレータープロンプトテンプレートの使用プロンプト改善ツール明確かつ直接的に例を使う(マルチショットプロンプティング)Claude に考えさせる(CoT)XML タグを使うClaude に役割を与える(システムプロンプト)複雑なプロンプトを連鎖させる長文コンテキストのヒント拡張思考のヒント
    テストと評価
    成功基準の定義テストケースの開発評価ツールの使用レイテンシの削減
    ガードレールの強化
    ハルシネーションの削減出力の一貫性を高めるジェイルブレイクの軽減ストリーミング拒否プロンプト漏洩の防止Claude をキャラクターに保つ
    管理とモニタリング
    Admin API 概要データレジデンシーワークスペースUsage and Cost APIClaude Code Analytics APIゼロデータリテンション
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    テストと評価

    成功基準を定義する

    LLMベースのアプリケーションを構築する際の明確な成功基準の設定方法について学びます。

    LLMベースのアプリケーションを成功させるには、まず成功基準を明確に定義することから始めます。アプリケーションが公開するのに十分な品質に達したと、どのように判断しますか?

    明確な成功基準を持つことで、プロンプトエンジニアリングと最適化の取り組みが、特定の測定可能な目標の達成に焦点を当てることができます。


    強固な基準の構築

    良い成功基準は以下の特徴を持ちます:

    • 具体的:達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確な感情分類」などと指定します。

    • 測定可能:定量的な指標または明確に定義された定性的な尺度を使用します。数値は明確さとスケーラビリティを提供しますが、定性的な測定も定量的な測定と「併用」して一貫して適用されれば価値があります。

      • 倫理や安全性などの「曖昧な」トピックでも定量化できます:
        安全性の基準
        悪い例安全な出力
        良い例10,000回の試行のうち、コンテンツフィルターによって有害性がフラグ付けされる出力が0.1%未満。

    • 達成可能:業界のベンチマーク、過去の実験、AI研究、または専門家の知識に基づいて目標を設定します。成功指標は現在のフロンティアモデルの能力に対して非現実的であってはなりません。

    • 関連性:基準をアプリケーションの目的とユーザーのニーズに合わせます。引用の正確性は医療アプリでは重要かもしれませんが、カジュアルなチャットボットではそれほど重要ではないかもしれません。


    考慮すべき一般的な成功基準

    以下は、ユースケースにとって重要かもしれない基準です。このリストは網羅的ではありません。

    ほとんどのユースケースでは、複数の成功基準に沿った多次元的な評価が必要になります。


    次のステップ

    基準をブレインストーミングする

    claude.aiでClaudeを使用して、ユースケースの成功基準をブレインストーミングしましょう。

    ヒント:このページをチャットに投げ込んで、Claudeのガイダンスとして活用しましょう!

    評価を設計する

    Claudeのパフォーマンスを基準に照らして評価するための強力なテストセットの構築方法を学びましょう。

    Was this page helpful?