Loading...
    • 開発者ガイド
    • API リファレンス
    • MCP
    • リソース
    • リリースノート
    Search...
    ⌘K

    はじめの一歩

    Claudeの紹介クイックスタート

    モデルと料金

    モデル概要モデルの選択Claude 4.5の新機能Claude 4.5への移行モデルの廃止予定価格設定

    Claudeで構築する

    機能概要Messages API の使用コンテキストウィンドウプロンプトのベストプラクティス

    機能

    プロンプトキャッシングコンテキスト編集拡張思考ストリーミングメッセージバッチ処理引用多言語サポートトークンカウント埋め込みビジョンPDFサポートFiles API検索結果Google Sheetsアドオン

    ツール

    概要ツール使用の実装方法トークン効率的なツール使用細粒度ツールストリーミングBashツールコード実行ツールコンピュータ使用ツールテキストエディタツールWeb fetch toolウェブ検索ツールメモリツール

    エージェントスキル

    概要クイックスタートスキル作成のベストプラクティスAPIでエージェントスキルを使用する

    Agent SDK

    概要Agent SDK リファレンス - TypeScriptPython SDK

    ガイド

    ストリーミング入力権限の処理セッション管理Agent SDKのホスティングシステムプロンプトの変更SDK内のMCPカスタムツールSDKにおけるサブエージェントSDKでのスラッシュコマンドSDK内のエージェントスキルコストと使用量の追跡Todo リストSDK のプラグイン

    API内のMCP

    MCPコネクタリモートMCPサーバー

    Claude on 3rd-party platforms

    Amazon BedrockVertex AI

    プロンプトエンジニアリング

    概要プロンプトジェネレータープロンプトテンプレートの使用プロンプト改善ツール明確で直接的な指示例(マルチショットプロンプト)を使用してClaudeの動作を導くClaudeに考えさせる(CoT)XMLタグを使用Claudeに役割を与える(システムプロンプト)Claudeの応答を事前入力複雑なプロンプトのチェーン化長文コンテキストのヒント拡張思考のヒント

    テストと評価

    成功基準を定義するテストケースを開発する評価ツールの使用レイテンシの削減

    ガードレールを強化

    幻覚を減らす出力の一貫性を高めるジェイルブレイクの軽減handle-streaming-refusalsプロンプトリークの削減Claudeのキャラクターを維持

    管理とモニタリング

    Admin API概要使用量とコストAPIClaude Code Analytics API
    Console
    テストと評価

    成功基準を定義する

    LLMベースのアプリケーションを構築する際の明確な成功基準の設定方法について学びます。

    LLMベースのアプリケーションを成功させるには、まず成功基準を明確に定義することから始めます。アプリケーションが公開するのに十分な品質に達したと、どのように判断しますか?

    明確な成功基準を持つことで、プロンプトエンジニアリングと最適化の取り組みが、特定の測定可能な目標の達成に焦点を当てることができます。


    強固な基準の構築

    良い成功基準は以下の特徴を持ちます:

    • 具体的:達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確な感情分類」などと指定します。

    • 測定可能:定量的な指標または明確に定義された定性的な尺度を使用します。数値は明確さとスケーラビリティを提供しますが、定性的な測定も定量的な測定と「併用」して一貫して適用されれば価値があります。

      • 倫理や安全性などの「曖昧な」トピックでも定量化できます:
        安全性の基準
        悪い例安全な出力
        良い例10,000回の試行のうち、コンテンツフィルターによって有害性がフラグ付けされる出力が0.1%未満。

    • 達成可能:業界のベンチマーク、過去の実験、AI研究、または専門家の知識に基づいて目標を設定します。成功指標は現在のフロンティアモデルの能力に対して非現実的であってはなりません。

    • 関連性:基準をアプリケーションの目的とユーザーのニーズに合わせます。引用の正確性は医療アプリでは重要かもしれませんが、カジュアルなチャットボットではそれほど重要ではないかもしれません。


    考慮すべき一般的な成功基準

    以下は、ユースケースにとって重要かもしれない基準です。このリストは網羅的ではありません。

    ほとんどのユースケースでは、複数の成功基準に沿った多次元的な評価が必要になります。


    次のステップ

    基準をブレインストーミングする

    claude.aiでClaudeを使用して、ユースケースの成功基準をブレインストーミングしましょう。

    ヒント:このページをチャットに投げ込んで、Claudeのガイダンスとして活用しましょう!

    評価を設計する

    Claudeのパフォーマンスを基準に照らして評価するための強力なテストセットの構築方法を学びましょう。

      © 2025 ANTHROPIC PBC

      Products

      • Claude
      • Claude Code
      • Max plan
      • Team plan
      • Enterprise plan
      • Download app
      • Pricing
      • Log in

      Features

      • Claude and Slack
      • Claude in Excel

      Models

      • Opus
      • Sonnet
      • Haiku

      Solutions

      • AI agents
      • Code modernization
      • Coding
      • Customer support
      • Education
      • Financial services
      • Government
      • Life sciences

      Claude Developer Platform

      • Overview
      • Developer docs
      • Pricing
      • Amazon Bedrock
      • Google Cloud’s Vertex AI
      • Console login

      Learn

      • Blog
      • Catalog
      • Courses
      • Use cases
      • Connectors
      • Customer stories
      • Engineering at Anthropic
      • Events
      • Powered by Claude
      • Service partners
      • Startups program

      Company

      • Anthropic
      • Careers
      • Economic Futures
      • Research
      • News
      • Responsible Scaling Policy
      • Security and compliance
      • Transparency

      Help and security

      • Availability
      • Status
      • Support center

      Terms and policies

      • Privacy policy
      • Responsible disclosure policy
      • Terms of service: Commercial
      • Terms of service: Consumer
      • Usage policy

      Products

      • Claude
      • Claude Code
      • Max plan
      • Team plan
      • Enterprise plan
      • Download app
      • Pricing
      • Log in

      Features

      • Claude and Slack
      • Claude in Excel

      Models

      • Opus
      • Sonnet
      • Haiku

      Solutions

      • AI agents
      • Code modernization
      • Coding
      • Customer support
      • Education
      • Financial services
      • Government
      • Life sciences

      Claude Developer Platform

      • Overview
      • Developer docs
      • Pricing
      • Amazon Bedrock
      • Google Cloud’s Vertex AI
      • Console login

      Learn

      • Blog
      • Catalog
      • Courses
      • Use cases
      • Connectors
      • Customer stories
      • Engineering at Anthropic
      • Events
      • Powered by Claude
      • Service partners
      • Startups program

      Company

      • Anthropic
      • Careers
      • Economic Futures
      • Research
      • News
      • Responsible Scaling Policy
      • Security and compliance
      • Transparency

      Help and security

      • Availability
      • Status
      • Support center

      Terms and policies

      • Privacy policy
      • Responsible disclosure policy
      • Terms of service: Commercial
      • Terms of service: Consumer
      • Usage policy
      © 2025 ANTHROPIC PBC