Claude Platform Docs
  • メッセージ
  • マネージドエージェント
  • 管理

Search...
⌘K
ユースケース
概要チケットルーティングカスタマーサポートエージェントコンテンツモデレーション法務文書の要約
プロンプトエンジニアリング
概要プロンプトのベストプラクティスClaude Fable 5へのプロンプトClaude Opus 4.8へのプロンプトコンソールのプロンプトツール
テストと評価
成功の定義と評価の構築コンソールでの評価ツールの使用レイテンシの削減
ガードレールの強化
ハルシネーションの削減出力の一貫性向上ジェイルブレイクの軽減プロンプトリークの削減
リファレンス
用語集

Log in
レイテンシの削減
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
ベストプラクティス/テストと評価

レイテンシの削減

「latency」(レイテンシ)とは、モデルがプロンプトを処理して出力を生成するまでにかかる時間を指します。レイテンシは、モデルのサイズ、プロンプトの複雑さ、モデルおよびインタラクションポイントを支える基盤インフラストラクチャなど、さまざまな要因によって影響を受けます。



まずはモデルやプロンプトの制約を考慮せずに適切に機能するプロンプトを設計し、その後でレイテンシ削減の戦略を試すことをお勧めします。早い段階でレイテンシを削減しようとすると、最高のパフォーマンスがどのようなものかを発見できなくなる可能性があります。


レイテンシの測定方法

レイテンシについて議論する際、いくつかの用語や測定値に出会うことがあります。

  • ベースラインレイテンシ:これは、1秒あたりの入力および出力トークン数を考慮せずに、モデルがプロンプトを処理してレスポンスを生成するのにかかる時間です。モデルの速度についての一般的な目安を提供します。
  • 「Time to first token」(最初のトークンまでの時間)、すなわちTTFT:この指標は、プロンプトが送信されてからモデルがレスポンスの最初のトークンを生成するまでにかかる時間を測定します。これは、ストリーミング(後述)を使用していて、ユーザーに応答性の高い体験を提供したい場合に特に重要です。

これらの用語についてより深く理解するには、用語集をご覧ください。


レイテンシを削減する方法

1. 適切なモデルを選択する

レイテンシを削減する最も簡単な方法の1つは、ユースケースに適したモデルを選択することです。Anthropicは、さまざまな機能とパフォーマンス特性を持つ幅広いモデルを提供しています。具体的な要件を検討し、速度と出力品質の観点からニーズに最も適したモデルを選択してください。

速度が重要なアプリケーションでは、Claude Haiku 4.5が高い知能を維持しながら最速の応答時間を提供します。

Python
import anthropic

client = anthropic.Anthropic()

# 時間的制約のあるアプリケーションには、Claude Haiku 4.5を使用します
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
        }
    ],
)

モデルの指標の詳細については、モデルの概要ページをご覧ください。

2. プロンプトと出力の長さを最適化する

高いパフォーマンスを維持しながら、入力プロンプトと期待される出力の両方のトークン数を最小限に抑えます。モデルが処理および生成しなければならないトークンが少ないほど、レスポンスは速くなります。

プロンプトと出力を最適化するためのヒントをいくつか紹介します。

  • 明確かつ簡潔に:プロンプトで意図を明確かつ簡潔に伝えることを目指してください。不要な詳細や冗長な情報は避けつつ、Claudeにはコンテキストがないことを念頭に置いてください。指示が不明確な場合、Claudeは意図した論理の飛躍を行わない可能性があります。
  • 短いレスポンスを求める:Claudeに直接、簡潔にするよう依頼してください。Claude 3ファミリーのモデルは、以前の世代よりも操作性が向上しています。Claudeが望ましくない長さの出力をしている場合は、Claudeに冗長さを抑えるよう依頼してください。
    
    LLMは単語ではなくトークンを数えるため、正確な単語数や単語数の制限を求めることは、段落数や文数の制限を求めるほど効果的な戦略ではありません。
  • 適切な出力制限を設定する:max_tokensパラメータを使用して、生成されるレスポンスの最大長にハードリミットを設定します。これにより、Claudeが過度に長い出力を生成するのを防ぎます。

    注:レスポンスがmax_tokensトークンに達すると、文の途中や単語の途中でレスポンスが切り捨てられる可能性があります。そのため、これは後処理が必要になる場合がある大まかな手法であり、通常は回答が冒頭に来る多肢選択式や短答式のレスポンスに最も適しています。

  • temperatureを試す:temperatureパラメータは出力のランダム性を制御します。低い値(例:0.2)は、より焦点を絞った短いレスポンスにつながることがあり、高い値(例:0.8)は、より多様ですが長くなる可能性のある出力になることがあります。

プロンプトの明確さ、出力品質、トークン数の適切なバランスを見つけるには、ある程度の試行錯誤が必要になる場合があります。

3. ストリーミングを活用する

ストリーミングは、完全な出力が完了する前にモデルがレスポンスの送信を開始できるようにする機能です。これにより、ユーザーはモデルの出力をリアルタイムで確認できるため、アプリケーションの体感的な応答性を大幅に向上させることができます。

ストリーミングを有効にすると、モデルの出力が到着するたびに処理し、ユーザーインターフェースを更新したり、他のタスクを並行して実行したりできます。これにより、ユーザーエクスペリエンスが大幅に向上し、アプリケーションがよりインタラクティブで応答性が高く感じられるようになります。

ユースケースにストリーミングを実装する方法については、Messagesのストリーミングをご覧ください。

Was this page helpful?

  • レイテンシの測定方法
  • レイテンシを削減する方法
  • 1. 適切なモデルを選択する
  • 2. プロンプトと出力の長さを最適化する
  • 3. ストリーミングを活用する