Loading...
  • ビルド
  • 管理
  • モデルと料金
  • クライアントSDK
  • APIリファレンス
Search...
⌘K
Log in
レイテンシの削減
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
ビルド/テストと評価

レイテンシの削減

レイテンシとは、モデルがプロンプトを処理して出力を生成するまでにかかる時間のことです。レイテンシは、モデルのサイズ、プロンプトの複雑さ、モデルとインタラクションポイントをサポートする基盤インフラストラクチャなど、さまざまな要因によって影響を受けます。

まずモデルやプロンプトの制約なしにうまく機能するプロンプトを設計し、その後でレイテンシ削減戦略を試みることが常に望ましいです。早まってレイテンシを削減しようとすると、最高のパフォーマンスがどのようなものかを発見できなくなる可能性があります。


レイテンシの測定方法

レイテンシについて議論する際、いくつかの用語や測定値に出会うことがあります:

  • ベースラインレイテンシ: これは、入力および出力トークン毎秒を考慮せずに、モデルがプロンプトを処理してレスポンスを生成するのにかかる時間です。モデルの速度についての一般的なアイデアを提供します。
  • 最初のトークンまでの時間(TTFT): このメトリクスは、プロンプトが送信されてからモデルがレスポンスの最初のトークンを生成するまでにかかる時間を測定します。ストリーミング(後述)を使用していて、ユーザーにレスポンシブなエクスペリエンスを提供したい場合に特に関連します。

これらの用語についてより深く理解するには、用語集をご覧ください。


レイテンシの削減方法

1. 適切なモデルを選択する

レイテンシを削減する最も簡単な方法の一つは、ユースケースに適したモデルを選択することです。Anthropicは、異なる機能とパフォーマンス特性を持つさまざまなモデルを提供しています。具体的な要件を考慮し、速度と出力品質の観点からニーズに最も合ったモデルを選択してください。

速度が重要なアプリケーションには、Claude Haiku 4.5が高い知性を維持しながら最速のレスポンス時間を提供します:

Python
import anthropic

client = anthropic.Anthropic()

# 時間に敏感なアプリケーションには、Claude Haiku 4.5を使用する
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
        }
    ],
)

モデルメトリクスの詳細については、モデル概要ページをご覧ください。

2. プロンプトと出力の長さを最適化する

高いパフォーマンスを維持しながら、入力プロンプトと期待される出力の両方のトークン数を最小化します。モデルが処理・生成するトークンが少ないほど、レスポンスが速くなります。

プロンプトと出力を最適化するためのヒントをいくつか紹介します:

  • 明確かつ簡潔に: プロンプトで意図を明確かつ簡潔に伝えることを目指してください。不必要な詳細や冗長な情報を避けながら、Claudeはユースケースのコンテキストを持っていないため、指示が不明確な場合に意図した論理的飛躍をしない可能性があることを念頭に置いてください。
  • より短いレスポンスを求める: Claudeに直接簡潔にするよう求めてください。Claude 3ファミリーのモデルは、以前の世代よりも操縦性が向上しています。Claudeが不要な長さの出力をしている場合は、おしゃべりを抑えるよう求めてください。
    LLMが単語ではなくトークンを数える方法のため、正確な単語数や単語数の制限を求めることは、段落や文の数の制限を求めることほど効果的な戦略ではありません。
  • 適切な出力制限を設定する: max_tokensパラメータを使用して、生成されるレスポンスの最大長にハード制限を設定します。これにより、Claudeが過度に長い出力を生成することを防ぎます。

    注意: レスポンスがmax_tokensトークンに達すると、レスポンスは途中で切り取られる可能性があります(文の途中や単語の途中で切れることもあります)。これは大まかなテクニックであり、後処理が必要になる場合があり、通常は答えが最初から来る多肢選択式や短答式のレスポンスに最も適しています。

  • temperatureを試す: temperatureパラメータは出力のランダム性を制御します。低い値(例:0.2)は、より焦点を絞った短いレスポンスにつながることがあり、高い値(例:0.8)はより多様だが潜在的に長い出力をもたらす可能性があります。

プロンプトの明確さ、出力品質、トークン数の適切なバランスを見つけるには、いくつかの実験が必要になる場合があります。

3. ストリーミングを活用する

ストリーミングは、完全な出力が完成する前にモデルがレスポンスの送信を開始できる機能です。これにより、ユーザーがモデルの出力をリアルタイムで確認できるため、アプリケーションの体感的なレスポンシブ性を大幅に向上させることができます。

ストリーミングを有効にすると、モデルの出力が届くたびに処理し、ユーザーインターフェースを更新したり、他のタスクを並行して実行したりすることができます。これにより、ユーザーエクスペリエンスが大幅に向上し、アプリケーションがよりインタラクティブでレスポンシブに感じられます。

ユースケースにストリーミングを実装する方法については、ストリーミングメッセージをご覧ください。

Was this page helpful?

  • 1. 適切なモデルを選択する
  • 2. プロンプトと出力の長さを最適化する
  • 3. ストリーミングを活用する