レイテンシとは、モデルがプロンプトを処理して出力を生成するまでにかかる時間のことです。レイテンシは、モデルのサイズ、プロンプトの複雑さ、モデルとインタラクションポイントをサポートする基盤インフラストラクチャなど、さまざまな要因によって影響を受けます。
まずモデルやプロンプトの制約なしにうまく機能するプロンプトを設計し、その後でレイテンシ削減戦略を試みることが常に望ましいです。早まってレイテンシを削減しようとすると、最高のパフォーマンスがどのようなものかを発見できなくなる可能性があります。
レイテンシについて議論する際、いくつかの用語や測定値に出会うことがあります:
これらの用語についてより深く理解するには、用語集をご覧ください。
レイテンシを削減する最も簡単な方法の一つは、ユースケースに適したモデルを選択することです。Anthropicは、異なる機能とパフォーマンス特性を持つさまざまなモデルを提供しています。具体的な要件を考慮し、速度と出力品質の観点からニーズに最も合ったモデルを選択してください。
速度が重要なアプリケーションには、Claude Haiku 4.5が高い知性を維持しながら最速のレスポンス時間を提供します:
import anthropic
client = anthropic.Anthropic()
# 時間に敏感なアプリケーションには、Claude Haiku 4.5を使用する
message = client.messages.create(
model="claude-haiku-4-5",
max_tokens=100,
messages=[
{
"role": "user",
"content": "Summarize this customer feedback in 2 sentences: [feedback text]",
}
],
)モデルメトリクスの詳細については、モデル概要ページをご覧ください。
高いパフォーマンスを維持しながら、入力プロンプトと期待される出力の両方のトークン数を最小化します。モデルが処理・生成するトークンが少ないほど、レスポンスが速くなります。
プロンプトと出力を最適化するためのヒントをいくつか紹介します:
max_tokensパラメータを使用して、生成されるレスポンスの最大長にハード制限を設定します。これにより、Claudeが過度に長い出力を生成することを防ぎます。
注意: レスポンスが
max_tokensトークンに達すると、レスポンスは途中で切り取られる可能性があります(文の途中や単語の途中で切れることもあります)。これは大まかなテクニックであり、後処理が必要になる場合があり、通常は答えが最初から来る多肢選択式や短答式のレスポンスに最も適しています。
temperatureパラメータは出力のランダム性を制御します。低い値(例:0.2)は、より焦点を絞った短いレスポンスにつながることがあり、高い値(例:0.8)はより多様だが潜在的に長い出力をもたらす可能性があります。プロンプトの明確さ、出力品質、トークン数の適切なバランスを見つけるには、いくつかの実験が必要になる場合があります。
ストリーミングは、完全な出力が完成する前にモデルがレスポンスの送信を開始できる機能です。これにより、ユーザーがモデルの出力をリアルタイムで確認できるため、アプリケーションの体感的なレスポンシブ性を大幅に向上させることができます。
ストリーミングを有効にすると、モデルの出力が届くたびに処理し、ユーザーインターフェースを更新したり、他のタスクを並行して実行したりすることができます。これにより、ユーザーエクスペリエンスが大幅に向上し、アプリケーションがよりインタラクティブでレスポンシブに感じられます。
ユースケースにストリーミングを実装する方法については、ストリーミングメッセージをご覧ください。
Was this page helpful?