「latency」(レイテンシ)とは、モデルがプロンプトを処理して出力を生成するまでにかかる時間を指します。レイテンシは、モデルのサイズ、プロンプトの複雑さ、モデルおよびインタラクションポイントを支える基盤インフラストラクチャなど、さまざまな要因によって影響を受けます。
まずはモデルやプロンプトの制約を考慮せずに適切に機能するプロンプトを設計し、その後でレイテンシ削減の戦略を試すことをお勧めします。早い段階でレイテンシを削減しようとすると、最高のパフォーマンスがどのようなものかを発見できなくなる可能性があります。
レイテンシについて議論する際、いくつかの用語や測定値に出会うことがあります。
これらの用語についてより深く理解するには、用語集をご覧ください。
レイテンシを削減する最も簡単な方法の1つは、ユースケースに適したモデルを選択することです。Anthropicは、さまざまな機能とパフォーマンス特性を持つ幅広いモデルを提供しています。具体的な要件を検討し、速度と出力品質の観点からニーズに最も適したモデルを選択してください。
速度が重要なアプリケーションでは、Claude Haiku 4.5が高い知能を維持しながら最速の応答時間を提供します。
import anthropic
client = anthropic.Anthropic()
# 時間的制約のあるアプリケーションには、Claude Haiku 4.5を使用します
message = client.messages.create(
model="claude-haiku-4-5",
max_tokens=100,
messages=[
{
"role": "user",
"content": "Summarize this customer feedback in 2 sentences: [feedback text]",
}
],
)モデルの指標の詳細については、モデルの概要ページをご覧ください。
高いパフォーマンスを維持しながら、入力プロンプトと期待される出力の両方のトークン数を最小限に抑えます。モデルが処理および生成しなければならないトークンが少ないほど、レスポンスは速くなります。
プロンプトと出力を最適化するためのヒントをいくつか紹介します。
max_tokensパラメータを使用して、生成されるレスポンスの最大長にハードリミットを設定します。これにより、Claudeが過度に長い出力を生成するのを防ぎます。
注:レスポンスが
max_tokensトークンに達すると、文の途中や単語の途中でレスポンスが切り捨てられる可能性があります。そのため、これは後処理が必要になる場合がある大まかな手法であり、通常は回答が冒頭に来る多肢選択式や短答式のレスポンスに最も適しています。
temperatureパラメータは出力のランダム性を制御します。低い値(例:0.2)は、より焦点を絞った短いレスポンスにつながることがあり、高い値(例:0.8)は、より多様ですが長くなる可能性のある出力になることがあります。プロンプトの明確さ、出力品質、トークン数の適切なバランスを見つけるには、ある程度の試行錯誤が必要になる場合があります。
ストリーミングは、完全な出力が完了する前にモデルがレスポンスの送信を開始できるようにする機能です。これにより、ユーザーはモデルの出力をリアルタイムで確認できるため、アプリケーションの体感的な応答性を大幅に向上させることができます。
ストリーミングを有効にすると、モデルの出力が到着するたびに処理し、ユーザーインターフェースを更新したり、他のタスクを並行して実行したりできます。これにより、ユーザーエクスペリエンスが大幅に向上し、アプリケーションがよりインタラクティブで応答性が高く感じられるようになります。
ユースケースにストリーミングを実装する方法については、Messagesのストリーミングをご覧ください。
Was this page helpful?