高速モードは、Claude Opus 4.8およびClaude Opus 4.7において、プレミアム価格で1秒あたりの出力トークン数を最大2.5倍に向上させます。リクエストにfast-mode-2026-02-01ベータヘッダーとともにspeed: "fast"を設定することでオプトインできます。
高速モードはリサーチプレビュー段階です。アクセスをリクエストするには、アカウントマネージャーにお問い合わせください。アカウントマネージャーがいない場合は、高速モードのウェイトリストに登録してください。
この機能はZero Data Retention(ZDR)の対象です。組織がZDR契約を締結している場合、この機能を通じて送信されたデータは、APIレスポンスが返された後に保存されることはありません。
高速モードは以下のモデルでサポートされています。
Claude Opus 4.8の高速モードは、Claude Managed Agentsを含むClaude APIでのみリサーチプレビューとして提供されます。Amazon Bedrock、Google Cloud、Microsoft Foundryでは利用できません。
Claude Opus 4.7の高速モードは2026年6月25日をもって非推奨となり、2026年7月24日に削除されます。削除後、speed: "fast"を指定したclaude-opus-4-7へのリクエストはエラーを返します。Claude Opus 4.6(次の注記を参照)とは異なり、Claude Opus 4.7は標準速度にフォールバックしません。モデル自体は標準速度で引き続き利用可能です。高速モードを引き続き使用するには、Claude Opus 4.8に移行してください。
2026年6月29日以降、Claude Opus 4.6では高速モードは利用できません。speed: "fast"を指定したclaude-opus-4-6へのリクエストはエラーを返しません。標準速度で実行され、高速モードのプレミアム料金ではなく標準料金で課金され、レスポンスにはusage.speed: "standard"が報告されます。高速モードを引き続き使用するには、Claude Opus 4.8に移行してください。
高速モードは、同じモデルをより高速な推論構成で実行します。知能や機能に変更はありません。
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-8",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)高速モードは、コンテキストウィンドウ全体(20万入力トークンを超えるリクエストを含む)にわたって、標準料金に対するモデルごとの倍率で価格設定されています。次の表は、各対応モデルの高速モード料金を示しています。
| モデル | 入力 | 出力 |
|---|---|---|
| Claude Opus 4.8 | $10 / MTok | $50 / MTok |
| Claude Opus 4.7 | $30 / MTok | $150 / MTok |
高速モードの料金は、他の料金修飾子と重ねて適用されます。
料金の詳細については、料金ページを参照してください。
高速モードには、標準のOpusレート制限とは別の専用レート制限があります。高速モードのレート制限を超えると、APIは429エラーを返し、容量が利用可能になる時刻を示すretry-afterヘッダーを含めます。
レスポンスには、高速モードのレート制限ステータスを示すヘッダーが含まれます。
| ヘッダー | 説明 |
|---|---|
anthropic-fast-input-tokens-limit | 1分あたりの高速モード入力トークンの最大数 |
anthropic-fast-input-tokens-remaining | 残りの高速モード入力トークン数 |
anthropic-fast-input-tokens-reset | 高速モード入力トークン制限がリセットされる時刻 |
anthropic-fast-output-tokens-limit | 1分あたりの高速モード出力トークンの最大数 |
anthropic-fast-output-tokens-remaining | 残りの高速モード出力トークン数 |
anthropic-fast-output-tokens-reset | 高速モード出力トークン制限がリセットされる時刻 |
ティア別のレート制限については、レート制限ページを参照してください。
レスポンスのusageオブジェクトには、使用された速度を示すspeedフィールドが含まれており、"fast"または"standard"のいずれかです。対応モデルでは、高速モードはレート制限や容量不足の際に標準速度へサイレントにフォールバックしません(代わりに429または529が返されます)。そのため、Claude Opus 4.8またはClaude Opus 4.7でspeed: "fast"をリクエストした場合、usage.speedは"fast"になります。高速モードが利用できないClaude Opus 4.6では、speed: "fast"を指定したリクエストは標準速度で実行され、usage.speed: "standard"が返されます。このフィールドを確認して、リクエストがどの速度で処理されたかを確認してください。
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 8,
"output_tokens": 12,
"speed": "fast"
}
}組織全体での高速モードの使用状況とコストを追跡するには、Usage and Cost APIを参照してください。
高速モードのレート制限を超えると、APIはretry-afterヘッダーを含む429エラーを返します。Anthropic SDKは、デフォルトでこれらのリクエストを最大2回自動的にリトライし(max_retriesで設定可能)、各リトライの前にサーバーが指定した遅延時間だけ待機します。高速モードは継続的なトークン補充を使用するため、retry-afterの遅延は通常短く、容量が利用可能になるとリクエストは成功します。
このセクションでは、高速モードがレート制限された場合のオプトイン型クライアント側フォールバックについて説明します。これは、高速モードが利用できずリクエストが自動的に標準速度で実行されるClaude Opus 4.6の動作とは別のものです。
高速モードの容量を待つのではなく標準速度にフォールバックしたい場合は、レート制限エラーをキャッチし、speed: "fast"を指定せずにリトライしてください。最初の高速リクエストでmax_retriesを0に設定すると、自動リトライをスキップしてレート制限エラー時に即座に失敗します。
高速から標準速度へのフォールバックは、プロンプトキャッシュのミスを引き起こします。異なる速度でのリクエストは、キャッシュされたプレフィックスを共有しません。
max_retriesを0に設定すると、他の一時的なエラー(過負荷、内部サーバーエラー)に対するリトライも無効になるため、以下の例ではそれらのケースに対してデフォルトのリトライで元のリクエストを再発行しています。
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
try:
return client.with_options(max_retries=max_retries).beta.messages.create(
**params
)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(max_retries=max_retries, **params)
raise
except (
anthropic.APIStatusError,
anthropic.APIConnectionError,
) as error:
if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
raise
if max_attempts > 1:
return create_message_with_fast_fallback(
max_retries=max_retries, max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-8",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast"を指定したリクエストはエラーを返さず、標準速度で実行され、標準料金で課金されます。その他のモデルでspeed: "fast"を送信するとエラーが返されます。エージェントワークフローから検証済みのJSON結果を取得します。
モデルと機能に関するAnthropicの料金体系について学びます。
effortパラメータを使用して、Claudeが応答時に使用するトークン数を制御し、応答の詳細さとトークン効率のバランスを調整します。
テキスト、ツール使用、拡張思考のデルタを含むMessages APIレスポンスを、サーバー送信イベントで段階的にストリーミングします。
Was this page helpful?