ファストモードは、Claude Opus 4.6の出力トークン生成を大幅に高速化します。APIリクエストにspeed: "fast"を設定することで、プレミアム価格で同じモデルから最大2.5倍高い出力トークン毎秒を得ることができます。
ファストモードはベータ版(リサーチプレビュー)です。アクセスをリクエストするにはウェイトリストに参加してください。Anthropicがフィードバックを収集している間、利用可能性は限定されています。
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
ファストモードは以下のモデルでサポートされています:
claude-opus-4-6)ファストモードは、より高速な推論設定で同じモデルを実行します。インテリジェンスや機能に変更はありません。
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)ファストモードは、200kを超える入力トークンのリクエストを含む全コンテキストウィンドウにわたって、標準Opusレートの6倍で価格設定されています。以下の表は、ファストモードを使用したClaude Opus 4.6の価格を示しています:
| 入力 | 出力 |
|---|---|
| $30 / MTok | $150 / MTok |
ファストモードの価格は他の価格修飾子と重なります:
完全な価格の詳細については、価格ページを参照してください。
ファストモードには、標準Opusレート制限とは別の専用レート制限があります。ファストモードのレート制限を超えると、APIは429エラーと、容量が利用可能になる時期を示すretry-afterヘッダーを返します。
レスポンスには、ファストモードのレート制限状況を示すヘッダーが含まれます:
| ヘッダー | 説明 |
|---|---|
anthropic-fast-input-tokens-limit | 1分あたりの最大ファストモード入力トークン数 |
anthropic-fast-input-tokens-remaining | 残りのファストモード入力トークン数 |
anthropic-fast-input-tokens-reset | ファストモード入力トークン制限がリセットされる時刻 |
anthropic-fast-output-tokens-limit | 1分あたりの最大ファストモード出力トークン数 |
anthropic-fast-output-tokens-remaining | 残りのファストモード出力トークン数 |
anthropic-fast-output-tokens-reset | ファストモード出力トークン制限がリセットされる時刻 |
ティア別のレート制限については、レート制限ページを参照してください。
レスポンスのusageオブジェクトには、使用された速度を示すspeedフィールドが含まれており、"fast"または"standard"のいずれかです:
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}組織全体のファストモードの使用状況とコストを追跡するには、使用状況とコストAPIを参照してください。
ファストモードのレート制限を超えると、APIはretry-afterヘッダーとともに429エラーを返します。Anthropic SDKは、デフォルトでこれらのリクエストを最大2回自動的にリトライします(max_retriesで設定可能)。各リトライの前にサーバーが指定した遅延を待ちます。ファストモードは継続的なトークン補充を使用するため、retry-afterの遅延は通常短く、容量が利用可能になるとリクエストは成功します。
ファストモードの容量を待つよりも標準速度にフォールバックしたい場合は、レート制限エラーをキャッチしてspeed: "fast"なしで再試行してください。最初のファストリクエストでmax_retriesを0に設定すると、自動リトライをスキップしてレート制限エラー時に即座に失敗します。
ファストから標準速度にフォールバックすると、プロンプトキャッシュのミスが発生します。異なる速度でのリクエストはキャッシュされたプレフィックスを共有しません。
max_retriesを0に設定すると、他の一時的なエラー(過負荷、内部サーバーエラー)のリトライも無効になるため、以下の例ではそれらのケースに対してデフォルトのリトライで元のリクエストを再発行します。
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast"を送信するとエラーが返されます。Was this page helpful?