高速モードは、Claude Opus 4.6の出力トークン生成を大幅に高速化します。APIリクエストで speed: "fast" を設定することで、同じモデルからプレミアム価格で最大2.5倍の出力トークン/秒を得ることができます。
高速モードは現在リサーチプレビュー中です。アクセスをリクエストするにはウェイトリストに参加してください。フィードバックを収集している間、利用可能数は限られています。
高速モードは以下のモデルでサポートされています:
claude-opus-4-6)高速モードは、より高速な推論設定で同じモデルを実行します。知能や機能に変更はありません。
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"speed": "fast",
"messages": [{
"role": "user",
"content": "Refactor this module to use dependency injection"
}]
}'高速モードは、プロンプトが200Kトークン以下の場合は標準Opus料金の6倍、プロンプトが200Kトークンを超える場合は標準Opus料金の12倍で価格設定されています。以下の表は、高速モードを使用したClaude Opus 4.6の料金を示しています:
| コンテキストウィンドウ | 入力 | 出力 |
|---|---|---|
| ≤ 200K 入力トークン | $30 / MTok | $150 / MTok |
| > 200K 入力トークン | $60 / MTok | $225 / MTok |
高速モードの料金は他の料金修飾子と重複適用されます:
完全な料金の詳細については、料金ページをご覧ください。
高速モードには、標準Opusのレート制限とは別の専用レート制限があります。標準速度では200K以下と200K超の入力トークンに対して別々の制限がありますが、高速モードではフルコンテキスト範囲をカバーする単一のレート制限を使用します。高速モードのレート制限を超えた場合、APIは容量が利用可能になる時刻を示す retry-after ヘッダー付きの 429 エラーを返します。
レスポンスには、高速モードのレート制限ステータスを示すヘッダーが含まれます:
| ヘッダー | 説明 |
|---|---|
anthropic-fast-input-tokens-limit | 1分あたりの高速モード入力トークンの最大数 |
anthropic-fast-input-tokens-remaining | 残りの高速モード入力トークン数 |
anthropic-fast-input-tokens-reset | 高速モード入力トークン制限がリセットされる時刻 |
anthropic-fast-output-tokens-limit | 1分あたりの高速モード出力トークンの最大数 |
anthropic-fast-output-tokens-remaining | 残りの高速モード出力トークン数 |
anthropic-fast-output-tokens-reset | 高速モード出力トークン制限がリセットされる時刻 |
ティア別のレート制限については、レート制限ページをご覧ください。
レスポンスの usage オブジェクトには、使用された速度を示す speed フィールドが含まれ、"fast" または "standard" のいずれかです:
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"speed": "fast",
"messages": [{"role": "user", "content": "Hello"}]
}'
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
...
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}組織全体の高速モードの使用状況とコストを追跡するには、使用量とコストAPIをご覧ください。
高速モードのレート制限を超えた場合、APIは retry-after ヘッダー付きの 429 エラーを返します。Anthropic SDKはデフォルトでこれらのリクエストを最大2回自動的にリトライし(max_retries で設定可能)、各リトライの前にサーバー指定の遅延を待ちます。高速モードは継続的なトークン補充を使用するため、retry-after の遅延は通常短く、容量が利用可能になるとリクエストは成功します。
高速モードの容量を待つのではなく標準速度にフォールバックしたい場合は、レート制限エラーをキャッチして speed: "fast" なしでリトライしてください。最初の高速リクエストで max_retries を 0 に設定すると、自動リトライをスキップしてレート制限エラー時に即座に失敗します。
高速から標準速度へのフォールバックは、プロンプトキャッシュミスを引き起こします。異なる速度のリクエストはキャッシュされたプレフィックスを共有しません。
max_retries を 0 に設定すると、他の一時的なエラー(過負荷、内部サーバーエラー)のリトライも無効になるため、以下の例ではそれらのケースに対してデフォルトのリトライで元のリクエストを再発行します。
import anthropic
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" を送信するとエラーが返されます。Was this page helpful?