Loading...
  • ビルド
  • 管理
  • モデルと料金
  • クライアントSDK
  • APIリファレンス
Search...
⌘K
Log in
高速モード(ベータ:研究プレビュー)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
ビルド/モデル機能

ファストモード(ベータ:リサーチプレビュー)

Claude Opus 4.6向けの高速出力モードで、レイテンシに敏感なワークフローやエージェント型ワークフローに対して大幅に高速なトークン生成を提供します。

ファストモードは、Claude Opus 4.6の出力トークン生成を大幅に高速化します。APIリクエストにspeed: "fast"を設定することで、プレミアム価格で同じモデルから最大2.5倍高い出力トークン毎秒を得ることができます。

ファストモードはベータ版(リサーチプレビュー)です。アクセスをリクエストするにはウェイトリストに参加してください。Anthropicがフィードバックを収集している間、利用可能性は限定されています。

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

サポートされているモデル

ファストモードは以下のモデルでサポートされています:

  • Claude Opus 4.6 (claude-opus-4-6)

ファストモードの仕組み

ファストモードは、より高速な推論設定で同じモデルを実行します。インテリジェンスや機能に変更はありません。

  • 標準速度と比較して最大2.5倍高い出力トークン毎秒
  • 速度の恩恵は出力トークン毎秒(OTPS)に集中しており、最初のトークンまでの時間(TTFT)ではありません
  • 同じモデルの重みと動作(異なるモデルではありません)

基本的な使用方法

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

価格

ファストモードは、200kを超える入力トークンのリクエストを含む全コンテキストウィンドウにわたって、標準Opusレートの6倍で価格設定されています。以下の表は、ファストモードを使用したClaude Opus 4.6の価格を示しています:

入力出力
$30 / MTok$150 / MTok

ファストモードの価格は他の価格修飾子と重なります:

  • プロンプトキャッシュの乗数はファストモード価格の上に適用されます
  • データレジデンシーの乗数はファストモード価格の上に適用されます

完全な価格の詳細については、価格ページを参照してください。

レート制限

ファストモードには、標準Opusレート制限とは別の専用レート制限があります。ファストモードのレート制限を超えると、APIは429エラーと、容量が利用可能になる時期を示すretry-afterヘッダーを返します。

レスポンスには、ファストモードのレート制限状況を示すヘッダーが含まれます:

ヘッダー説明
anthropic-fast-input-tokens-limit1分あたりの最大ファストモード入力トークン数
anthropic-fast-input-tokens-remaining残りのファストモード入力トークン数
anthropic-fast-input-tokens-resetファストモード入力トークン制限がリセットされる時刻
anthropic-fast-output-tokens-limit1分あたりの最大ファストモード出力トークン数
anthropic-fast-output-tokens-remaining残りのファストモード出力トークン数
anthropic-fast-output-tokens-resetファストモード出力トークン制限がリセットされる時刻

ティア別のレート制限については、レート制限ページを参照してください。

使用された速度の確認

レスポンスのusageオブジェクトには、使用された速度を示すspeedフィールドが含まれており、"fast"または"standard"のいずれかです:

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"
Output
{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

組織全体のファストモードの使用状況とコストを追跡するには、使用状況とコストAPIを参照してください。

リトライとフォールバック

自動リトライ

ファストモードのレート制限を超えると、APIはretry-afterヘッダーとともに429エラーを返します。Anthropic SDKは、デフォルトでこれらのリクエストを最大2回自動的にリトライします(max_retriesで設定可能)。各リトライの前にサーバーが指定した遅延を待ちます。ファストモードは継続的なトークン補充を使用するため、retry-afterの遅延は通常短く、容量が利用可能になるとリクエストは成功します。

標準速度へのフォールバック

ファストモードの容量を待つよりも標準速度にフォールバックしたい場合は、レート制限エラーをキャッチしてspeed: "fast"なしで再試行してください。最初のファストリクエストでmax_retriesを0に設定すると、自動リトライをスキップしてレート制限エラー時に即座に失敗します。

ファストから標準速度にフォールバックすると、プロンプトキャッシュのミスが発生します。異なる速度でのリクエストはキャッシュされたプレフィックスを共有しません。

max_retriesを0に設定すると、他の一時的なエラー(過負荷、内部サーバーエラー)のリトライも無効になるため、以下の例ではそれらのケースに対してデフォルトのリトライで元のリクエストを再発行します。

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

考慮事項

  • プロンプトキャッシュ: ファストと標準速度を切り替えると、プロンプトキャッシュが無効になります。異なる速度でのリクエストはキャッシュされたプレフィックスを共有しません。
  • サポートされているモデル: ファストモードは現在Opus 4.6のみでサポートされています。サポートされていないモデルでspeed: "fast"を送信するとエラーが返されます。
  • TTFT: ファストモードの恩恵は出力トークン毎秒(OTPS)に集中しており、最初のトークンまでの時間(TTFT)ではありません。
  • バッチAPI: ファストモードはバッチAPIでは利用できません。
  • 優先ティア: ファストモードは優先ティアでは利用できません。

次のステップ

価格

ファストモードの詳細な価格情報を確認してください。

レート制限

ファストモードのレート制限ティアを確認してください。

effortパラメータ

effortパラメータでトークン使用量を制御してください。

Was this page helpful?