Messagesモデルの機能

高速モード（リサーチプレビュー）

対応するClaude Opusモデルで、1秒あたりの出力トークン数を最大2.5倍に向上させます。

高速モードは、Claude Opus 4.8およびClaude Opus 4.7において、プレミアム価格で1秒あたりの出力トークン数を最大2.5倍に向上させます。リクエストにfast-mode-2026-02-01ベータヘッダーとともにspeed: "fast"を設定することでオプトインできます。

高速モードはリサーチプレビュー段階です。アクセスをリクエストするには、アカウントマネージャーにお問い合わせください。アカウントマネージャーがいない場合は、高速モードのウェイトリストに登録してください。

この機能はZero Data Retention（ZDR）の対象です。組織がZDR契約を締結している場合、この機能を通じて送信されたデータは、APIレスポンスが返された後に保存されることはありません。

対応モデル

高速モードは以下のモデルでサポートされています。

Claude Opus 4.8（claude-opus-4-8）
Claude Opus 4.7（claude-opus-4-7）

Claude Opus 4.8の高速モードは、Claude Managed Agentsを含むClaude APIでのみリサーチプレビューとして提供されます。Amazon Bedrock、Google Cloud、Microsoft Foundryでは利用できません。

Claude Opus 4.7の高速モードは2026年6月25日をもって非推奨となり、2026年7月24日に削除されます。削除後、speed: "fast"を指定したclaude-opus-4-7へのリクエストはエラーを返します。Claude Opus 4.6（次の注記を参照）とは異なり、Claude Opus 4.7は標準速度にフォールバックしません。モデル自体は標準速度で引き続き利用可能です。高速モードを引き続き使用するには、Claude Opus 4.8に移行してください。

2026年6月29日以降、Claude Opus 4.6では高速モードは利用できません。speed: "fast"を指定したclaude-opus-4-6へのリクエストはエラーを返しません。標準速度で実行され、高速モードのプレミアム料金ではなく標準料金で課金され、レスポンスにはusage.speed: "standard"が報告されます。高速モードを引き続き使用するには、Claude Opus 4.8に移行してください。

高速モードの仕組み

高速モードは、同じモデルをより高速な推論構成で実行します。知能や機能に変更はありません。

標準速度と比較して、1秒あたりの出力トークン数が最大2.5倍に向上
速度向上の効果は、「time to first token」（最初のトークンまでの時間）、すなわちTTFTではなく、「output tokens per second」（1秒あたりの出力トークン数）、すなわちOTPSに焦点を当てています
同じモデルの重みと動作（別のモデルではありません）
ストリーミングと互換性があり、OTPSの向上が最も顕著に現れます

基本的な使用方法

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

料金

高速モードは、コンテキストウィンドウ全体（20万入力トークンを超えるリクエストを含む）にわたって、標準料金に対するモデルごとの倍率で価格設定されています。次の表は、各対応モデルの高速モード料金を示しています。

モデル	入力	出力
Claude Opus 4.8	$10 / MTok	$50 / MTok
Claude Opus 4.7	$30 / MTok	$150 / MTok

高速モードの料金は、他の料金修飾子と重ねて適用されます。

プロンプトキャッシングの倍率は、高速モード料金の上に適用されます
データレジデンシーの倍率は、高速モード料金の上に適用されます

料金の詳細については、料金ページを参照してください。

レート制限

高速モードには、標準のOpusレート制限とは別の専用レート制限があります。高速モードのレート制限を超えると、APIは429エラーを返し、容量が利用可能になる時刻を示すretry-afterヘッダーを含めます。

レスポンスには、高速モードのレート制限ステータスを示すヘッダーが含まれます。

ヘッダー	説明
`anthropic-fast-input-tokens-limit`	1分あたりの高速モード入力トークンの最大数
`anthropic-fast-input-tokens-remaining`	残りの高速モード入力トークン数
`anthropic-fast-input-tokens-reset`	高速モード入力トークン制限がリセットされる時刻
`anthropic-fast-output-tokens-limit`	1分あたりの高速モード出力トークンの最大数
`anthropic-fast-output-tokens-remaining`	残りの高速モード出力トークン数
`anthropic-fast-output-tokens-reset`	高速モード出力トークン制限がリセットされる時刻

ティア別のレート制限については、レート制限ページを参照してください。

使用された速度の確認

レスポンスのusageオブジェクトには、使用された速度を示すspeedフィールドが含まれており、"fast"または"standard"のいずれかです。対応モデルでは、高速モードはレート制限や容量不足の際に標準速度へサイレントにフォールバックしません（代わりに429または529が返されます）。そのため、Claude Opus 4.8またはClaude Opus 4.7でspeed: "fast"をリクエストした場合、usage.speedは"fast"になります。高速モードが利用できないClaude Opus 4.6では、speed: "fast"を指定したリクエストは標準速度で実行され、usage.speed: "standard"が返されます。このフィールドを確認して、リクエストがどの速度で処理されたかを確認してください。

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

組織全体での高速モードの使用状況とコストを追跡するには、Usage and Cost APIを参照してください。

リトライとフォールバック

自動リトライ

高速モードのレート制限を超えると、APIはretry-afterヘッダーを含む429エラーを返します。Anthropic SDKは、デフォルトでこれらのリクエストを最大2回自動的にリトライし（max_retriesで設定可能）、各リトライの前にサーバーが指定した遅延時間だけ待機します。高速モードは継続的なトークン補充を使用するため、retry-afterの遅延は通常短く、容量が利用可能になるとリクエストは成功します。

標準速度へのフォールバック

このセクションでは、高速モードがレート制限された場合のオプトイン型クライアント側フォールバックについて説明します。これは、高速モードが利用できずリクエストが自動的に標準速度で実行されるClaude Opus 4.6の動作とは別のものです。

高速モードの容量を待つのではなく標準速度にフォールバックしたい場合は、レート制限エラーをキャッチし、speed: "fast"を指定せずにリトライしてください。最初の高速リクエストでmax_retriesを0に設定すると、自動リトライをスキップしてレート制限エラー時に即座に失敗します。

高速から標準速度へのフォールバックは、プロンプトキャッシュのミスを引き起こします。異なる速度でのリクエストは、キャッシュされたプレフィックスを共有しません。

max_retriesを0に設定すると、他の一時的なエラー（過負荷、内部サーバーエラー）に対するリトライも無効になるため、以下の例ではそれらのケースに対してデフォルトのリトライで元のリクエストを再発行しています。

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

考慮事項

プロンプトキャッシング： 高速と標準速度を切り替えると、プロンプトキャッシュが無効になります。異なる速度でのリクエストは、キャッシュされたプレフィックスを共有しません。
対応モデル： 高速モードはClaude Opus 4.8およびClaude Opus 4.7（高速モードは非推奨、2026年7月24日に削除予定、モデル自体には影響なし）でサポートされています。Claude Opus 4.6では、speed: "fast"を指定したリクエストはエラーを返さず、標準速度で実行され、標準料金で課金されます。その他のモデルでspeed: "fast"を送信するとエラーが返されます。
TTFT： 高速モードの効果は、最初のトークンまでの時間（TTFT）ではなく、1秒あたりの出力トークン数（OTPS）に焦点を当てています。
Batch API： 高速モードはBatch APIでは利用できません。
Priority Tier： 高速モードはPriority Tierコミットメントでは利用できません。
Claude Platform on AWS： 高速モードは現在、Claude Platform on AWSでは利用できません。

次のステップ

構造化出力

エージェントワークフローから検証済みのJSON結果を取得します。

料金

モデルと機能に関するAnthropicの料金体系について学びます。

Effort

effortパラメータを使用して、Claudeが応答時に使用するトークン数を制御し、応答の詳細さとトークン効率のバランスを調整します。

ストリーミングメッセージ

テキスト、ツール使用、拡張思考のデルタを含むMessages APIレスポンスを、サーバー送信イベントで段階的にストリーミングします。

Was this page helpful?

Messagesモデルの機能

高速モード（リサーチプレビュー）

対応するClaude Opusモデルで、1秒あたりの出力トークン数を最大2.5倍に向上させます。

対応モデル

高速モードは以下のモデルでサポートされています。

Claude Opus 4.8（claude-opus-4-8）
Claude Opus 4.7（claude-opus-4-7）

高速モードの仕組み

高速モードは、同じモデルをより高速な推論構成で実行します。知能や機能に変更はありません。

標準速度と比較して、1秒あたりの出力トークン数が最大2.5倍に向上
速度向上の効果は、「time to first token」（最初のトークンまでの時間）、すなわちTTFTではなく、「output tokens per second」（1秒あたりの出力トークン数）、すなわちOTPSに焦点を当てています
同じモデルの重みと動作（別のモデルではありません）
ストリーミングと互換性があり、OTPSの向上が最も顕著に現れます

基本的な使用方法

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

料金

モデル	入力	出力
Claude Opus 4.8	$10 / MTok	$50 / MTok
Claude Opus 4.7	$30 / MTok	$150 / MTok

高速モードの料金は、他の料金修飾子と重ねて適用されます。

プロンプトキャッシングの倍率は、高速モード料金の上に適用されます
データレジデンシーの倍率は、高速モード料金の上に適用されます

料金の詳細については、料金ページを参照してください。

レート制限

レスポンスには、高速モードのレート制限ステータスを示すヘッダーが含まれます。

ヘッダー	説明
`anthropic-fast-input-tokens-limit`	1分あたりの高速モード入力トークンの最大数
`anthropic-fast-input-tokens-remaining`	残りの高速モード入力トークン数
`anthropic-fast-input-tokens-reset`	高速モード入力トークン制限がリセットされる時刻
`anthropic-fast-output-tokens-limit`	1分あたりの高速モード出力トークンの最大数
`anthropic-fast-output-tokens-remaining`	残りの高速モード出力トークン数
`anthropic-fast-output-tokens-reset`	高速モード出力トークン制限がリセットされる時刻

ティア別のレート制限については、レート制限ページを参照してください。

使用された速度の確認

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

組織全体での高速モードの使用状況とコストを追跡するには、Usage and Cost APIを参照してください。

リトライとフォールバック

自動リトライ

標準速度へのフォールバック

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

考慮事項

プロンプトキャッシング： 高速と標準速度を切り替えると、プロンプトキャッシュが無効になります。異なる速度でのリクエストは、キャッシュされたプレフィックスを共有しません。
対応モデル： 高速モードはClaude Opus 4.8およびClaude Opus 4.7（高速モードは非推奨、2026年7月24日に削除予定、モデル自体には影響なし）でサポートされています。Claude Opus 4.6では、speed: "fast"を指定したリクエストはエラーを返さず、標準速度で実行され、標準料金で課金されます。その他のモデルでspeed: "fast"を送信するとエラーが返されます。
TTFT： 高速モードの効果は、最初のトークンまでの時間（TTFT）ではなく、1秒あたりの出力トークン数（OTPS）に焦点を当てています。
Batch API： 高速モードはBatch APIでは利用できません。
Priority Tier： 高速モードはPriority Tierコミットメントでは利用できません。
Claude Platform on AWS： 高速モードは現在、Claude Platform on AWSでは利用できません。

次のステップ

構造化出力

エージェントワークフローから検証済みのJSON結果を取得します。

料金

モデルと機能に関するAnthropicの料金体系について学びます。

Effort

effortパラメータを使用して、Claudeが応答時に使用するトークン数を制御し、応答の詳細さとトークン効率のバランスを調整します。

ストリーミングメッセージ

テキスト、ツール使用、拡張思考のデルタを含むMessages APIレスポンスを、サーバー送信イベントで段階的にストリーミングします。

Was this page helpful?

対応モデル

高速モードの仕組み

基本的な使用方法

料金

レート制限

使用された速度の確認

リトライとフォールバック

自動リトライ

標準速度へのフォールバック

考慮事項

次のステップ

対応モデル

高速モードの仕組み

基本的な使用方法

料金

レート制限

使用された速度の確認

リトライとフォールバック

自動リトライ

標準速度へのフォールバック

考慮事項

次のステップ

対応モデル

高速モードの仕組み

基本的な使用方法

料金

レート制限

使用された速度の確認

リトライとフォールバック

自動リトライ

標準速度へのフォールバック

考慮事項

次のステップ

対応モデル

高速モードの仕組み

基本的な使用方法

料金

レート制限

使用された速度の確認

リトライとフォールバック

自動リトライ

標準速度へのフォールバック

考慮事項

次のステップ