Loading...
    • 開発者ガイド
    • API リファレンス
    • MCP
    • リソース
    • リリースノート
    Search...
    ⌘K
    はじめに
    Claude の紹介クイックスタート
    モデルと料金
    モデル概要モデルの選び方Claude 4.6 の新機能移行ガイドモデルの廃止料金
    Claude で構築する
    機能概要Messages API の使用停止理由の処理プロンプトのベストプラクティス
    モデルの機能
    拡張思考適応型思考エフォート高速モード(リサーチプレビュー)構造化出力引用メッセージのストリーミングバッチ処理PDF サポート検索結果多言語サポートエンベディングビジョン
    ツール
    概要ツール使用の実装方法Web 検索ツールWeb フェッチツールコード実行ツールメモリツールBash ツールコンピュータ使用ツールテキストエディタツール
    ツールインフラストラクチャ
    ツール検索プログラムによるツール呼び出しきめ細かいツールストリーミング
    コンテキスト管理
    コンテキストウィンドウコンパクションコンテキスト編集プロンプトキャッシングトークンカウント
    ファイルとアセット
    Files API
    Agent Skills
    概要クイックスタートベストプラクティスエンタープライズ向け SkillsAPI での Skills の使用
    Agent SDK
    概要クイックスタートTypeScript SDKTypeScript V2(プレビュー)Python SDK移行ガイド
    API での MCP
    MCP コネクタリモート MCP サーバー
    サードパーティプラットフォームでの Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    プロンプトエンジニアリング
    概要プロンプトジェネレータープロンプトテンプレートの使用プロンプト改善ツール明確かつ直接的に例を使う(マルチショットプロンプティング)Claude に考えさせる(CoT)XML タグを使うClaude に役割を与える(システムプロンプト)複雑なプロンプトを連鎖させる長文コンテキストのヒント拡張思考のヒント
    テストと評価
    成功基準の定義テストケースの開発評価ツールの使用レイテンシの削減
    ガードレールの強化
    ハルシネーションの削減出力の一貫性を高めるジェイルブレイクの軽減ストリーミング拒否プロンプト漏洩の削減Claude をキャラクターに保つ
    管理とモニタリング
    Admin API 概要データレジデンシーワークスペース使用量とコスト APIClaude Code Analytics APIゼロデータリテンション
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    モデルの機能

    高速モード(リサーチプレビュー)

    Claude Opus 4.6の出力速度を向上させ、レイテンシに敏感なワークフローやエージェントワークフローに対して大幅に高速なトークン生成を実現します。

    高速モードは、Claude Opus 4.6の出力トークン生成を大幅に高速化します。APIリクエストで speed: "fast" を設定することで、同じモデルからプレミアム価格で最大2.5倍の出力トークン/秒を得ることができます。

    高速モードは現在リサーチプレビュー中です。アクセスをリクエストするにはウェイトリストに参加してください。フィードバックを収集している間、利用可能数は限られています。

    サポートされているモデル

    高速モードは以下のモデルでサポートされています:

    • Claude Opus 4.6 (claude-opus-4-6)

    高速モードの仕組み

    高速モードは、より高速な推論設定で同じモデルを実行します。知能や機能に変更はありません。

    • 標準速度と比較して最大2.5倍の出力トークン/秒
    • 速度の向上は出力トークン/秒(OTPS)に焦点を当てており、最初のトークンまでの時間(TTFT)ではありません
    • 同じモデルの重みと動作(異なるモデルではありません)

    基本的な使い方

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 4096,
            "speed": "fast",
            "messages": [{
                "role": "user",
                "content": "Refactor this module to use dependency injection"
            }]
        }'

    料金

    高速モードは、プロンプトが200Kトークン以下の場合は標準Opus料金の6倍、プロンプトが200Kトークンを超える場合は標準Opus料金の12倍で価格設定されています。以下の表は、高速モードを使用したClaude Opus 4.6の料金を示しています:

    コンテキストウィンドウ入力出力
    ≤ 200K 入力トークン$30 / MTok$150 / MTok
    > 200K 入力トークン$60 / MTok$225 / MTok

    高速モードの料金は他の料金修飾子と重複適用されます:

    • プロンプトキャッシュの乗数は高速モード料金の上に適用されます
    • データレジデンシーの乗数は高速モード料金の上に適用されます

    完全な料金の詳細については、料金ページをご覧ください。

    レート制限

    高速モードには、標準Opusのレート制限とは別の専用レート制限があります。標準速度では200K以下と200K超の入力トークンに対して別々の制限がありますが、高速モードではフルコンテキスト範囲をカバーする単一のレート制限を使用します。高速モードのレート制限を超えた場合、APIは容量が利用可能になる時刻を示す retry-after ヘッダー付きの 429 エラーを返します。

    レスポンスには、高速モードのレート制限ステータスを示すヘッダーが含まれます:

    ヘッダー説明
    anthropic-fast-input-tokens-limit1分あたりの高速モード入力トークンの最大数
    anthropic-fast-input-tokens-remaining残りの高速モード入力トークン数
    anthropic-fast-input-tokens-reset高速モード入力トークン制限がリセットされる時刻
    anthropic-fast-output-tokens-limit1分あたりの高速モード出力トークンの最大数
    anthropic-fast-output-tokens-remaining残りの高速モード出力トークン数
    anthropic-fast-output-tokens-reset高速モード出力トークン制限がリセットされる時刻

    ティア別のレート制限については、レート制限ページをご覧ください。

    使用された速度の確認

    レスポンスの usage オブジェクトには、使用された速度を示す speed フィールドが含まれ、"fast" または "standard" のいずれかです:

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 1024,
            "speed": "fast",
            "messages": [{"role": "user", "content": "Hello"}]
        }'
    
    {
      "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
      "type": "message",
      "role": "assistant",
      ...
      "usage": {
        "input_tokens": 523,
        "output_tokens": 1842,
        "speed": "fast"
      }
    }

    組織全体の高速モードの使用状況とコストを追跡するには、使用量とコストAPIをご覧ください。

    リトライとフォールバック

    自動リトライ

    高速モードのレート制限を超えた場合、APIは retry-after ヘッダー付きの 429 エラーを返します。Anthropic SDKはデフォルトでこれらのリクエストを最大2回自動的にリトライし(max_retries で設定可能)、各リトライの前にサーバー指定の遅延を待ちます。高速モードは継続的なトークン補充を使用するため、retry-after の遅延は通常短く、容量が利用可能になるとリクエストは成功します。

    標準速度へのフォールバック

    高速モードの容量を待つのではなく標準速度にフォールバックしたい場合は、レート制限エラーをキャッチして speed: "fast" なしでリトライしてください。最初の高速リクエストで max_retries を 0 に設定すると、自動リトライをスキップしてレート制限エラー時に即座に失敗します。

    高速から標準速度へのフォールバックは、プロンプトキャッシュミスを引き起こします。異なる速度のリクエストはキャッシュされたプレフィックスを共有しません。

    max_retries を 0 に設定すると、他の一時的なエラー(過負荷、内部サーバーエラー)のリトライも無効になるため、以下の例ではそれらのケースに対してデフォルトのリトライで元のリクエストを再発行します。

    import anthropic
    
    client = anthropic.Anthropic()
    
    
    def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
        try:
            return client.beta.messages.create(**params, max_retries=max_retries)
        except anthropic.RateLimitError:
            if params.get("speed") == "fast":
                del params["speed"]
                return create_message_with_fast_fallback(**params)
            raise
        except (
            anthropic.InternalServerError,
            anthropic.OverloadedError,
            anthropic.APIConnectionError,
        ):
            if max_attempts > 1:
                return create_message_with_fast_fallback(
                    max_attempts=max_attempts - 1, **params
                )
            raise
    
    
    message = create_message_with_fast_fallback(
        model="claude-opus-4-6",
        max_tokens=1024,
        messages=[{"role": "user", "content": "Hello"}],
        betas=["fast-mode-2026-02-01"],
        speed="fast",
        max_retries=0,
    )

    考慮事項

    • プロンプトキャッシュ: 高速と標準速度を切り替えるとプロンプトキャッシュが無効になります。異なる速度のリクエストはキャッシュされたプレフィックスを共有しません。
    • サポートされているモデル: 高速モードは現在Opus 4.6のみでサポートされています。サポートされていないモデルで speed: "fast" を送信するとエラーが返されます。
    • TTFT: 高速モードの利点は出力トークン/秒(OTPS)に焦点を当てており、最初のトークンまでの時間(TTFT)ではありません。
    • Batch API: 高速モードはBatch APIでは利用できません。
    • Priority Tier: 高速モードはPriority Tierでは利用できません。

    次のステップ

    料金

    高速モードの詳細な料金情報を確認できます。

    レート制限

    高速モードのレート制限ティアを確認できます。

    effortパラメータ

    effortパラメータでトークン使用量を制御できます。

    Was this page helpful?