快速模式以進階定價為 Claude Opus 4.8、Claude Opus 4.7 和 Claude Opus 4.6 提供顯著更快的輸出 token 生成。在您的 API 請求中設定 speed: "fast" 即可啟用。快速模式可從相同模型提供高達 2.5 倍的每秒輸出 token 數。
快速模式目前處於研究預覽階段。請聯絡您的客戶經理以申請存取權限。如果您沒有客戶經理,請加入等候名單以申請快速模式。
此功能符合「Zero Data Retention」(零資料保留),即 ZDR 的資格。當您的組織具有 ZDR 安排時,透過此功能傳送的資料在 API 回應返回後不會被儲存。
快速模式支援以下模型:
Claude Opus 4.8 的快速模式僅在 Claude API(包括 Claude Managed Agents)上以研究預覽形式推出。它不適用於第三方平台,包括 Vertex AI、Amazon Bedrock 和 Microsoft Foundry。
Claude Opus 4.6 的快速模式自 Claude Opus 4.8 推出起已被棄用,並將在約 30 天後移除。移除後,對 claude-opus-4-6 使用 speed: "fast" 的請求將回退至標準速度並採用標準定價,而非回傳錯誤。請遷移至 Claude Opus 4.8 或 Claude Opus 4.7 的快速模式以保持加速效果。
快速模式以更快的推論配置執行相同的模型。智慧或能力不會有任何變化。
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-8",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)快速模式的定價是在整個上下文視窗(包括超過 20 萬個輸入 token 的請求)的標準費率基礎上,依各模型套用倍數。下表顯示每個支援模型的快速模式定價:
| 模型 | 輸入 | 輸出 |
|---|---|---|
| Claude Opus 4.6 / Claude Opus 4.7 | $30 / MTok | $150 / MTok |
| Claude Opus 4.8 | $10 / MTok | $50 / MTok |
快速模式定價會與其他定價修飾符疊加:
如需完整的定價詳情,請參閱定價頁面。
快速模式有專屬的速率限制,與標準 Opus 速率限制分開計算。當您超過快速模式速率限制時,API 會回傳 429 錯誤,並附帶 retry-after 標頭,指示何時會有可用容量。
回應包含指示您快速模式速率限制狀態的標頭:
| 標頭 | 說明 |
|---|---|
anthropic-fast-input-tokens-limit | 每分鐘快速模式輸入 token 上限 |
anthropic-fast-input-tokens-remaining | 剩餘的快速模式輸入 token |
anthropic-fast-input-tokens-reset | 快速模式輸入 token 限制重置的時間 |
anthropic-fast-output-tokens-limit | 每分鐘快速模式輸出 token 上限 |
anthropic-fast-output-tokens-remaining | 剩餘的快速模式輸出 token |
anthropic-fast-output-tokens-reset | 快速模式輸出 token 限制重置的時間 |
如需各層級的速率限制,請參閱速率限制頁面。
回應的 usage 物件包含一個 speed 欄位,指示使用了哪種速度,值為 "fast" 或 "standard":
response = client.beta.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 8,
"output_tokens": 12,
"speed": "fast"
}
}若要追蹤整個組織的快速模式使用量和成本,請參閱 Usage and Cost API。
當超過快速模式速率限制時,API 會回傳 429 錯誤並附帶 retry-after 標頭。Anthropic SDK 預設會自動重試這些請求最多 2 次(可透過 max_retries 設定),並在每次重試前等待伺服器指定的延遲時間。由於快速模式使用連續 token 補充機制,retry-after 延遲通常很短,一旦有可用容量,請求即會成功。
如果您希望回退至標準速度而非等待快速模式容量,請捕捉速率限制錯誤並在不使用 speed: "fast" 的情況下重試。在初始快速請求上將 max_retries 設為 0,以跳過自動重試並在遇到速率限制錯誤時立即失敗。
從快速模式回退至標準速度將導致提示快取未命中。不同速度的請求不會共用快取的前綴。
由於將 max_retries 設為 0 也會停用其他暫時性錯誤(過載、內部伺服器錯誤)的重試,以下範例會針對這些情況以預設重試設定重新發出原始請求。
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
try:
return client.with_options(max_retries=max_retries).beta.messages.create(
**params
)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(max_retries=max_retries, **params)
raise
except (
anthropic.APIStatusError,
anthropic.APIConnectionError,
) as error:
if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
raise
if max_attempts > 1:
return create_message_with_fast_fallback(
max_retries=max_retries, max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-8",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" 會回傳錯誤。Was this page helpful?