速率限制

AWS 上的 Claude Platform： 本頁面的速率限制適用。帳單與支出限制有所不同：不提供支出限制，且帳單透過 AWS Marketplace 處理（而非 Anthropic 點數購買）。組織從 Tier 1 開始。速率限制的提升需透過您的 Anthropic 客戶代表處理；沒有自動層級晉升，也不提供個別工作區的速率限制設定。AWS 上的 Claude Platform 不提供快速模式。

限制分為兩種類型：

支出限制設定組織每月在 API 使用上可產生的最高費用。
速率限制設定組織在特定時間段內可發出的 API 請求數量上限。

API 在組織層級強制執行服務設定的限制，但您也可以為組織的工作區設定使用者可配置的限制。

這些限制同時適用於 Standard 和 Priority Tier 的使用。如需更多關於 Priority Tier 的資訊（透過承諾支出換取更高的服務等級），請參閱服務層級。

關於速率限制

限制的設計旨在防止 API 濫用，同時將對常見客戶使用模式的影響降至最低。
限制依使用層級定義，每個層級對應不同的支出與速率限制組合。
當您在使用 API 時達到特定門檻，您的組織將自動提升層級。限制設定於組織層級。您可以在 Claude Console 的限制頁面查看您組織的限制。
您可能會在較短的時間間隔內觸及速率限制。例如，每分鐘 60 個請求（RPM）的速率可能會以每秒 1 個請求的方式強制執行。短時間內的大量請求可能會超過限制並觸發速率限制錯誤。
以下列出的限制為標準層級限制。如果您需要更高的自訂限制或 Priority Tier 以獲得更高的服務等級，請在限制頁面聯絡銷售團隊。
API 使用「token bucket algorithm」（權杖桶演算法）進行速率限制。這表示您的容量會持續補充至最大限制，而非在固定間隔重置。
此處描述的所有限制均代表允許的最大使用量，而非保證的最低值。這些限制旨在減少非預期的超支，並確保資源在使用者之間公平分配。

支出限制

每個使用層級都有每個日曆月可在 API 上支出的金額限制。一旦達到您所在層級的支出限制，在您符合下一層級的資格之前，您必須等到下個月才能再次使用 API。

要符合下一層級的資格，您必須滿足儲值要求。為了將帳戶超額儲值的風險降至最低，您的儲值金額不能超過您的每月支出限制。

晉升層級的要求

使用層級	點數購買	最高點數購買	每月支出限制
Tier 1	$5	$500	$500
Tier 2	$40	$500	$500
Tier 3	$200	$1,000	$1,000
Tier 4	$400	$200,000	$200,000
Monthly Invoicing	不適用	不適用	無限制

點數購買顯示晉升至該層級所需的累計點數購買金額（不含稅）。達到門檻後即可立即晉升。

最高點數購買限制您在單次交易中可加入帳戶的最高金額，以防止帳戶超額儲值。

每月支出限制是您在該層級每個日曆月可在 API 上支出的最高金額。

提高您的支出限制

您的組織有兩種支出限制：您可直接控制的客戶自訂限制，以及由您的使用層級設定的層級強制上限。兩者的提高流程不同。

客戶自訂支出限制

您可以設定低於您層級上限的支出限制以控制成本。調整方式如下：

前往限制頁面
在 Claude Console 中前往設定 > 限制。
開啟支出限制編輯器
在支出限制區段中，點擊變更限制（若目前未設定限制，則點擊設定支出限制）。
調整您的支出限制
輸入新的數值。您的客戶自訂限制不能超過您目前層級的限制。

層級強制支出限制

當您需要高於您層級上限的限制時（Tier 4 的上限為每月 $200,000），請在限制頁面點擊聯絡銷售團隊。這會在新分頁中開啟聯絡表單，當您的組織升級後，銷售團隊成員將透過電子郵件與您聯繫。

Monthly Invoicing 會完全移除每月支出上限，並預設使用 Net-30 付款條件。

支援團隊也可以提高層級強制限制。如有緊急需求，請聯絡支援團隊。

Messages API 的速率限制以每個模型類別的每分鐘請求數（RPM）、每分鐘輸入權杖數（ITPM）和每分鐘輸出權杖數（OTPM）來衡量。如果您超過任何速率限制，您將收到 429 錯誤，說明超過了哪個速率限制，並附帶 retry-after 標頭指示需等待多久。

如果您的組織使用量急劇增加，您也可能因 API 的加速限制而遇到 429 錯誤。為避免觸及加速限制，請逐步增加您的流量並維持一致的使用模式。

快取感知的 ITPM

許多 API 供應商使用合併的「每分鐘權杖數」（TPM）限制，可能包含所有權杖，無論是快取或未快取、輸入或輸出。對於大多數 Claude 模型，只有未快取的輸入權杖會計入您的 ITPM 速率限制。 這是一個關鍵優勢，使速率限制實際上比初看起來更高。

ITPM 速率限制會在每個請求開始時進行估算，並在請求過程中調整估算值以反映實際使用的輸入權杖數。

以下是計入 ITPM 的項目：

input_tokens（最後一個快取斷點之後的權杖）✓ 計入 ITPM
cache_creation_input_tokens（正在寫入快取的權杖）✓ 計入 ITPM
cache_read_input_tokens（從快取讀取的權杖）✗ 對於大多數模型不計入 ITPM

input_tokens 欄位僅代表出現在您最後一個快取斷點之後的權杖，而非您請求中的所有輸入權杖。計算總輸入權杖的方式如下：

total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens

這表示當您有快取內容時，input_tokens 通常會遠小於您的總輸入。例如，若有一份 200k 權杖的快取文件和一個 50 權杖的使用者問題，即使總輸入為 200,050 個權杖，您會看到 input_tokens: 50。

就大多數模型的速率限制而言，只有 input_tokens + cache_creation_input_tokens 會計入您的 ITPM 限制，因此提示快取是提高有效吞吐量的有效方法。

範例：在 2,000,000 ITPM 限制和 80% 快取命中率的情況下，您實際上每分鐘可以處理 10,000,000 個總輸入權杖（200 萬未快取 + 800 萬快取），因為快取的權杖不計入您的速率限制。

Claude Haiku 3.5（在以下速率限制表格中標記為 †）也會將 cache_read_input_tokens 計入 ITPM 速率限制。

對於所有沒有 † 標記的模型，快取的輸入權杖不計入速率限制，且以較低的費率計費（基本輸入權杖價格的 10%）。這表示您可以透過使用提示快取來大幅提高有效吞吐量。

透過提示快取最大化您的速率限制

為了充分利用您的速率限制，請對重複內容使用提示快取，例如：

系統指令和提示
大型上下文文件
工具定義
對話歷史記錄

透過有效的快取，您可以在不提高速率限制的情況下大幅增加實際吞吐量。在使用量頁面監控您的快取命中率，以最佳化您的快取策略。

OTPM 速率限制會在產生輸出權杖時即時評估，僅計算實際產生的權杖。max_tokens 參數不會納入 OTPM 速率限制的計算，因此設定較高的 max_tokens 值不會對速率限制造成不利影響。

速率限制會針對每個模型分別套用；因此您可以同時使用不同的模型，直到各自的限制為止。您可以在 Claude Console 中查看您目前的速率限制和行為，或使用 Rate Limits API 以程式化方式讀取已設定的限制。

速率限制目前在所有 inference_geo 值之間共用。使用 inference_geo: "us" 和 inference_geo: "global" 的請求會從同一個速率限制池中扣除。

^{* - Opus 速率限制是一個總限制，適用於 Claude Opus 4.8、Opus 4.7、Opus 4.6、Opus 4.5 和 Opus 4.1（已棄用）的合併流量。}

^{** - Sonnet 4.x 速率限制是一個總限制，適用於 Sonnet 4.6 和 Sonnet 4.5 的合併流量。}

^{† - 此限制會將 cache_read_input_tokens 計入 ITPM 使用量。}

Message Batches API

Message Batches API 有自己的一組速率限制，在所有模型之間共用。這些限制包括對所有 API 端點的每分鐘請求數（RPM）限制，以及可同時在處理佇列中的批次請求數量限制。此處的「批次請求」是指 Message Batch 的一部分。您可以建立包含數千個批次請求的 Message Batch，每個批次請求都會計入此限制。當批次請求尚未被模型成功處理時，即視為處於處理佇列中。

受管理的代理

Claude 受管理的代理端點的速率限制以組織為單位。這些限制與上述 Messages API 速率限制是分開的。

操作	限制
建立端點（例如代理、工作階段和環境）	每分鐘 300 個請求
讀取端點（例如擷取、列出和串流）	每分鐘 600 個請求

快速模式速率限制

在 Claude Opus 4.8、Opus 4.7 或 Opus 4.6 上使用快速模式（研究預覽）並設定 speed: "fast" 時，會套用與標準 Opus 速率限制分開的專用速率限制。當超過快速模式速率限制時，API 會回傳 429 錯誤並附帶 retry-after 標頭。

回應中包含 anthropic-fast-* 標頭，指示您的快速模式速率限制狀態。有關這些標頭的詳細資訊，請參閱快速模式。

在 Console 中監控您的速率限制

您可以在 Claude Console 的使用量頁面監控您的速率限制使用情況。

除了提供權杖和請求圖表外，使用量頁面還提供兩個獨立的速率限制圖表。使用這些圖表來查看您還有多少成長空間、何時可能達到使用高峰、更清楚了解應請求哪些速率限制，或如何改善您的快取率。這些圖表會視覺化呈現特定速率限制（例如每個模型）的多項指標：

速率限制 - 輸入權杖圖表包含：
- 每小時的每分鐘最大未快取輸入權杖數
- 您目前的每分鐘輸入權杖速率限制
- 您輸入權杖的快取率（即從快取讀取的輸入權杖百分比）
速率限制 - 輸出權杖圖表包含：
- 每小時的每分鐘最大輸出權杖數
- 您目前的每分鐘輸出權杖速率限制

為工作區設定較低的限制

如需更多關於工作區的資訊，請參閱工作區。

為了保護您組織中的工作區免於潛在的過度使用，您可以為每個工作區設定自訂的支出和速率限制。

範例：如果您組織的限制為每分鐘 40,000 個輸入權杖和每分鐘 8,000 個輸出權杖，您可以將一個工作區限制為每分鐘 30,000 個輸入權杖。這可以保護其他工作區免於潛在的過度使用，並確保資源在您的組織中更公平地分配。剩餘未使用的每分鐘權杖（如果該工作區未用完限制，則會更多）即可供其他工作區使用。

注意：

您無法對預設工作區設定限制。
如果未設定，工作區限制會與組織的限制相同。
工作區限制是依限制器類型設定的（例如每分鐘請求數、每分鐘輸入權杖數或每分鐘輸出權杖數）。
即使工作區限制加總超過組織限制，組織層級的限制仍始終適用。

若要以程式化方式讀取您目前的組織和工作區速率限制，請使用 Rate Limits API。

回應標頭

API 回應包含標頭，顯示強制執行的速率限制、目前使用量以及限制何時重置。

回傳的標頭如下：

標頭	說明
`retry-after`	您可以重試請求前需等待的秒數。提早重試將會失敗。
`anthropic-ratelimit-requests-limit`	在任何速率限制期間內允許的最大請求數。
`anthropic-ratelimit-requests-remaining`	在被速率限制之前剩餘的請求數。
`anthropic-ratelimit-requests-reset`	請求速率限制將完全補充的時間，以 RFC 3339 格式提供。
`anthropic-ratelimit-tokens-limit`	在任何速率限制期間內允許的最大權杖數。
`anthropic-ratelimit-tokens-remaining`	在被速率限制之前剩餘的權杖數（四捨五入至最接近的千位數）。
`anthropic-ratelimit-tokens-reset`	權杖速率限制將完全補充的時間，以 RFC 3339 格式提供。

anthropic-ratelimit-tokens-* 標頭顯示目前生效的最嚴格限制的數值。例如，如果您已超過工作區的每分鐘權杖限制，標頭將包含工作區每分鐘權杖速率限制的數值。如果工作區限制不適用，標頭將回傳剩餘的總權杖數，其中總數為輸入和輸出權杖的總和。此方法可確保您能清楚了解目前 API 使用上最相關的限制。

anthropic-ratelimit-input-tokens-limit

關於速率限制

支出限制

晉升層級的要求

提高您的支出限制

客戶自訂支出限制

層級強制支出限制

速率限制

快取感知的 ITPM

Message Batches API

受管理的代理

快速模式速率限制

在 Console 中監控您的速率限制

為工作區設定較低的限制

回應標頭

關於速率限制

支出限制

晉升層級的要求

提高您的支出限制

客戶自訂支出限制

層級強制支出限制

速率限制

快取感知的 ITPM

Message Batches API

受管理的代理

快速模式速率限制

在 Console 中監控您的速率限制

為工作區設定較低的限制

回應標頭