Was this page helpful?
AWS 上的 Claude Platform: 本頁面的速率限制適用。帳單與支出限制有所不同:不提供支出限制,且帳單透過 AWS Marketplace 處理(而非 Anthropic 點數購買)。組織從 Tier 1 開始。速率限制的提升需透過您的 Anthropic 客戶代表處理;沒有自動層級晉升,也不提供個別工作區的速率限制設定。AWS 上的 Claude Platform 不提供快速模式。
限制分為兩種類型:
API 在組織層級強制執行服務設定的限制,但您也可以為組織的工作區設定使用者可配置的限制。
這些限制同時適用於 Standard 和 Priority Tier 的使用。如需更多關於 Priority Tier 的資訊(透過承諾支出換取更高的服務等級),請參閱服務層級。
每個使用層級都有每個日曆月可在 API 上支出的金額限制。一旦達到您所在層級的支出限制,在您符合下一層級的資格之前,您必須等到下個月才能再次使用 API。
要符合下一層級的資格,您必須滿足儲值要求。為了將帳戶超額儲值的風險降至最低,您的儲值金額不能超過您的每月支出限制。
| 使用層級 | 點數購買 | 最高點數購買 | 每月支出限制 |
|---|---|---|---|
| Tier 1 | $5 | $500 | $500 |
| Tier 2 | $40 | $500 | $500 |
| Tier 3 | $200 | $1,000 | $1,000 |
| Tier 4 | $400 | $200,000 | $200,000 |
| Monthly Invoicing | 不適用 | 不適用 | 無限制 |
點數購買顯示晉升至該層級所需的累計點數購買金額(不含稅)。達到門檻後即可立即晉升。
最高點數購買限制您在單次交易中可加入帳戶的最高金額,以防止帳戶超額儲值。
每月支出限制是您在該層級每個日曆月可在 API 上支出的最高金額。
您的組織有兩種支出限制:您可直接控制的客戶自訂限制,以及由您的使用層級設定的層級強制上限。兩者的提高流程不同。
您可以設定低於您層級上限的支出限制以控制成本。調整方式如下:
前往限制頁面
在 Claude Console 中前往設定 > 限制。
開啟支出限制編輯器
在支出限制區段中,點擊變更限制(若目前未設定限制,則點擊設定支出限制)。
調整您的支出限制
輸入新的數值。您的客戶自訂限制不能超過您目前層級的限制。
當您需要高於您層級上限的限制時(Tier 4 的上限為每月 $200,000),請在限制頁面點擊聯絡銷售團隊。這會在新分頁中開啟聯絡表單,當您的組織升級後,銷售團隊成員將透過電子郵件與您聯繫。
Monthly Invoicing 會完全移除每月支出上限,並預設使用 Net-30 付款條件。
支援團隊也可以提高層級強制限制。如有緊急需求,請聯絡支援團隊。
Messages API 的速率限制以每個模型類別的每分鐘請求數(RPM)、每分鐘輸入權杖數(ITPM)和每分鐘輸出權杖數(OTPM)來衡量。
如果您超過任何速率限制,您將收到 429 錯誤,說明超過了哪個速率限制,並附帶 retry-after 標頭指示需等待多久。
如果您的組織使用量急劇增加,您也可能因 API 的加速限制而遇到 429 錯誤。為避免觸及加速限制,請逐步增加您的流量並維持一致的使用模式。
許多 API 供應商使用合併的「每分鐘權杖數」(TPM)限制,可能包含所有權杖,無論是快取或未快取、輸入或輸出。對於大多數 Claude 模型,只有未快取的輸入權杖會計入您的 ITPM 速率限制。 這是一個關鍵優勢,使速率限制實際上比初看起來更高。
ITPM 速率限制會在每個請求開始時進行估算,並在請求過程中調整估算值以反映實際使用的輸入權杖數。
以下是計入 ITPM 的項目:
input_tokens(最後一個快取斷點之後的權杖)✓ 計入 ITPMcache_creation_input_tokens(正在寫入快取的權杖)✓ 計入 ITPMcache_read_input_tokens(從快取讀取的權杖)✗ 對於大多數模型不計入 ITPMinput_tokens 欄位僅代表出現在您最後一個快取斷點之後的權杖,而非您請求中的所有輸入權杖。計算總輸入權杖的方式如下:
total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens這表示當您有快取內容時,input_tokens 通常會遠小於您的總輸入。例如,若有一份 200k 權杖的快取文件和一個 50 權杖的使用者問題,即使總輸入為 200,050 個權杖,您會看到 input_tokens: 50。
就大多數模型的速率限制而言,只有 input_tokens + cache_creation_input_tokens 會計入您的 ITPM 限制,因此提示快取是提高有效吞吐量的有效方法。
範例:在 2,000,000 ITPM 限制和 80% 快取命中率的情況下,您實際上每分鐘可以處理 10,000,000 個總輸入權杖(200 萬未快取 + 800 萬快取),因為快取的權杖不計入您的速率限制。
Claude Haiku 3.5(在以下速率限制表格中標記為 †)也會將 cache_read_input_tokens 計入 ITPM 速率限制。
對於所有沒有 † 標記的模型,快取的輸入權杖不計入速率限制,且以較低的費率計費(基本輸入權杖價格的 10%)。這表示您可以透過使用提示快取來大幅提高有效吞吐量。
OTPM 速率限制會在產生輸出權杖時即時評估,僅計算實際產生的權杖。max_tokens 參數不會納入 OTPM 速率限制的計算,因此設定較高的 max_tokens 值不會對速率限制造成不利影響。
速率限制會針對每個模型分別套用;因此您可以同時使用不同的模型,直到各自的限制為止。 您可以在 Claude Console 中查看您目前的速率限制和行為,或使用 Rate Limits API 以程式化方式讀取已設定的限制。
速率限制目前在所有 inference_geo 值之間共用。使用 inference_geo: "us" 和 inference_geo: "global" 的請求會從同一個速率限制池中扣除。
* - Opus 速率限制是一個總限制,適用於 Claude Opus 4.8、Opus 4.7、Opus 4.6、Opus 4.5 和 Opus 4.1(已棄用)的合併流量。
** - Sonnet 4.x 速率限制是一個總限制,適用於 Sonnet 4.6 和 Sonnet 4.5 的合併流量。
† - 此限制會將 cache_read_input_tokens 計入 ITPM 使用量。
Message Batches API 有自己的一組速率限制,在所有模型之間共用。這些限制包括對所有 API 端點的每分鐘請求數(RPM)限制,以及可同時在處理佇列中的批次請求數量限制。此處的「批次請求」是指 Message Batch 的一部分。您可以建立包含數千個批次請求的 Message Batch,每個批次請求都會計入此限制。當批次請求尚未被模型成功處理時,即視為處於處理佇列中。
Claude 受管理的代理端點的速率限制以組織為單位。這些限制與上述 Messages API 速率限制是分開的。
| 操作 | 限制 |
|---|---|
| 建立端點(例如代理、工作階段和環境) | 每分鐘 300 個請求 |
| 讀取端點(例如擷取、列出和串流) | 每分鐘 600 個請求 |
在 Claude Opus 4.8、Opus 4.7 或 Opus 4.6 上使用快速模式(研究預覽)並設定 speed: "fast" 時,會套用與標準 Opus 速率限制分開的專用速率限制。當超過快速模式速率限制時,API 會回傳 429 錯誤並附帶 retry-after 標頭。
回應中包含 anthropic-fast-* 標頭,指示您的快速模式速率限制狀態。有關這些標頭的詳細資訊,請參閱快速模式。
您可以在 Claude Console 的使用量頁面監控您的速率限制使用情況。
除了提供權杖和請求圖表外,使用量頁面還提供兩個獨立的速率限制圖表。使用這些圖表來查看您還有多少成長空間、何時可能達到使用高峰、更清楚了解應請求哪些速率限制,或如何改善您的快取率。這些圖表會視覺化呈現特定速率限制(例如每個模型)的多項指標:
如需更多關於工作區的資訊,請參閱工作區。
為了保護您組織中的工作區免於潛在的過度使用,您可以為每個工作區設定自訂的支出和速率限制。
範例:如果您組織的限制為每分鐘 40,000 個輸入權杖和每分鐘 8,000 個輸出權杖,您可以將一個工作區限制為每分鐘 30,000 個輸入權杖。這可以保護其他工作區免於潛在的過度使用,並確保資源在您的組織中更公平地分配。剩餘未使用的每分鐘權杖(如果該工作區未用完限制,則會更多)即可供其他工作區使用。
注意:
若要以程式化方式讀取您目前的組織和工作區速率限制,請使用 Rate Limits API。
API 回應包含標頭,顯示強制執行的速率限制、目前使用量以及限制何時重置。
回傳的標頭如下:
| 標頭 | 說明 |
|---|---|
retry-after | 您可以重試請求前需等待的秒數。提早重試將會失敗。 |
anthropic-ratelimit-requests-limit | 在任何速率限制期間內允許的最大請求數。 |
anthropic-ratelimit-requests-remaining | 在被速率限制之前剩餘的請求數。 |
anthropic-ratelimit-requests-reset | 請求速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-ratelimit-tokens-limit | 在任何速率限制期間內允許的最大權杖數。 |
anthropic-ratelimit-tokens-remaining | 在被速率限制之前剩餘的權杖數(四捨五入至最接近的千位數)。 |
anthropic-ratelimit-tokens-reset | 權杖速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-ratelimit-tokens-* 標頭顯示目前生效的最嚴格限制的數值。例如,如果您已超過工作區的每分鐘權杖限制,標頭將包含工作區每分鐘權杖速率限制的數值。如果工作區限制不適用,標頭將回傳剩餘的總權杖數,其中總數為輸入和輸出權杖的總和。此方法可確保您能清楚了解目前 API 使用上最相關的限制。
anthropic-ratelimit-input-tokens-limit| 在任何速率限制期間內允許的最大輸入權杖數。 |
anthropic-ratelimit-input-tokens-remaining | 在被速率限制之前剩餘的輸入權杖數(四捨五入至最接近的千位數)。 |
anthropic-ratelimit-input-tokens-reset | 輸入權杖速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-ratelimit-output-tokens-limit | 在任何速率限制期間內允許的最大輸出權杖數。 |
anthropic-ratelimit-output-tokens-remaining | 在被速率限制之前剩餘的輸出權杖數(四捨五入至最接近的千位數)。 |
anthropic-ratelimit-output-tokens-reset | 輸出權杖速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-priority-input-tokens-limit | 在任何速率限制期間內允許的最大 Priority Tier 輸入權杖數。(僅限 Priority Tier) |
anthropic-priority-input-tokens-remaining | 在被速率限制之前剩餘的 Priority Tier 輸入權杖數(四捨五入至最接近的千位數)。(僅限 Priority Tier) |
anthropic-priority-input-tokens-reset | Priority Tier 輸入權杖速率限制將完全補充的時間,以 RFC 3339 格式提供。(僅限 Priority Tier) |
anthropic-priority-output-tokens-limit | 在任何速率限制期間內允許的最大 Priority Tier 輸出權杖數。(僅限 Priority Tier) |
anthropic-priority-output-tokens-remaining | 在被速率限制之前剩餘的 Priority Tier 輸出權杖數(四捨五入至最接近的千位數)。(僅限 Priority Tier) |
anthropic-priority-output-tokens-reset | Priority Tier 輸出權杖速率限制將完全補充的時間,以 RFC 3339 格式提供。(僅限 Priority Tier) |