「上下文窗口」是指語言模型在生成新文本時可以回顧和參考的全部文本量,加上它生成的新文本。這與語言模型訓練所用的大型數據語料庫不同,而是代表模型的「工作記憶」。較大的上下文窗口允許模型理解和回應更複雜和冗長的提示,而較小的上下文窗口可能會限制模型處理較長提示或在延長對話中保持連貫性的能力。
下圖說明了 API 請求的標準上下文窗口行為1:
1對於聊天介面,例如 claude.ai,上下文窗口也可以設置為滾動「先進先出」系統。
使用擴展思考時,所有輸入和輸出令牌,包括用於思考的令牌,都計入上下文窗口限制,在多回合情況下有一些細微差別。
思考預算令牌是您 max_tokens 參數的子集,作為輸出令牌計費,並計入速率限制。
但是,先前的思考塊由 Claude API 自動從上下文窗口計算中剝離,不是模型在後續回合中「看到」的對話歷史的一部分,為實際對話內容保留令牌容量。
下圖演示了啟用擴展思考時的專門令牌管理:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens。thinking 塊和 redacted_thinking 塊。此架構具有令牌效率,允許進行廣泛的推理而不浪費令牌,因為思考塊的長度可能很大。
您可以在我們的擴展思考指南中閱讀有關上下文窗口和擴展思考的更多信息。
下圖說明了結合擴展思考和工具使用時的上下文窗口令牌管理:
第一個回合架構
工具結果處理(回合 2)
tool_result。擴展思考塊必須與相應的工具結果一起返回。這是您必須返回思考塊的唯一情況。user 消息之前沒有額外的擴展思考)。第三步
User 回合的地方。User 回合,Claude 將生成新的擴展思考塊並從那裡繼續。Assistant 回合中的思考塊計為上下文窗口的一部分。context_window = input_tokens + current_turn_tokens。Claude Sonnet 4 和 4.5 支持 100 萬令牌的上下文窗口。此擴展上下文窗口允許您處理更大的文檔、維護更長的對話,並使用更廣泛的代碼庫。
1M 令牌上下文窗口目前在使用層級 4 的組織和具有自定義速率限制的組織中處於測試版。1M 令牌上下文窗口僅適用於 Claude Sonnet 4 和 Sonnet 4.5。
要使用 1M 令牌上下文窗口,請在您的 API 請求中包含 context-1m-2025-08-07 測試版標頭:
from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Process this large document..."}
],
betas=["context-1m-2025-08-07"]
)重要考慮事項:
Claude Sonnet 4.5 和 Claude Haiku 4.5 具有上下文感知功能,使這些模型能夠在整個對話中跟蹤其剩餘的上下文窗口(即「令牌預算」)。這使 Claude 能夠通過理解它有多少空間來工作,更有效地執行任務和管理上下文。Claude 本身經過訓練,可以精確使用此上下文來堅持任務直到最後,而不是猜測還有多少令牌剩餘。對於模型來說,缺乏上下文感知就像在沒有時鐘的烹飪節目中競爭。Claude 4.5 模型通過明確告知模型其剩餘上下文來改變這一點,以便它可以最大限度地利用可用令牌。
工作原理:
在對話開始時,Claude 會收到有關其總上下文窗口的信息:
<budget:token_budget>200000</budget:token_budget>預算設置為 200K 令牌(標準)、500K 令牌(Claude.ai 企業版)或 100 萬令牌(測試版,適用於符合條件的組織)。
在每次工具調用後,Claude 會收到剩餘容量的更新:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>此感知幫助 Claude 確定還有多少容量可用於工作,並在長時間運行的任務上實現更有效的執行。圖像令牌包含在這些預算中。
優勢:
上下文感知對以下方面特別有價值:
有關利用上下文感知的提示指導,請參閱我們的 Claude 4 最佳實踐指南。
在較新的 Claude 模型中(從 Claude Sonnet 3.7 開始),如果提示令牌和輸出令牌的總和超過模型的上下文窗口,系統將返回驗證錯誤,而不是無聲地截斷上下文。此更改提供了更可預測的行為,但需要更仔細的令牌管理。
要規劃您的令牌使用情況並確保您保持在上下文窗口限制內,您可以使用令牌計數 API 來估計您的消息在發送給 Claude 之前將使用多少令牌。
有關按模型的上下文窗口大小列表,請參閱我們的模型比較表。