Claude 可以透過電腦使用工具與電腦環境互動,該工具提供螢幕截圖功能以及滑鼠/鍵盤控制,以實現自主的桌面互動。在 WebArena(一個針對真實網站自主網頁導航的基準測試)上,Claude 在單一代理系統中取得了最先進的成果,展現出端對端完成多步驟瀏覽器任務的強大能力。
電腦使用功能目前處於測試階段,需要使用 beta header:
"computer-use-2025-11-24" 適用於 Claude Opus 4.8、Claude Opus 4.7、Claude Opus 4.6、Claude Sonnet 4.6 和 Claude Opus 4.5"computer-use-2025-01-24" 適用於 Claude Sonnet 4.5、Claude Haiku 4.5、Claude Opus 4.1(已棄用)、Claude Sonnet 4(已停用,Bedrock 和 Vertex AI 除外)以及 Claude Opus 4(已停用,Vertex AI 除外)請透過意見回饋表單分享您對此功能的意見。
此功能符合「Zero Data Retention」(零資料保留),即 ZDR 的資格。當您的組織具有 ZDR 安排時,透過此功能傳送的資料在 API 回應返回後不會被儲存。
電腦使用是一項測試版功能,可讓 Claude 與桌面環境互動。此工具提供:
雖然電腦使用可以搭配其他工具(例如 bash 和文字編輯器)來實現更全面的自動化工作流程,但電腦使用特指電腦使用工具查看和控制桌面環境的能力。
如需模型支援資訊,請參閱工具參考。
電腦使用是一項測試版功能,具有與標準 API 功能不同的獨特風險。當與網際網路互動時,這些風險會更加顯著。
為了將風險降至最低,請考慮採取以下預防措施:
在某些情況下,即使與使用者的指示相衝突,Claude 仍會遵循內容中找到的命令。例如,網頁上或圖片中包含的 Claude 指示可能會覆蓋原有指示或導致 Claude 出錯。請採取預防措施,將 Claude 與敏感資料和操作隔離,以避免與提示注入(prompt injection)相關的風險。
Anthropic 已訓練模型抵禦這些提示注入,並增加了額外的防禦層。如果您使用電腦使用工具,分類器將自動在您的提示上執行,以標記潛在的提示注入實例。當這些分類器在螢幕截圖中識別出潛在的提示注入時,它們會自動引導模型在繼續下一個動作之前要求使用者確認。這種額外保護並非適用於所有使用案例(例如,沒有人工介入的使用案例),因此如果您想選擇退出並關閉此功能,請聯絡支援團隊。
即使有分類器防禦層,這些預防措施仍然很重要。
在您自己的產品中啟用電腦使用之前,請告知終端使用者相關風險並取得他們的同意。
開始使用電腦使用參考實作,其中包含網頁介面、Docker 容器、範例工具實作和代理迴圈。
以下是開始使用電腦使用的方法:
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-8", # or another compatible model
max_tokens=1024,
tools=[
{
"type": "computer_20251124",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1,
},
{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
{"type": "bash_20250124", "name": "bash"},
],
messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
betas=["computer-use-2025-11-24"],
)
print(response)只有電腦使用工具需要 beta header。
前面的範例展示了三個工具一起使用的情況,由於包含了電腦使用工具,因此需要 beta header。
向 Claude 提供電腦使用工具和使用者提示
Claude 選擇電腦使用工具
stop_reason 為 tool_use,表示這是一個工具使用請求。提取工具輸入、在電腦上評估工具並回傳結果
tool_result 內容區塊的新 user 訊息繼續對話。Claude 持續呼叫電腦使用工具,直到完成任務
tool_use stop_reason 回應,您應該回到步驟 3。在沒有使用者輸入的情況下重複步驟 3 和 4 稱為「代理迴圈」(agent loop),也就是 Claude 以工具使用請求回應,而您的應用程式以評估該請求的結果回應 Claude。
電腦使用需要一個沙箱運算環境,讓 Claude 可以安全地與應用程式和網路互動。此環境包括:
虛擬顯示器: 一個虛擬 X11 顯示伺服器(使用 Xvfb),用於渲染 Claude 透過螢幕截圖查看並以滑鼠/鍵盤動作控制的桌面介面。
桌面環境: 在 Linux 上執行的輕量級 UI,包含視窗管理器(Mutter)和面板(Tint2),為 Claude 提供一致的圖形介面以進行互動。
應用程式: 預先安裝的 Linux 應用程式,例如 Firefox、LibreOffice、文字編輯器和檔案管理器,Claude 可以使用這些應用程式來完成任務。
工具實作: 將 Claude 的抽象工具請求(例如「移動滑鼠」或「擷取螢幕截圖」)轉換為虛擬環境中實際操作的整合程式碼。
代理迴圈: 一個處理 Claude 與環境之間通訊的程式,將 Claude 的動作傳送到環境,並將結果(螢幕截圖、命令輸出)回傳給 Claude。
當您使用電腦使用時,Claude 不會直接連接到此環境。相反地,您的應用程式會:
為了安全性和隔離性,參考實作在 Docker 容器內執行所有這些操作,並具有適當的連接埠對應,以便查看環境並與之互動。
我們提供了一個參考實作,其中包含開始使用電腦使用所需的一切:
電腦使用的核心是「代理迴圈」:一個循環,其中 Claude 請求工具動作,您的應用程式執行這些動作,並將結果回傳給 Claude。以下是一個簡化的範例:
迴圈會持續進行,直到 Claude 在不請求任何工具的情況下回應(任務完成),或達到最大迭代限制。此保護措施可防止潛在的無限迴圈,避免產生意外的 API 費用。
在閱讀本文件的其餘部分之前,請先試用參考實作。
以下是一些獲得最佳品質輸出的提示:
After each step, take a screenshot and carefully evaluate if you have achieved the right outcome. Explicitly show your thinking: "I have evaluated step X..." If not correct, try again. Only when you confirm a step was executed correctly should you move on to the next one.<robot_credentials>)提供使用者名稱和密碼。在需要登入的應用程式中使用電腦使用會增加因提示注入而導致不良結果的風險。在向模型提供登入憑證之前,請先檢閱緩解越獄和提示注入。content 陣列時,請將指示文字放在螢幕截圖圖片之前。在處理圖片之前提供目標描述可提高點擊準確度。enable_zoom: true 的 computer_20251124 時,如果被詢問在螢幕截圖預設解析度下無法辨識的小型文字或特定 UI 元素(例如側邊欄中的檔案名稱、分頁標題、狀態列文字、行號或按鈕標籤),Claude 會放大某個區域。如果 Claude 沒有在您預期的情況下進行放大,請詢問特定區域或元素,而非整個螢幕。如果您反覆遇到一組明確的問題,或事先知道 Claude 需要完成的任務,請使用系統提示向 Claude 提供明確的提示或指示,說明如何成功完成這些任務。
對於跨越多個工作階段的代理,請在每個工作階段開始時執行端對端驗證,而不僅僅是在實作之後。基於瀏覽器的檢查可以捕捉到僅靠程式碼層級審查會遺漏的先前工作階段的回歸問題。詳情請參閱 Effective harnesses for long-running agents。
當透過 Claude API 請求其中一個 Anthropic 結構描述工具時,會產生一個電腦使用專用的系統提示。它類似於工具使用系統提示,但開頭為:
You have access to a set of functions you can use to answer the user's question. This includes access to a sandboxed computing environment. You do NOT currently have the ability to inspect files or interact with external resources, except by invoking the below functions.
與一般工具使用一樣,使用者提供的 system_prompt 欄位仍會被採用,並用於建構組合的系統提示。
電腦使用工具支援以下動作:
基本動作(所有版本)
[x, y] 處點擊增強動作(computer_20250124)
適用於所有支援電腦使用的模型:
增強動作(computer_20251124)
適用於 Claude Opus 4.8、Claude Opus 4.7、Claude Opus 4.6、Claude Sonnet 4.6 和 Claude Opus 4.5:
computer_20250124 的所有動作enable_zoom: true。接受一個 region 參數,其座標 [x1, y1, x2, y2] 定義要檢查區域的左上角和右下角。| 參數 | 必填 | 說明 |
|---|---|---|
type | 是 | 工具版本(computer_20251124 或 computer_20250124) |
name | 是 | 必須為 "computer" |
display_width_px | 是 | 顯示器寬度(像素) |
display_height_px | 是 | 顯示器高度(像素) |
display_number | 否 | X11 環境的顯示器編號 |
enable_zoom | 否 | 啟用放大動作(僅限 computer_20251124)。設定為 true 以允許 Claude 放大特定螢幕區域。預設值:false |
重要: 您的應用程式必須明確執行電腦使用工具;Claude 無法直接執行它。您需負責根據 Claude 的請求實作螢幕截圖擷取、滑鼠移動、鍵盤輸入和其他動作。
如需將電腦使用與擴展思考結合使用,請參閱擴展思考。
特別針對電腦使用,內部基準測試建議以下 effort 設定:
high;對於高吞吐量或成本敏感的工作負載,使用 low。medium(最佳的準確度與成本比)。避免使用 max,因為它會增加 token 成本,但不會提高 UI 任務的準確度。在這些模型上,low 使用的輸出 token 少於完全停用思考(錯誤較少意味著重試較少),使其成為成本敏感迴圈的強力選項。若要在電腦使用之外加入其他工具,請將它們包含在同一個 tools 陣列中。快速入門章節展示了搭配 bash 工具和文字編輯器工具的這種模式。您可以用相同的方式加入自己的自訂工具定義。
參考實作旨在協助您開始使用電腦使用。它包含讓 Claude 使用電腦所需的所有元件。不過,您可以建立自己的電腦使用環境以符合您的需求。您將需要:
tool_use 結果的代理迴圈電腦使用工具是以無結構描述工具的形式實作。使用此工具時,您不需要像其他工具一樣提供輸入結構描述;結構描述已內建於 Claude 的模型中,無法修改。
設定您的運算環境
建立虛擬顯示器或連接到 Claude 將與之互動的現有顯示器。這通常涉及設定 Xvfb(X Virtual Framebuffer)或類似技術。
實作動作處理器
建立函式來處理 Claude 可能請求的每種動作類型:
處理 Claude 的工具呼叫
從 Claude 的回應中提取並執行工具呼叫:
實作代理迴圈
建立一個迴圈,持續執行直到 Claude 完成任務:
在實作電腦使用工具時,可能會發生各種錯誤。以下是處理方式:
傳送到電腦工具的螢幕截圖必須已符合 Claude 的圖片大小限制(請參閱圖片大小限制)。API 不會調整過大圖片的大小;超過限制的螢幕截圖會被拒絕,並回傳 HTTP 400 驗證錯誤。
限制因模型而異。Claude Opus 4.8 和 Claude Opus 4.7 的長邊最多接受 2576 像素;較早的模型長邊最多接受 1568 像素,總計約 1.15 百萬像素。以下範例使用較早模型的 1568 px / 1.15 MP 限制;請替換為您模型的限制。
如果您的螢幕大於限制,請在傳送前調整螢幕截圖大小,將 display_width_px/display_height_px 設定為調整後的尺寸,並將 Claude 回傳的座標縮放回原始螢幕空間:
macOS Retina 顯示器以 2 的裝置像素比擷取螢幕截圖,因此圖片的解析度是邏輯螢幕座標的兩倍。請在傳送前將螢幕截圖縮小 2 倍,或在發出點擊之前將 Claude 回傳的座標減半。
如果點擊未命中目標,原因通常是以下其中之一:
| 症狀 | 可能原因 | 嘗試方法 |
|---|---|---|
| 點擊持續朝一個方向偏移 | display_width_px/display_height_px 與實際傳送的圖片尺寸不符 | 確保顯示器尺寸與您傳送的螢幕截圖完全相符 |
| 點擊落在正確區域但未命中目標 | 目標非常小、從 4K+ 來源縮小時遺失了細節,或長寬比遭到扭曲 | 設定 enable_zoom: true;以較低 DPI 擷取或裁切至相關區域;調整大小時保持長寬比 |
| Claude 完全點擊了錯誤的元素 | 指示不明確,或附近有視覺上相似的元素 | 使用位置提示(「右下角的藍色 Submit 按鈕」);將互動拆分為更小的步驟 |
| 準確度持續不佳 | 解析度太低 | 嘗試以 1280x720 作為基準 |
模型選擇會影響點擊精確度。 Claude Sonnet 4.6 在點擊方面比 Claude Opus 4.6 更具機械精確度,且在螢幕截圖需要大幅縮小時更為穩健。Claude Opus 4.7 縮小了這個差距:其點擊精確度大致與 Sonnet 4.6 相當,且其較高的解析度限制意味著需要的縮小程度較少。
電腦使用功能目前處於測試階段。雖然 Claude 的能力處於業界領先水準,但開發人員應了解其限制:
left_mouse_down、left_mouse_up)和修飾鍵組合來選取個別儲存格。複雜的試算表操作可能仍需要多次嘗試。請務必仔細審查並驗證 Claude 的電腦使用動作和日誌。在沒有人工監督的情況下,請勿將 Claude 用於需要完美精確度或涉及敏感使用者資訊的任務。
電腦使用是一個用戶端工具。工作階段中涉及的所有螢幕截圖、滑鼠動作、鍵盤輸入和任何檔案都會在您的環境中擷取和儲存,而非由 Anthropic 儲存。Anthropic 會在 API 呼叫過程中即時處理螢幕截圖影像和動作請求,但在回傳回應後不會保留這些資料。
由於您的應用程式控制電腦使用資料的儲存位置和方式,因此電腦使用符合 ZDR 資格。如需了解所有功能的 ZDR 資格,請參閱 API 與資料保留。
電腦使用遵循標準的工具使用定價。使用電腦使用工具時:
系統提示額外開銷:電腦使用測試版會在系統提示中增加 466-499 個 token
電腦使用工具的 token 用量:
| 模型 | 每個工具定義的輸入 token 數 |
|---|---|
| Claude 4.x 模型 | 735 個 token |
額外的 token 消耗:
如果您同時搭配電腦使用功能使用 bash 或文字編輯器工具,這些工具各自有其 token 成本,詳情請參閱各自的說明頁面。
繼續了解下一個工具:使用 Claude 檢視、建立和編輯檔案
開始使用完整的 Docker 實作
深入了解工具使用和建立自訂工具
針對解析度、思考投入程度和上下文管理的基準測試建議
Was this page helpful?