Claude Platform Docs
  • Messages
  • Managed Agents
  • 管理

Search...
⌘K
第一步
Claude 簡介快速入門
使用 Claude 進行建構
功能概覽使用 Messages API停止原因與備援拒絕與備援備援額度
模型能力
擴展思考自適應思考Effort任務預算(測試版)快速模式(研究預覽)結構化輸出引用串流 Messages批次處理搜尋結果串流拒絕多語言支援嵌入
工具
概覽工具使用的運作方式教學:建構使用工具的代理定義工具處理工具呼叫平行工具使用Tool Runner (SDK)嚴格工具使用工具使用與提示快取伺服器工具疑難排解網頁搜尋工具網頁擷取工具程式碼執行工具顧問工具記憶工具Bash 工具電腦使用工具文字編輯器工具
工具基礎架構
工具參考管理工具上下文工具組合工具搜尋程式化工具呼叫細粒度工具串流
上下文管理
上下文視窗壓縮上下文編輯提示快取對話中系統訊息建構協調模式快取診斷(測試版)Token 計數
處理檔案
Files APIPDF 支援圖片與視覺
技能
概覽快速入門最佳實務企業技能API 中的技能
MCP
遠端 MCP 伺服器MCP 連接器
雲端平台上的 Claude
Amazon BedrockAmazon Bedrock(舊版)AWS 上的 Claude PlatformMicrosoft FoundryVertex AI

Log in
電腦使用工具
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Messages/工具

電腦使用工具

Claude 可以透過電腦使用工具與電腦環境互動,該工具提供螢幕截圖功能以及滑鼠/鍵盤控制,以實現自主的桌面互動。在 WebArena(一個針對真實網站自主網頁導航的基準測試)上,Claude 在單一代理系統中取得了最先進的成果,展現出端對端完成多步驟瀏覽器任務的強大能力。



電腦使用功能目前處於測試階段,需要使用 beta header:

  • "computer-use-2025-11-24" 適用於 Claude Opus 4.8、Claude Opus 4.7、Claude Opus 4.6、Claude Sonnet 4.6 和 Claude Opus 4.5
  • "computer-use-2025-01-24" 適用於 Claude Sonnet 4.5、Claude Haiku 4.5、Claude Opus 4.1(已棄用)、Claude Sonnet 4(已停用,Bedrock 和 Vertex AI 除外)以及 Claude Opus 4(已停用,Vertex AI 除外)

請透過意見回饋表單分享您對此功能的意見。



此功能符合「Zero Data Retention」(零資料保留),即 ZDR 的資格。當您的組織具有 ZDR 安排時,透過此功能傳送的資料在 API 回應返回後不會被儲存。

概述

電腦使用是一項測試版功能,可讓 Claude 與桌面環境互動。此工具提供:

  • 螢幕截圖擷取: 查看目前螢幕上顯示的內容
  • 滑鼠控制: 點擊、拖曳和移動游標
  • 鍵盤輸入: 輸入文字和使用鍵盤快捷鍵
  • 桌面自動化: 與任何應用程式或介面互動

雖然電腦使用可以搭配其他工具(例如 bash 和文字編輯器)來實現更全面的自動化工作流程,但電腦使用特指電腦使用工具查看和控制桌面環境的能力。

如需模型支援資訊,請參閱工具參考。

安全性考量

電腦使用是一項測試版功能,具有與標準 API 功能不同的獨特風險。當與網際網路互動時,這些風險會更加顯著。



為了將風險降至最低,請考慮採取以下預防措施:

  1. 使用具有最低權限的專用虛擬機器或容器,以防止直接的系統攻擊或意外。
  2. 避免讓模型存取敏感資料(例如帳戶登入資訊),以防止資訊遭竊。
  3. 將網際網路存取限制在允許清單中的網域,以減少接觸惡意內容的機會。
  4. 對於可能導致重大現實後果的決策,以及任何需要明確同意的任務(例如接受 Cookie、完成金融交易或同意服務條款),請要求人工確認。

在某些情況下,即使與使用者的指示相衝突,Claude 仍會遵循內容中找到的命令。例如,網頁上或圖片中包含的 Claude 指示可能會覆蓋原有指示或導致 Claude 出錯。請採取預防措施,將 Claude 與敏感資料和操作隔離,以避免與提示注入(prompt injection)相關的風險。

Anthropic 已訓練模型抵禦這些提示注入,並增加了額外的防禦層。如果您使用電腦使用工具,分類器將自動在您的提示上執行,以標記潛在的提示注入實例。當這些分類器在螢幕截圖中識別出潛在的提示注入時,它們會自動引導模型在繼續下一個動作之前要求使用者確認。這種額外保護並非適用於所有使用案例(例如,沒有人工介入的使用案例),因此如果您想選擇退出並關閉此功能,請聯絡支援團隊。

即使有分類器防禦層,這些預防措施仍然很重要。

在您自己的產品中啟用電腦使用之前,請告知終端使用者相關風險並取得他們的同意。


電腦使用參考實作


開始使用電腦使用參考實作,其中包含網頁介面、Docker 容器、範例工具實作和代理迴圈。

快速入門

以下是開始使用電腦使用的方法:

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",  # or another compatible model
    max_tokens=1024,
    tools=[
        {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
            "display_number": 1,
        },
        {"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
        {"type": "bash_20250124", "name": "bash"},
    ],
    messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
    betas=["computer-use-2025-11-24"],
)
print(response)


只有電腦使用工具需要 beta header。

前面的範例展示了三個工具一起使用的情況,由於包含了電腦使用工具,因此需要 beta header。


電腦使用的運作方式

  1. 1

    向 Claude 提供電腦使用工具和使用者提示

    • 將電腦使用工具(以及可選的其他工具)加入您的 API 請求中。
    • 包含需要桌面互動的使用者提示,例如「將一張貓的圖片儲存到我的桌面。」
  2. 2

    Claude 選擇電腦使用工具

    • Claude 評估電腦使用工具是否能協助處理使用者的查詢。
    • 如果可以,Claude 會建構格式正確的工具使用請求。
    • API 回應的 stop_reason 為 tool_use,表示這是一個工具使用請求。
  3. 3

    提取工具輸入、在電腦上評估工具並回傳結果

    • 在您這端,從 Claude 的請求中提取工具名稱和輸入。
    • 在容器或虛擬機器上使用該工具。
    • 使用包含 tool_result 內容區塊的新 user 訊息繼續對話。
  4. 4

    Claude 持續呼叫電腦使用工具,直到完成任務

    • Claude 分析工具結果,以判斷是否需要更多工具使用或任務已完成。
    • 如果 Claude 判斷需要另一個工具,它會以另一個 tool_use stop_reason 回應,您應該回到步驟 3。
    • 否則,它會為使用者撰寫文字回應。

在沒有使用者輸入的情況下重複步驟 3 和 4 稱為「代理迴圈」(agent loop),也就是 Claude 以工具使用請求回應,而您的應用程式以評估該請求的結果回應 Claude。

運算環境

電腦使用需要一個沙箱運算環境,讓 Claude 可以安全地與應用程式和網路互動。此環境包括:

  1. 虛擬顯示器: 一個虛擬 X11 顯示伺服器(使用 Xvfb),用於渲染 Claude 透過螢幕截圖查看並以滑鼠/鍵盤動作控制的桌面介面。

  2. 桌面環境: 在 Linux 上執行的輕量級 UI,包含視窗管理器(Mutter)和面板(Tint2),為 Claude 提供一致的圖形介面以進行互動。

  3. 應用程式: 預先安裝的 Linux 應用程式,例如 Firefox、LibreOffice、文字編輯器和檔案管理器,Claude 可以使用這些應用程式來完成任務。

  4. 工具實作: 將 Claude 的抽象工具請求(例如「移動滑鼠」或「擷取螢幕截圖」)轉換為虛擬環境中實際操作的整合程式碼。

  5. 代理迴圈: 一個處理 Claude 與環境之間通訊的程式,將 Claude 的動作傳送到環境,並將結果(螢幕截圖、命令輸出)回傳給 Claude。

當您使用電腦使用時,Claude 不會直接連接到此環境。相反地,您的應用程式會:

  1. 接收 Claude 的工具使用請求
  2. 將它們轉換為運算環境中的動作
  3. 擷取結果(例如螢幕截圖和命令輸出)
  4. 將這些結果回傳給 Claude

為了安全性和隔離性,參考實作在 Docker 容器內執行所有這些操作,並具有適當的連接埠對應,以便查看環境並與之互動。


如何實作電腦使用

從參考實作開始

我們提供了一個參考實作,其中包含開始使用電腦使用所需的一切:

  • 適合與 Claude 一起使用電腦使用的容器化環境
  • 電腦使用工具的實作
  • 與 Claude API 互動並執行電腦使用工具的代理迴圈
  • 用於與容器、代理迴圈和工具互動的網頁介面。

了解代理迴圈

電腦使用的核心是「代理迴圈」:一個循環,其中 Claude 請求工具動作,您的應用程式執行這些動作,並將結果回傳給 Claude。以下是一個簡化的範例:

迴圈會持續進行,直到 Claude 在不請求任何工具的情況下回應(任務完成),或達到最大迭代限制。此保護措施可防止潛在的無限迴圈,避免產生意外的 API 費用。

在閱讀本文件的其餘部分之前,請先試用參考實作。

透過提示最佳化模型效能

以下是一些獲得最佳品質輸出的提示:

  1. 指定簡單、定義明確的任務,並為每個步驟提供明確的指示。
  2. Claude 有時會在未明確檢查結果的情況下假設其動作的結果。為了防止這種情況,您可以使用以下提示:After each step, take a screenshot and carefully evaluate if you have achieved the right outcome. Explicitly show your thinking: "I have evaluated step X..." If not correct, try again. Only when you confirm a step was executed correctly should you move on to the next one.
  3. 某些 UI 元素(例如下拉式選單和捲軸)可能讓 Claude 難以使用滑鼠移動來操作。如果您遇到這種情況,請嘗試提示模型使用鍵盤快捷鍵。
  4. 對於可重複的任務或 UI 互動,請在提示中包含成功結果的範例螢幕截圖和工具呼叫。
  5. 如果您需要模型登入,請在提示中使用 XML 標籤(例如 <robot_credentials>)提供使用者名稱和密碼。在需要登入的應用程式中使用電腦使用會增加因提示注入而導致不良結果的風險。在向模型提供登入憑證之前,請先檢閱緩解越獄和提示注入。
  6. 在建構使用者回合的 content 陣列時,請將指示文字放在螢幕截圖圖片之前。在處理圖片之前提供目標描述可提高點擊準確度。
  7. 當使用設定了 enable_zoom: true 的 computer_20251124 時,如果被詢問在螢幕截圖預設解析度下無法辨識的小型文字或特定 UI 元素(例如側邊欄中的檔案名稱、分頁標題、狀態列文字、行號或按鈕標籤),Claude 會放大某個區域。如果 Claude 沒有在您預期的情況下進行放大,請詢問特定區域或元素,而非整個螢幕。


如果您反覆遇到一組明確的問題,或事先知道 Claude 需要完成的任務,請使用系統提示向 Claude 提供明確的提示或指示,說明如何成功完成這些任務。



對於跨越多個工作階段的代理,請在每個工作階段開始時執行端對端驗證,而不僅僅是在實作之後。基於瀏覽器的檢查可以捕捉到僅靠程式碼層級審查會遺漏的先前工作階段的回歸問題。詳情請參閱 Effective harnesses for long-running agents。

系統提示

當透過 Claude API 請求其中一個 Anthropic 結構描述工具時,會產生一個電腦使用專用的系統提示。它類似於工具使用系統提示,但開頭為:

You have access to a set of functions you can use to answer the user's question. This includes access to a sandboxed computing environment. You do NOT currently have the ability to inspect files or interact with external resources, except by invoking the below functions.

與一般工具使用一樣,使用者提供的 system_prompt 欄位仍會被採用,並用於建構組合的系統提示。

可用動作

電腦使用工具支援以下動作:

基本動作(所有版本)

  • screenshot: 擷取目前顯示畫面
  • left_click: 在座標 [x, y] 處點擊
  • type: 輸入文字字串
  • key: 按下按鍵或按鍵組合(例如 "ctrl+s")
  • mouse_move: 將游標移動到座標

增強動作(computer_20250124) 適用於所有支援電腦使用的模型:

  • scroll: 以任意方向捲動並控制捲動量
  • left_click_drag: 在座標之間點擊並拖曳
  • right_click、middle_click: 其他滑鼠按鈕
  • double_click、triple_click: 多次點擊
  • left_mouse_down、left_mouse_up: 細粒度的點擊控制
  • hold_key: 按住某個按鍵達指定的持續時間(以秒為單位)
  • wait: 在動作之間暫停

增強動作(computer_20251124) 適用於 Claude Opus 4.8、Claude Opus 4.7、Claude Opus 4.6、Claude Sonnet 4.6 和 Claude Opus 4.5:

  • computer_20250124 的所有動作
  • zoom: 以完整解析度檢視螢幕的特定區域。需要在工具定義中設定 enable_zoom: true。接受一個 region 參數,其座標 [x1, y1, x2, y2] 定義要檢查區域的左上角和右下角。

工具參數

參數必填說明
type是工具版本(computer_20251124 或 computer_20250124)
name是必須為 "computer"
display_width_px是顯示器寬度(像素)
display_height_px是顯示器高度(像素)
display_number否X11 環境的顯示器編號
enable_zoom否啟用放大動作(僅限 computer_20251124)。設定為 true 以允許 Claude 放大特定螢幕區域。預設值:false


重要: 您的應用程式必須明確執行電腦使用工具;Claude 無法直接執行它。您需負責根據 Claude 的請求實作螢幕截圖擷取、滑鼠移動、鍵盤輸入和其他動作。

與擴展思考結合使用

如需將電腦使用與擴展思考結合使用,請參閱擴展思考。



特別針對電腦使用,內部基準測試建議以下 effort 設定:

  • Claude Opus 4.7: 預設使用 high;對於高吞吐量或成本敏感的工作負載,使用 low。
  • Claude Sonnet 4.6 和 Claude Opus 4.6: 預設使用 medium(最佳的準確度與成本比)。避免使用 max,因為它會增加 token 成本,但不會提高 UI 任務的準確度。在這些模型上,low 使用的輸出 token 少於完全停用思考(錯誤較少意味著重試較少),使其成為成本敏感迴圈的強力選項。

使用其他工具增強電腦使用

若要在電腦使用之外加入其他工具,請將它們包含在同一個 tools 陣列中。快速入門章節展示了搭配 bash 工具和文字編輯器工具的這種模式。您可以用相同的方式加入自己的自訂工具定義。

建立自訂電腦使用環境

參考實作旨在協助您開始使用電腦使用。它包含讓 Claude 使用電腦所需的所有元件。不過,您可以建立自己的電腦使用環境以符合您的需求。您將需要:

  • 適合與 Claude 一起使用電腦使用的虛擬化或容器化環境
  • 至少一個 Anthropic 結構描述電腦使用工具的實作
  • 與 Claude API 互動並使用您的工具實作執行 tool_use 結果的代理迴圈
  • 允許使用者輸入以啟動代理迴圈的 API 或 UI

實作電腦使用工具

電腦使用工具是以無結構描述工具的形式實作。使用此工具時,您不需要像其他工具一樣提供輸入結構描述;結構描述已內建於 Claude 的模型中,無法修改。

  1. 1

    設定您的運算環境

    建立虛擬顯示器或連接到 Claude 將與之互動的現有顯示器。這通常涉及設定 Xvfb(X Virtual Framebuffer)或類似技術。

  2. 2

    實作動作處理器

    建立函式來處理 Claude 可能請求的每種動作類型:

  3. 3

    處理 Claude 的工具呼叫

    從 Claude 的回應中提取並執行工具呼叫:

  4. 4

    實作代理迴圈

    建立一個迴圈,持續執行直到 Claude 完成任務:

處理錯誤

在實作電腦使用工具時,可能會發生各種錯誤。以下是處理方式:

調整螢幕截圖大小以符合圖片限制

傳送到電腦工具的螢幕截圖必須已符合 Claude 的圖片大小限制(請參閱圖片大小限制)。API 不會調整過大圖片的大小;超過限制的螢幕截圖會被拒絕,並回傳 HTTP 400 驗證錯誤。



限制因模型而異。Claude Opus 4.8 和 Claude Opus 4.7 的長邊最多接受 2576 像素;較早的模型長邊最多接受 1568 像素,總計約 1.15 百萬像素。以下範例使用較早模型的 1568 px / 1.15 MP 限制;請替換為您模型的限制。

如果您的螢幕大於限制,請在傳送前調整螢幕截圖大小,將 display_width_px/display_height_px 設定為調整後的尺寸,並將 Claude 回傳的座標縮放回原始螢幕空間:



macOS Retina 顯示器以 2 的裝置像素比擷取螢幕截圖,因此圖片的解析度是邏輯螢幕座標的兩倍。請在傳送前將螢幕截圖縮小 2 倍,或在發出點擊之前將 Claude 回傳的座標減半。

診斷點擊問題

如果點擊未命中目標,原因通常是以下其中之一:

症狀可能原因嘗試方法
點擊持續朝一個方向偏移display_width_px/display_height_px 與實際傳送的圖片尺寸不符確保顯示器尺寸與您傳送的螢幕截圖完全相符
點擊落在正確區域但未命中目標目標非常小、從 4K+ 來源縮小時遺失了細節,或長寬比遭到扭曲設定 enable_zoom: true;以較低 DPI 擷取或裁切至相關區域;調整大小時保持長寬比
Claude 完全點擊了錯誤的元素指示不明確,或附近有視覺上相似的元素使用位置提示(「右下角的藍色 Submit 按鈕」);將互動拆分為更小的步驟
準確度持續不佳解析度太低嘗試以 1280x720 作為基準


模型選擇會影響點擊精確度。 Claude Sonnet 4.6 在點擊方面比 Claude Opus 4.6 更具機械精確度,且在螢幕截圖需要大幅縮小時更為穩健。Claude Opus 4.7 縮小了這個差距:其點擊精確度大致與 Sonnet 4.6 相當,且其較高的解析度限制意味著需要的縮小程度較少。

遵循實作最佳實務


了解電腦使用的限制

電腦使用功能目前處於測試階段。雖然 Claude 的能力處於業界領先水準,但開發人員應了解其限制:

  1. 延遲:「Latency」(延遲)方面,目前人機互動的電腦使用延遲可能比一般人類直接操作電腦的動作慢得多。請專注於速度並非關鍵的使用案例(例如背景資訊收集、自動化軟體測試),並在受信任的環境中執行。
  2. **電腦視覺的準確性與可靠性:**Claude 在生成動作時輸出特定座標可能會出錯或產生幻覺。擴展思考可以幫助您了解模型的推理過程並識別潛在問題。
  3. **工具選擇的準確性與可靠性:**Claude 在生成動作時選擇工具可能會出錯或產生幻覺,或採取意料之外的動作來解決問題。此外,在與小眾應用程式或同時與多個應用程式互動時,可靠性可能較低。在請求複雜任務時,請謹慎地提示模型。
  4. **捲動可靠性:**捲動動作支援方向控制(上、下、左、右)和指定的捲動量。在捲動無法生效的應用程式中,鍵盤替代方案(例如 Page Down)可能會有所幫助。
  5. **試算表互動:**使用精細的滑鼠控制動作(left_mouse_down、left_mouse_up)和修飾鍵組合來選取個別儲存格。複雜的試算表操作可能仍需要多次嘗試。
  6. **在社群和通訊平台上建立帳戶和生成內容:**雖然 Claude 會瀏覽網站,但 Claude 在社群媒體網站和平台上建立帳戶、生成和分享內容,或以其他方式進行人類冒充的能力受到限制。此功能未來可能會更新。
  7. **漏洞:**越獄(jailbreaking)或提示注入(prompt injection)等漏洞可能持續存在於前沿 AI 系統中,包括測試版的電腦使用 API。在某些情況下,Claude 會遵循內容中發現的指令,有時甚至與使用者的指示相衝突。例如,網頁上或圖片中包含的 Claude 指令可能會覆蓋原有指示或導致 Claude 出錯。請考慮以下事項: a. 將電腦使用限制在受信任的環境中,例如具有最低權限的虛擬機器或容器 b. 在沒有嚴格監督的情況下,避免讓電腦使用存取敏感帳戶或資料 c. 在您的應用程式中啟用或請求電腦使用功能所需的權限之前,告知終端使用者相關風險並取得其同意
  8. **不當或非法行為:**根據 Anthropic 的服務條款,您不得使用電腦使用功能來違反任何法律或可接受使用政策。

請務必仔細審查並驗證 Claude 的電腦使用動作和日誌。在沒有人工監督的情況下,請勿將 Claude 用於需要完美精確度或涉及敏感使用者資訊的任務。

資料保留

電腦使用是一個用戶端工具。工作階段中涉及的所有螢幕截圖、滑鼠動作、鍵盤輸入和任何檔案都會在您的環境中擷取和儲存,而非由 Anthropic 儲存。Anthropic 會在 API 呼叫過程中即時處理螢幕截圖影像和動作請求,但在回傳回應後不會保留這些資料。

由於您的應用程式控制電腦使用資料的儲存位置和方式,因此電腦使用符合 ZDR 資格。如需了解所有功能的 ZDR 資格,請參閱 API 與資料保留。

定價

電腦使用遵循標準的工具使用定價。使用電腦使用工具時:

系統提示額外開銷:電腦使用測試版會在系統提示中增加 466-499 個 token

電腦使用工具的 token 用量:

模型每個工具定義的輸入 token 數
Claude 4.x 模型735 個 token

額外的 token 消耗:

  • 螢幕截圖影像(請參閱視覺定價)
  • 回傳給 Claude 的工具執行結果


如果您同時搭配電腦使用功能使用 bash 或文字編輯器工具,這些工具各自有其 token 成本,詳情請參閱各自的說明頁面。

後續步驟


文字編輯器工具

繼續了解下一個工具:使用 Claude 檢視、建立和編輯檔案

參考實作


開始使用完整的 Docker 實作


工具文件

深入了解工具使用和建立自訂工具

詳細最佳實務


針對解析度、思考投入程度和上下文管理的基準測試建議

Was this page helpful?

  • 概述
  • 安全性考量
  • 快速入門
  • 電腦使用的運作方式
  • 運算環境
  • 如何實作電腦使用
  • 從參考實作開始
  • 了解代理迴圈
  • 透過提示最佳化模型效能
  • 系統提示
  • 可用動作
  • 工具參數
  • 與擴展思考結合使用
  • 使用其他工具增強電腦使用
  • 建立自訂電腦使用環境
  • 了解電腦使用的限制
  • 資料保留
  • 定價
  • 後續步驟