• メッセージ
  • マネージドエージェント
  • 管理

Search...
⌘K
はじめに
Claude入門クイックスタート
Claudeで構築する
機能の概要Messages APIの使用停止理由とフォールバック拒否とフォールバックフォールバッククレジット
モデルの機能
拡張思考適応型思考エフォートタスクバジェット(ベータ版)高速モード(リサーチプレビュー)構造化出力引用メッセージのストリーミングバッチ処理検索結果拒否のストリーミング多言語サポート埋め込み
ツール
概要ツール使用の仕組みチュートリアル:ツール使用エージェントの構築ツールの定義ツール呼び出しの処理並列ツール使用ツールランナー(SDK)厳密なツール使用プロンプトキャッシングを使ったツール使用サーバーツールトラブルシューティングウェブ検索ツールウェブ取得ツールコード実行ツールアドバイザーツールメモリツールBashツールコンピュータ使用ツールテキストエディタツール
ツールインフラストラクチャ
ツールリファレンスツールコンテキストの管理ツールの組み合わせツール検索プログラムによるツール呼び出しきめ細かいツールストリーミング
コンテキスト管理
コンテキストウィンドウコンパクションコンテキスト編集プロンプトキャッシング会話途中のシステムメッセージオーケストレーションモードの構築キャッシュ診断(ベータ版)トークンカウント
ファイルの操作
Files APIPDFサポート画像とビジョン
スキル
概要クイックスタートベストプラクティスエンタープライズ向けスキルAPIでのスキル
MCP
リモートMCPサーバーMCPコネクタ
クラウドプラットフォーム上のClaude
Amazon BedrockAmazon Bedrock(レガシー)AWS上のClaude PlatformMicrosoft FoundryVertex AI

Log in
コンピュータ使用ツール
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
メッセージ/ツール

コンピュータ使用ツール

Was this page helpful?

  • 概要
  • セキュリティに関する考慮事項
  • クイックスタート
  • コンピュータ使用の仕組み
  • コンピューティング環境
  • コンピュータ使用の実装方法
  • リファレンス実装から始める
  • エージェントループの理解
  • プロンプトによるモデルパフォーマンスの最適化
  • システムプロンプト
  • 利用可能なアクション
  • ツールパラメータ
  • 拡張思考との組み合わせ
  • 他のツールによるコンピュータ使用の拡張
  • カスタムコンピュータ使用環境の構築
  • コンピュータ使用の制限事項を理解する
  • データ保持
  • 料金
  • 次のステップ

Claudeは、コンピュータ使用ツールを通じてコンピュータ環境と対話できます。このツールは、自律的なデスクトップ操作のためのスクリーンショット機能とマウス/キーボード制御を提供します。実際のウェブサイトにおける自律的なウェブナビゲーションのベンチマークであるWebArenaにおいて、Claudeはシングルエージェントシステムの中で最先端の結果を達成しており、複数ステップのブラウザタスクをエンドツーエンドで完了する強力な能力を示しています。



コンピュータ使用はベータ版であり、ベータヘッダーが必要です:

  • Claude Opus 4.8、Claude Opus 4.7、Claude Opus 4.6、Claude Sonnet 4.6、Claude Opus 4.5の場合は"computer-use-2025-11-24"
  • Claude Sonnet 4.5、Claude Haiku 4.5、Claude Opus 4.1(非推奨)、Claude Sonnet 4(非推奨)、Claude Opus 4(非推奨)の場合は"computer-use-2025-01-24"

この機能に関するフィードバックは、フィードバックフォームからお寄せください。



この機能はZero Data Retention(ZDR)の対象です。組織がZDR契約を締結している場合、この機能を通じて送信されたデータは、APIレスポンスが返された後に保存されることはありません。

概要

コンピュータ使用は、Claudeがデスクトップ環境と対話できるようにするベータ機能です。このツールは以下を提供します:

  • スクリーンショットキャプチャ: 現在画面に表示されている内容を確認
  • マウス制御: クリック、ドラッグ、カーソル移動
  • キーボード入力: テキスト入力とキーボードショートカットの使用
  • デスクトップ自動化: あらゆるアプリケーションやインターフェースとの対話

コンピュータ使用は、より包括的な自動化ワークフローのためにbashやテキストエディタなどの他のツールと組み合わせて拡張できますが、コンピュータ使用とは具体的には、デスクトップ環境を見て制御するコンピュータ使用ツールの機能を指します。

モデルのサポートについては、ツールリファレンスを参照してください。

セキュリティに関する考慮事項

コンピュータ使用は、標準的なAPI機能とは異なる固有のリスクを伴うベータ機能です。これらのリスクは、インターネットと対話する際に高まります。



リスクを最小限に抑えるために、以下のような予防措置を検討してください:

  1. 直接的なシステム攻撃や事故を防ぐために、最小限の権限を持つ専用の仮想マシンまたはコンテナを使用する。
  2. 情報の盗難を防ぐために、アカウントのログイン情報などの機密データへのアクセスをモデルに与えない。
  3. 悪意のあるコンテンツへの露出を減らすために、インターネットアクセスをドメインの許可リストに制限する。
  4. 現実世界に重大な影響を及ぼす可能性のある決定や、Cookieの受け入れ、金融取引の完了、利用規約への同意など、明示的な同意を必要とするタスクについては、人間に確認を求める。

状況によっては、Claudeはユーザーの指示と矛盾する場合でも、コンテンツ内に見つかったコマンドに従うことがあります。たとえば、ウェブページ上や画像に含まれるClaudeへの指示が、本来の指示を上書きしたり、Claudeにミスをさせたりする可能性があります。プロンプトインジェクションに関連するリスクを回避するために、Claudeを機密データやアクションから隔離する予防措置を講じてください。

Anthropicは、これらのプロンプトインジェクションに抵抗するようにモデルを訓練し、追加の防御層を追加しました。コンピュータ使用ツールを使用すると、分類器がプロンプトに対して自動的に実行され、プロンプトインジェクションの可能性のあるインスタンスにフラグを立てます。これらの分類器がスクリーンショット内で潜在的なプロンプトインジェクションを特定すると、次のアクションに進む前にユーザーの確認を求めるようにモデルを自動的に誘導します。この追加の保護は、すべてのユースケース(たとえば、人間が介在しないユースケース)に理想的とは限らないため、オプトアウトして無効にしたい場合は、サポートにお問い合わせください。

分類器による防御層が設置されていても、これらの予防措置は引き続き重要です。

自社製品でコンピュータ使用を有効にする前に、エンドユーザーに関連するリスクを通知し、同意を得てください。


コンピュータ使用リファレンス実装


ウェブインターフェース、Dockerコンテナ、ツール実装例、エージェントループを含むコンピュータ使用リファレンス実装から始めましょう。

クイックスタート

コンピュータ使用を始める方法は次のとおりです:



ベータヘッダーはコンピュータ使用ツールにのみ必要です。

前述の例では3つのツールすべてを一緒に使用していますが、コンピュータ使用ツールが含まれているため、ベータヘッダーが必要です。


コンピュータ使用の仕組み

  1. 1

    Claudeにコンピュータ使用ツールとユーザープロンプトを提供する

    • コンピュータ使用ツール(およびオプションで他のツール)をAPIリクエストに追加します。
    • デスクトップ操作を必要とするユーザープロンプトを含めます。たとえば、「猫の画像をデスクトップに保存してください」などです。
  2. 2

    Claudeがコンピュータ使用ツールを選択する

    • Claudeは、コンピュータ使用ツールがユーザーのクエリに役立つかどうかを評価します。
    • 役立つ場合、Claudeは適切にフォーマットされたツール使用リクエストを構築します。
    • APIレスポンスにはtool_useのstop_reasonが含まれ、ツール使用リクエストを示します。
  3. 3

    ツール入力を抽出し、コンピュータ上でツールを評価し、結果を返す

    • あなたの側で、Claudeのリクエストからツール名と入力を抽出します。
    • コンテナまたは仮想マシン上でツールを使用します。
    • tool_resultコンテンツブロックを含む新しいuserメッセージで会話を続けます。
  4. 4

    Claudeはタスクが完了するまでコンピュータ使用ツールを呼び出し続ける

ユーザー入力なしでステップ3と4を繰り返すことを「エージェントループ」と呼びます(つまり、Claudeがツール使用リクエストで応答し、アプリケーションがそのリクエストを評価した結果をClaudeに返すことです)。

コンピューティング環境

コンピュータ使用には、Claudeがアプリケーションやウェブと安全に対話できるサンドボックス化されたコンピューティング環境が必要です。この環境には以下が含まれます:

  1. 仮想ディスプレイ: Claudeがスクリーンショットを通じて見て、マウス/キーボードアクションで制御するデスクトップインターフェースをレンダリングする仮想X11ディスプレイサーバー(Xvfbを使用)。

  2. デスクトップ環境: Linux上で動作するウィンドウマネージャー(Mutter)とパネル(Tint2)を備えた軽量UI。Claudeが対話するための一貫したグラフィカルインターフェースを提供します。

  3. アプリケーション: Firefox、LibreOffice、テキストエディタ、ファイルマネージャーなど、Claudeがタスクを完了するために使用できるプリインストールされたLinuxアプリケーション。

  4. ツール実装: Claudeの抽象的なツールリクエスト(「マウスを移動」や「スクリーンショットを撮る」など)を仮想環境での実際の操作に変換する統合コード。

  5. エージェントループ: Claudeと環境間の通信を処理し、Claudeのアクションを環境に送信し、結果(スクリーンショット、コマンド出力)をClaudeに返すプログラム。

コンピュータ使用を利用する際、Claudeはこの環境に直接接続しません。代わりに、アプリケーションが以下を行います:

  1. Claudeのツール使用リクエストを受信する
  2. それらをコンピューティング環境でのアクションに変換する
  3. 結果(スクリーンショットやコマンド出力など)をキャプチャする
  4. これらの結果をClaudeに返す

セキュリティと分離のために、リファレンス実装はこれらすべてを、環境の表示と対話のための適切なポートマッピングを備えたDockerコンテナ内で実行します。


コンピュータ使用の実装方法

リファレンス実装から始める

コンピュータ使用を始めるために必要なすべてを含むリファレンス実装が利用可能です:

  • Claudeでのコンピュータ使用に適したコンテナ化された環境
  • コンピュータ使用ツールの実装
  • Claude APIと対話し、コンピュータ使用ツールを実行するエージェントループ
  • コンテナ、エージェントループ、ツールと対話するためのウェブインターフェース

エージェントループの理解

コンピュータ使用の中核は「エージェントループ」です。これは、Claudeがツールアクションをリクエストし、アプリケーションがそれらを実行し、結果をClaudeに返すサイクルです。以下は簡略化された例です:

ループは、Claudeがツールをリクエストせずに応答する(タスク完了)か、最大反復回数に達するまで続きます。この安全策により、予期しないAPIコストにつながる可能性のある無限ループを防ぎます。

このドキュメントの残りを読む前に、リファレンス実装を試してみてください。

プロンプトによるモデルパフォーマンスの最適化

最高品質の出力を得るためのヒントをいくつか紹介します:

  1. シンプルで明確に定義されたタスクを指定し、各ステップに明示的な指示を提供します。
  2. Claudeは、結果を明示的に確認せずにアクションの結果を仮定することがあります。これを防ぐには、After each step, take a screenshot and carefully evaluate if you have achieved the right outcome. Explicitly show your thinking: "I have evaluated step X..." If not correct, try again. Only when you confirm a step was executed correctly should you move on to the next one.のようにClaudeにプロンプトを与えることができます。
  3. 一部のUI要素(ドロップダウンやスクロールバーなど)は、Claudeがマウス操作で扱うのが難しい場合があります。このような場合は、モデルにキーボードショートカットを使用するようプロンプトを与えてみてください。
  4. 繰り返し可能なタスクやUI操作については、成功した結果のスクリーンショット例とツール呼び出しをプロンプトに含めます。
  5. モデルにログインさせる必要がある場合は、<robot_credentials>などのXMLタグ内にユーザー名とパスワードをプロンプトで提供します。ログインを必要とするアプリケーション内でコンピュータ使用を利用すると、プロンプトインジェクションの結果として悪い結果が生じるリスクが高まります。モデルにログイン認証情報を提供する前に、ジェイルブレイクとプロンプトインジェクションの軽減を確認してください。
  6. ユーザーターンのcontent配列を構築する際は、指示テキストをスクリーンショット画像の前に配置します。画像が処理される前にターゲットの説明を提供することで、クリックの精度が向上します。
  7. enable_zoom: trueを設定してcomputer_20251124を使用する場合、Claudeは、サイドバーのファイル名、タブタイトル、ステータスバーのテキスト、行番号、ボタンラベルなど、スクリーンショットのデフォルト解像度では判読できない小さなテキストや特定のUI要素について尋ねられたときに、その領域にズームインします。期待どおりにClaudeがズームしない場合は、画面全体ではなく特定の領域や要素について尋ねてください。


明確な問題のセットに繰り返し遭遇する場合、またはClaudeが完了する必要のあるタスクを事前に把握している場合は、システムプロンプトを使用して、タスクを正常に実行する方法についての明示的なヒントや指示をClaudeに提供してください。



複数のセッションにまたがるエージェントの場合、実装後だけでなく、各セッションの開始時にエンドツーエンドの検証を実行してください。ブラウザベースのチェックは、コードレベルのレビューだけでは見逃される前のセッションからのリグレッションを検出します。詳細については、Effective harnesses for long-running agentsを参照してください。

システムプロンプト

Anthropicスキーマツールのいずれかが Claude API を通じてリクエストされると、コンピュータ使用専用のシステムプロンプトが生成されます。これはツール使用システムプロンプトに似ていますが、次のように始まります:

You have access to a set of functions you can use to answer the user's question. This includes access to a sandboxed computing environment. You do NOT currently have the ability to inspect files or interact with external resources, except by invoking the below functions.

通常のツール使用と同様に、ユーザーが提供するsystem_promptフィールドは引き続き尊重され、結合されたシステムプロンプトの構築に使用されます。

利用可能なアクション

コンピュータ使用ツールは以下のアクションをサポートしています:

基本アクション(すべてのバージョン)

  • screenshot: 現在のディスプレイをキャプチャ
  • left_click: 座標[x, y]でクリック
  • type: テキスト文字列を入力
  • key: キーまたはキーの組み合わせを押す(例:「ctrl+s」)
  • mouse_move: カーソルを座標に移動

拡張アクション(computer_20250124) コンピュータ使用をサポートするすべてのモデルで利用可能:

  • scroll: 任意の方向に量を制御してスクロール
  • left_click_drag: 座標間でクリックしてドラッグ
  • right_click、middle_click: 追加のマウスボタン
  • double_click、triple_click: 複数回クリック
  • left_mouse_down、left_mouse_up: きめ細かいクリック制御
  • hold_key: 指定された時間(秒単位)キーを押し続ける
  • wait: アクション間で一時停止

拡張アクション(computer_20251124) Claude Opus 4.8、Claude Opus 4.7、Claude Opus 4.6、Claude Sonnet 4.6、Claude Opus 4.5で利用可能:

  • computer_20250124のすべてのアクション
  • zoom: 画面の特定の領域をフル解像度で表示。ツール定義でenable_zoom: trueが必要です。検査する領域の左上と右下の角を定義する座標[x1, y1, x2, y2]を持つregionパラメータを受け取ります。

ツールパラメータ

パラメータ必須説明
typeはいツールバージョン(computer_20251124またはcomputer_20250124)
nameはい「computer」である必要があります
display_width_pxはいディスプレイの幅(ピクセル単位)
display_height_pxはいディスプレイの高さ(ピクセル単位)
display_numberいいえX11環境のディスプレイ番号
enable_zoom


重要: アプリケーションがコンピュータ使用ツールを明示的に実行する必要があります。Claudeは直接実行できません。Claudeのリクエストに基づいて、スクリーンショットキャプチャ、マウス移動、キーボード入力、その他のアクションを実装する責任はあなたにあります。

拡張思考との組み合わせ

コンピュータ使用と拡張思考の組み合わせについては、拡張思考を参照してください。



コンピュータ使用に関しては、内部ベンチマークに基づいて以下のeffort設定を推奨します:

  • Claude Opus 4.7: デフォルトとしてhighを使用します。高スループットまたはコスト重視のワークロードにはlowを使用します。
  • Claude Sonnet 4.6およびClaude Opus 4.6: デフォルトとしてmediumを使用します(精度とコストの比率が最良)。maxは避けてください。UIタスクでは精度を向上させることなくトークンコストが増加します。これらのモデルでは、lowは思考を完全に無効にするよりも少ない出力トークンを使用します(ミスが少ないほど再試行も少なくなるため)。そのため、コスト重視のループには強力な選択肢となります。

他のツールによるコンピュータ使用の拡張

コンピュータ使用と並行して他のツールを追加するには、同じtools配列にそれらを含めます。クイックスタートセクションでは、bashツールとテキストエディタツールを使用したこのパターンを示しています。同じ方法で独自のカスタムツール定義を追加できます。

カスタムコンピュータ使用環境の構築

リファレンス実装は、コンピュータ使用を始めるのに役立つことを目的としています。Claudeにコンピュータを使用させるために必要なすべてのコンポーネントが含まれています。ただし、ニーズに合わせて独自のコンピュータ使用環境を構築することもできます。以下が必要です:

  • Claudeでのコンピュータ使用に適した仮想化またはコンテナ化された環境
  • Anthropicスキーマのコンピュータ使用ツールの少なくとも1つの実装
  • Claude APIと対話し、ツール実装を使用してtool_useの結果を実行するエージェントループ
  • エージェントループを開始するためのユーザー入力を可能にするAPIまたはUI

コンピュータ使用ツールの実装

コンピュータ使用ツールは、スキーマレスツールとして実装されています。このツールを使用する場合、他のツールのように入力スキーマを提供する必要はありません。スキーマはClaudeのモデルに組み込まれており、変更できません。

エラーの処理

コンピュータ使用ツールを実装する際、さまざまなエラーが発生する可能性があります。以下はそれらの処理方法です:

高解像度での座標スケーリングの処理



Claude Opus 4.8およびClaude Opus 4.7は長辺で最大2576ピクセルをサポートしており、その座標は画像ピクセルと1:1です(スケールファクターの変換は不要)。以下の1568ピクセルに関するガイダンスは、それ以前のモデルに適用されます。

APIは画像を最長辺で最大1568ピクセル、合計約1.15メガピクセルに制限します(詳細は画像のリサイズを参照)。たとえば、1512x982の画面は約1330x864にダウンサンプリングされます。Claudeはこの小さい画像を分析し、その空間での座標を返しますが、ツールは元の画面空間でクリックを実行します。

座標変換を処理しない限り、これによりClaudeのクリック座標がターゲットを外す可能性があります。

これを修正するには、スクリーンショットを自分でリサイズし、Claudeの座標を元のスケールに戻します:



macOS Retinaディスプレイは、デバイスピクセル比2でスクリーンショットをキャプチャするため、画像は論理画面座標の2倍の解像度になります。送信前にスクリーンショットを2分の1にダウンスケールするか、クリックを発行する前にClaudeが返す座標を半分にしてください。

クリックの問題の診断

クリックがターゲットを外す場合、原因は通常以下のいずれかです:

症状考えられる原因対処法
クリックが一方向に一貫してずれるdisplay_width_px/display_height_pxが実際に送信された画像の寸法と一致していない、または画像がAPI制限を超えて暗黙的にダウンスケールされているディスプレイの寸法がリサイズされたスクリーンショットと正確に一致することを確認する。API制限内に収まるように事前にダウンスケールする
クリックが正しい領域に着地するがターゲットを外すターゲットが非常に小さい、4K以上のソースをダウンスケールする際に詳細が失われた、またはアスペクト比が歪んでいるenable_zoom: trueを設定する。低いDPIでキャプチャするか、関連する領域にトリミングする。リサイズ時にアスペクト比を維持する
Claudeが完全に間違った要素をクリックする曖昧な指示、または近くに視覚的に類似した要素がある位置を指定したプロンプトを使用する(「右下の青いSubmitボタン」)。操作をより小さなステップに分割する
精度が一貫して低いAPI制限を超えるスクリーンショットが送信されている、または解像度が低すぎる制限内に収まるように事前にダウンスケールする。ベースラインとして1280x720を試す


モデルの選択はクリック精度に影響します。 Claude Sonnet 4.6はClaude Opus 4.6よりもクリックの機械的精度が高く、スクリーンショットが大幅なダウンスケーリングを必要とする場合により堅牢です。Claude Opus 4.7はその差を縮めています。クリック精度はSonnet 4.6とほぼ同等であり、解像度の上限が高いため、必要なダウンスケーリングが少なくなります。

実装のベストプラクティスに従う


コンピュータ使用の制限事項を理解する

コンピュータ使用機能はベータ版です。Claudeの能力は最先端ですが、開発者は以下の制限事項を認識しておく必要があります。

  1. レイテンシ: 人間とAIのインタラクションにおける現在のコンピュータ使用の「latency」(レイテンシ)は、通常の人間が指示するコンピュータ操作と比較して遅すぎる場合があります。信頼できる環境において、速度が重要でないユースケース(例:バックグラウンドでの情報収集、自動化されたソフトウェアテスト)に焦点を当ててください。
  2. コンピュータビジョンの精度と信頼性: Claudeはアクションを生成する際に特定の座標を出力するときに、間違いを犯したりハルシネーションを起こしたりする可能性があります。拡張思考は、モデルの推論を理解し、潜在的な問題を特定するのに役立ちます。
  3. ツール選択の精度と信頼性: Claudeはアクションを生成する際にツールを選択するときに間違いを犯したりハルシネーションを起こしたり、問題を解決するために予期しないアクションを取ったりする可能性があります。さらに、ニッチなアプリケーションや複数のアプリケーションを同時に操作する場合、信頼性が低下する可能性があります。複雑なタスクを要求する際は、モデルに慎重にプロンプトを与えてください。
  4. スクロールの信頼性: スクロールアクションは方向制御(上、下、左、右)と指定された量をサポートしています。スクロールが効果を発揮しないアプリケーションでは、Page Downなどのキーボードによる代替手段が役立つ場合があります。
  5. スプレッドシートの操作: 個々のセルを選択するには、細かいマウス制御アクション(left_mouse_down、left_mouse_up)と修飾キーの組み合わせを使用してください。複雑なスプレッドシート操作には、依然として複数回の試行が必要な場合があります。
  6. ソーシャルおよびコミュニケーションプラットフォームでのアカウント作成とコンテンツ生成: ClaudeはWebサイトを訪問しますが、ソーシャルメディアのWebサイトやプラットフォーム全体でアカウントを作成したり、コンテンツを生成・共有したり、その他の方法で人間になりすましたりするClaudeの能力は制限されています。この機能は将来更新される可能性があります。
  7. 脆弱性: ジェイルブレイクやプロンプトインジェクションなどの脆弱性は、ベータ版のコンピュータ使用APIを含む最先端のAIシステム全体で存続する可能性があります。状況によっては、Claudeはコンテンツ内にあるコマンドに従うことがあり、場合によってはユーザーの指示と矛盾することもあります。例えば、Webページ上や画像に含まれるClaudeへの指示が、本来の指示を上書きしたり、Claudeに間違いを犯させたりする可能性があります。以下を検討してください。 a. コンピュータ使用を、最小限の権限を持つ仮想マシンやコンテナなどの信頼できる環境に限定する b. 厳格な監視なしに、機密性の高いアカウントやデータへのコンピュータ使用アクセスを与えることを避ける c. アプリケーションでコンピュータ使用機能に必要な権限を有効化または要求する前に、エンドユーザーに関連するリスクを通知し、同意を得る

Claudeのコンピュータ使用アクションとログは常に慎重に確認および検証してください。人間による監視なしに、完璧な精度や機密性の高いユーザー情報を必要とするタスクにClaudeを使用しないでください。

データ保持

コンピュータ使用はクライアント側のツールです。セッションに関わるすべてのスクリーンショット、マウスアクション、キーボード入力、およびファイルは、Anthropicではなく、お客様の環境でキャプチャおよび保存されます。AnthropicはAPI呼び出しの一部としてスクリーンショット画像とアクションリクエストをリアルタイムで処理しますが、レスポンスが返された後はそれらを保持しません。

コンピュータ使用データがどこにどのように保存されるかはお客様のアプリケーションが制御するため、コンピュータ使用はZDR(ゼロデータ保持)の対象となります。すべての機能におけるZDRの対象については、APIとデータ保持を参照してください。

料金

コンピュータ使用は、標準のツール使用の料金体系に従います。コンピュータ使用ツールを使用する場合:

システムプロンプトのオーバーヘッド:コンピュータ使用ベータ版は、システムプロンプトに466〜499トークンを追加します

コンピュータ使用ツールのトークン使用量:

モデルツール定義ごとの入力トークン数
Claude 4.xモデル735トークン

追加のトークン消費:

  • スクリーンショット画像(Visionの料金を参照)
  • Claudeに返されるツール実行結果


コンピュータ使用と併せてbashツールやテキストエディタツールも使用している場合、それらのツールにはそれぞれのページに記載されている独自のトークンコストがあります。

次のステップ

リファレンス実装


完全なDockerベースの実装で始めましょう


ツールのドキュメント

ツール使用とカスタムツールの作成について詳しく学びましょう

ベストプラクティスの詳細

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",  # or another compatible model
    max_tokens=1024,
    tools=[
        {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
            "display_number": 1,
        },
        {"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
        {"type": "bash_20250124", "name": "bash"},
    ],
    messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
    betas=["computer-use-2025-11-24"],
)
print(response)
  • Claudeはツールの結果を分析して、さらにツール使用が必要か、タスクが完了したかを判断します。
  • Claudeが別のツールが必要と判断した場合、別のtool_use stop_reasonで応答し、ステップ3に戻る必要があります。
  • それ以外の場合は、ユーザーへのテキスト応答を作成します。
  • いいえ
    ズームアクションを有効にする(computer_20251124のみ)。Claudeが特定の画面領域にズームインできるようにするにはtrueに設定します。デフォルト:false
    1. 1

      コンピューティング環境をセットアップする

      Claudeが対話する仮想ディスプレイを作成するか、既存のディスプレイに接続します。これには通常、Xvfb(X Virtual Framebuffer)または同様の技術のセットアップが含まれます。

    2. 2

      アクションハンドラーを実装する

      Claudeがリクエストする可能性のある各アクションタイプを処理する関数を作成します:

    3. 3

      Claudeのツール呼び出しを処理する

      Claudeの応答からツール呼び出しを抽出して実行します:

    4. 4

      エージェントループを実装する

      Claudeがタスクを完了するまで続くループを作成します:

  • 不適切または違法な行為: Anthropicの利用規約に基づき、法律または利用規定に違反するためにコンピュータ使用を利用してはなりません。
  • 解像度、思考の労力、コンテキスト管理に関するベンチマーク済みの推奨事項