Alat

Alat computer use

Claude dapat berinteraksi dengan lingkungan komputer melalui alat computer use, yang menyediakan kemampuan screenshot dan kontrol mouse/keyboard untuk interaksi desktop otonom.

Computer use saat ini dalam beta dan memerlukan beta header:

"computer-use-2025-11-24" untuk Claude Opus 4.6, Claude Opus 4.5
"computer-use-2025-01-24" untuk Claude Sonnet 4.5, Haiku 4.5, Opus 4.1, Sonnet 4, Opus 4, dan Sonnet 3.7 (deprecated)

Silakan hubungi kami melalui formulir umpan balik untuk berbagi umpan balik Anda tentang fitur ini.

Ikhtisar

Computer use adalah fitur beta yang memungkinkan Claude berinteraksi dengan lingkungan desktop. Alat ini menyediakan:

Penangkapan screenshot: Lihat apa yang saat ini ditampilkan di layar
Kontrol mouse: Klik, seret, dan pindahkan kursor
Input keyboard: Ketik teks dan gunakan pintasan keyboard
Otomasi desktop: Berinteraksi dengan aplikasi atau antarmuka apa pun

Meskipun computer use dapat ditingkatkan dengan alat lain seperti bash dan editor teks untuk alur kerja otomasi yang lebih komprehensif, computer use secara khusus mengacu pada kemampuan alat computer use untuk melihat dan mengontrol lingkungan desktop.

Kompatibilitas model

Computer use tersedia untuk model Claude berikut:

Model	Versi Alat	Bendera Beta
Claude Opus 4.6, Claude Opus 4.5	`computer_20251124`	`computer-use-2025-11-24`
Semua model yang didukung lainnya	`computer_20250124`	`computer-use-2025-01-24`

Claude Opus 4.6 dan Claude Opus 4.5 memperkenalkan versi alat computer_20251124 dengan kemampuan baru termasuk tindakan zoom untuk inspeksi wilayah layar terperinci. Semua model lainnya (Sonnet 4.5, Haiku 4.5, Sonnet 4, Opus 4, Opus 4.1, dan Sonnet 3.7) menggunakan versi alat computer_20250124.

Versi alat yang lebih lama tidak dijamin kompatibel mundur dengan model yang lebih baru. Selalu gunakan versi alat yang sesuai dengan versi model Anda.

Pertimbangan keamanan

Computer use adalah fitur beta dengan risiko unik yang berbeda dari fitur API standar. Risiko ini meningkat ketika berinteraksi dengan internet.

Untuk meminimalkan risiko, pertimbangkan untuk mengambil tindakan pencegahan seperti:

Menggunakan mesin virtual atau kontainer khusus dengan hak istimewa minimal untuk mencegah serangan sistem langsung atau kecelakaan.
Menghindari memberikan model akses ke data sensitif, seperti informasi login akun, untuk mencegah pencurian informasi.
Membatasi akses internet ke daftar putih domain untuk mengurangi paparan terhadap konten berbahaya.
Meminta manusia untuk mengkonfirmasi keputusan yang mungkin menghasilkan konsekuensi dunia nyata yang bermakna serta tugas apa pun yang memerlukan persetujuan afirmatif, seperti menerima cookie, melaksanakan transaksi keuangan, atau menyetujui syarat layanan.

Dalam beberapa keadaan, Claude akan mengikuti perintah yang ditemukan dalam konten bahkan jika bertentangan dengan instruksi pengguna. Misalnya, instruksi Claude di halaman web atau yang terdapat dalam gambar dapat mengganti instruksi atau menyebabkan Claude membuat kesalahan. Kami menyarankan untuk mengambil tindakan pencegahan untuk mengisolasi Claude dari data dan tindakan sensitif untuk menghindari risiko terkait injeksi prompt.

Kami telah melatih model untuk menahan injeksi prompt ini dan telah menambahkan lapisan pertahanan ekstra. Jika Anda menggunakan alat computer use kami, kami akan secara otomatis menjalankan pengklasifikasi pada prompt Anda untuk menandai kemungkinan contoh injeksi prompt. Ketika pengklasifikasi ini mengidentifikasi kemungkinan injeksi prompt dalam screenshot, mereka akan secara otomatis mengarahkan model untuk meminta konfirmasi pengguna sebelum melanjutkan dengan tindakan berikutnya. Kami menyadari bahwa perlindungan ekstra ini tidak akan ideal untuk setiap kasus penggunaan (misalnya, kasus penggunaan tanpa manusia dalam loop), jadi jika Anda ingin memilih keluar dan mematikannya, silakan hubungi kami.

Kami masih menyarankan untuk mengambil tindakan pencegahan untuk mengisolasi Claude dari data dan tindakan sensitif untuk menghindari risiko terkait injeksi prompt.

Terakhir, silakan informasikan pengguna akhir tentang risiko yang relevan dan dapatkan persetujuan mereka sebelum mengaktifkan computer use di produk Anda sendiri.

Implementasi referensi computer use

Mulai dengan cepat dengan implementasi referensi computer use kami yang mencakup antarmuka web, kontainer Docker, implementasi alat contoh, dan loop agen.

Catatan: Implementasi telah diperbarui untuk menyertakan alat baru untuk model Claude 4 dan Claude Sonnet 3.7. Pastikan untuk menarik versi terbaru repo untuk mengakses fitur-fitur baru ini.

Silakan gunakan formulir ini untuk memberikan umpan balik tentang kualitas respons model, API itu sendiri, atau kualitas dokumentasi - kami tidak sabar untuk mendengar dari Anda!

Mulai cepat

Berikut cara memulai dengan computer use:

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",  # atau model kompatibel lainnya
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20251124",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20250728",
          "name": "str_replace_based_edit_tool"
        },
        {
          "type": "bash_20250124",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Simpan gambar kucing ke desktop saya."}],
    betas=["computer-use-2025-11-24"]
)
print(response)

Beta header hanya diperlukan untuk alat computer use.

Contoh di atas menunjukkan ketiga alat digunakan bersama-sama, yang memerlukan beta header karena mencakup alat computer use.

Cara kerja computer use

Berikan Claude alat computer use dan prompt pengguna
- Tambahkan alat computer use (dan secara opsional alat lainnya) ke permintaan API Anda.
- Sertakan prompt pengguna yang memerlukan interaksi desktop, misalnya, "Simpan gambar kucing ke desktop saya."
Claude memutuskan untuk menggunakan alat computer use
- Claude menilai apakah alat computer use dapat membantu dengan kueri pengguna.
- Jika ya, Claude membuat permintaan penggunaan alat yang diformat dengan benar.
- Respons API memiliki stop_reason dari tool_use, menandakan niat Claude.
Ekstrak input alat, evaluasi alat di komputer, dan kembalikan hasil
- Di pihak Anda, ekstrak nama alat dan input dari permintaan Claude.
- Gunakan alat di kontainer atau Mesin Virtual.
- Lanjutkan percakapan dengan pesan user baru yang berisi blok konten tool_result.
Claude terus memanggil alat computer use hingga menyelesaikan tugas
- Claude menganalisis hasil alat untuk menentukan apakah penggunaan alat lebih lanjut diperlukan atau tugas telah selesai.
- Jika Claude memutuskan memerlukan alat lain, ia merespons dengan stop_reason tool_use lainnya dan Anda harus kembali ke langkah 3.
- Jika tidak, ia membuat respons teks kepada pengguna.

Kami menyebut pengulangan langkah 3 dan 4 tanpa input pengguna sebagai "agent loop" - yaitu, Claude merespons dengan permintaan penggunaan alat dan aplikasi Anda merespons Claude dengan hasil evaluasi permintaan tersebut.

Lingkungan komputasi

Computer use memerlukan lingkungan komputasi bersandal di mana Claude dapat dengan aman berinteraksi dengan aplikasi dan web. Lingkungan ini mencakup:

Tampilan virtual: Server tampilan X11 virtual (menggunakan Xvfb) yang merender antarmuka desktop yang akan Claude lihat melalui screenshot dan kontrol dengan tindakan mouse/keyboard.
Lingkungan desktop: UI ringan dengan pengelola jendela (Mutter) dan panel (Tint2) yang berjalan di Linux, yang menyediakan antarmuka grafis yang konsisten untuk Claude berinteraksi.
Aplikasi: Aplikasi Linux yang sudah diinstal sebelumnya seperti Firefox, LibreOffice, editor teks, dan pengelola file yang dapat Claude gunakan untuk menyelesaikan tugas.
Implementasi alat: Kode integrasi yang menerjemahkan permintaan alat abstrak Claude (seperti "pindahkan mouse" atau "ambil screenshot") menjadi operasi aktual di lingkungan virtual.
Agent loop: Program yang menangani komunikasi antara Claude dan lingkungan, mengirim tindakan Claude ke lingkungan dan mengembalikan hasil (screenshot, output perintah) kembali ke Claude.

Ketika Anda menggunakan computer use, Claude tidak terhubung langsung ke lingkungan ini. Sebaliknya, aplikasi Anda:

Menerima permintaan penggunaan alat Claude
Menerjemahkannya menjadi tindakan di lingkungan komputasi Anda
Menangkap hasil (screenshot, output perintah, dll.)
Mengembalikan hasil ini ke Claude

Untuk keamanan dan isolasi, implementasi referensi menjalankan semua ini di dalam kontainer Docker dengan pemetaan port yang sesuai untuk melihat dan berinteraksi dengan lingkungan.

Cara mengimplementasikan computer use

Mulai dengan implementasi referensi kami

Kami telah membangun implementasi referensi yang mencakup semua yang Anda butuhkan untuk memulai dengan cepat dengan computer use:

Lingkungan terkontainerisasi yang cocok untuk computer use dengan Claude
Implementasi alat computer use
Agent loop yang berinteraksi dengan API Claude dan menjalankan alat computer use
Antarmuka web untuk berinteraksi dengan kontainer, agent loop, dan alat.

Memahami agent loop multi-agen

Inti dari computer use adalah "agent loop" - siklus di mana Claude meminta tindakan alat, aplikasi Anda menjalankannya, dan mengembalikan hasil ke Claude. Berikut adalah contoh yang disederhanakan:

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # Tambahkan batas iterasi untuk mencegah loop tak terbatas
):
    """
    Agent loop sederhana untuk interaksi computer use Claude.

    Fungsi ini menangani bolak-balik antara:
    1. Mengirim pesan pengguna ke Claude
    2. Claude meminta untuk menggunakan alat
    3. Aplikasi Anda menjalankan alat tersebut
    4. Mengirim hasil alat kembali ke Claude
    """
    # Atur alat dan parameter API
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # Konfigurasi alat - Anda seharusnya sudah memiliki ini diinisialisasi di tempat lain
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # Agent loop utama (dengan batas iterasi untuk mencegah biaya API yang melonjak)
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # Atur parameter thinking opsional (untuk Claude Sonnet 3.7)
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Panggil API Claude
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # Tambahkan respons Claude ke riwayat percakapan
        response_content = response.content
        messages.append({"role": "assistant", "content": response_content})

        # Periksa apakah Claude menggunakan alat apa pun
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # Dalam aplikasi nyata, Anda akan menjalankan alat di sini
                # Misalnya: result = run_tool(block.name, block.input)
                result = {"result": "Tool executed successfully"}

                # Format hasil untuk Claude
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # Jika tidak ada alat yang digunakan, Claude selesai - kembalikan pesan final
        if not tool_results:
            return messages

        # Tambahkan hasil alat ke pesan untuk iterasi berikutnya dengan Claude
        messages.append({"role": "user", "content": tool_results})

Loop berlanjut sampai Claude merespons tanpa meminta alat apa pun (penyelesaian tugas) atau batas iterasi maksimum tercapai. Perlindungan ini mencegah loop tak terbatas potensial yang dapat menghasilkan biaya API yang tidak terduga.

Kami merekomendasikan mencoba implementasi referensi terlebih dahulu sebelum membaca sisa dokumentasi ini.

Optimalkan kinerja model dengan prompting

Berikut adalah beberapa tips tentang cara mendapatkan output berkualitas terbaik:

Tentukan tugas sederhana dan terdefinisi dengan baik serta berikan instruksi eksplisit untuk setiap langkah.
Claude kadang-kadang mengasumsikan hasil tindakannya tanpa secara eksplisit memeriksa hasilnya. Untuk mencegah ini, Anda dapat memberi prompt Claude dengan Setelah setiap langkah, ambil screenshot dan evaluasi dengan hati-hati apakah Anda telah mencapai hasil yang tepat. Tunjukkan pemikiran Anda secara eksplisit: "Saya telah mengevaluasi langkah X..." Jika tidak benar, coba lagi. Hanya ketika Anda mengkonfirmasi langkah dijalankan dengan benar, Anda harus melanjutkan ke langkah berikutnya.
Beberapa elemen UI (seperti dropdown dan scrollbar) mungkin sulit untuk Claude manipulasi menggunakan gerakan mouse. Jika Anda mengalami ini, coba beri prompt model untuk menggunakan pintasan keyboard.
Untuk tugas yang dapat diulang atau interaksi UI, sertakan screenshot contoh dan panggilan alat hasil yang berhasil dalam prompt Anda.
Jika Anda perlu model untuk masuk, berikan nama pengguna dan kata sandi dalam prompt Anda di dalam tag xml seperti <robot_credentials>. Menggunakan computer use dalam aplikasi yang memerlukan login meningkatkan risiko hasil buruk sebagai akibat dari injeksi prompt. Silakan tinjau panduan kami tentang mitigasi injeksi prompt sebelum memberikan model dengan kredensial login.

Jika Anda berulang kali mengalami serangkaian masalah yang jelas atau mengetahui sebelumnya tugas yang perlu Claude selesaikan, gunakan system prompt untuk memberikan Claude tips atau instruksi eksplisit tentang cara menyelesaikan tugas dengan sukses.

System prompts

Ketika salah satu alat yang ditentukan Anthropic diminta melalui API Claude, system prompt khusus computer use dihasilkan. Ini mirip dengan tool use system prompt tetapi dimulai dengan:

Anda memiliki akses ke serangkaian fungsi yang dapat Anda gunakan untuk menjawab pertanyaan pengguna. Ini termasuk akses ke lingkungan komputasi bersandal. Anda saat ini TIDAK memiliki kemampuan untuk memeriksa file atau berinteraksi dengan sumber daya eksternal, kecuali dengan memanggil fungsi di bawah ini.

Seperti dengan tool use reguler, bidang system_prompt yang disediakan pengguna masih dihormati dan digunakan dalam konstruksi system prompt gabungan.

Tindakan yang tersedia

Alat computer use mendukung tindakan ini:

Tindakan dasar (semua versi)

screenshot - Tangkap tampilan saat ini
left_click - Klik di koordinat [x, y]
type - Ketik string teks
key - Tekan kunci atau kombinasi kunci (misalnya, "ctrl+s")
mouse_move - Pindahkan kursor ke koordinat

Tindakan yang ditingkatkan (computer_20250124) Tersedia di model Claude 4 dan Claude Sonnet 3.7:

scroll - Gulir ke arah mana pun dengan kontrol jumlah
left_click_drag - Klik dan seret antara koordinat
right_click, middle_click - Tombol mouse tambahan
double_click, triple_click - Beberapa klik
left_mouse_down, left_mouse_up - Kontrol klik terperinci
hold_key - Tahan kunci untuk durasi tertentu (dalam detik)
wait - Jeda antara tindakan

Tindakan yang ditingkatkan (computer_20251124) Tersedia di Claude Opus 4.6 dan Claude Opus 4.5:

Semua tindakan dari computer_20250124
zoom - Lihat wilayah layar tertentu dengan resolusi penuh. Memerlukan enable_zoom: true dalam definisi alat. Mengambil parameter region dengan koordinat [x1, y1, x2, y2] yang menentukan sudut kiri atas dan kanan bawah area untuk diperiksa.

Parameter alat

Parameter	Diperlukan	Deskripsi
`type`	Ya	Versi alat (`computer_20251124`, `computer_20250124`, atau `computer_20241022`)
`name`	Ya	Harus "computer"
`display_width_px`	Ya	Lebar tampilan dalam piksel
`display_height_px`	Ya	Tinggi tampilan dalam piksel
`display_number`	Tidak	Nomor tampilan untuk lingkungan X11
`enable_zoom`	Tidak	Aktifkan tindakan zoom (`computer_20251124` hanya). Atur ke `true` untuk memungkinkan Claude zoom ke wilayah layar tertentu. Default: `false`

Penting: Alat computer use harus secara eksplisit dijalankan oleh aplikasi Anda - Claude tidak dapat menjalankannya secara langsung. Anda bertanggung jawab untuk mengimplementasikan penangkapan screenshot, gerakan mouse, input keyboard, dan tindakan lainnya berdasarkan permintaan Claude.

Aktifkan kemampuan thinking di model Claude 4 dan Claude Sonnet 3.7

Claude Sonnet 3.7 memperkenalkan kemampuan "thinking" baru yang memungkinkan Anda melihat proses penalaran model saat bekerja melalui tugas kompleks. Fitur ini membantu Anda memahami bagaimana Claude mendekati masalah dan dapat sangat berharga untuk debugging atau tujuan pendidikan.

Untuk mengaktifkan thinking, tambahkan parameter thinking ke permintaan API Anda:

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

Parameter budget_tokens menentukan berapa banyak token yang dapat Claude gunakan untuk thinking. Ini dikurangi dari anggaran max_tokens keseluruhan Anda.

Ketika thinking diaktifkan, Claude akan mengembalikan proses penalarannya sebagai bagian dari respons, yang dapat membantu Anda:

Memahami proses pengambilan keputusan model
Mengidentifikasi potensi masalah atau kesalahpahaman
Belajar dari pendekatan Claude terhadap pemecahan masalah
Dapatkan lebih banyak visibilitas ke dalam operasi multi-langkah yang kompleks

Berikut adalah contoh dari apa output thinking mungkin terlihat:

[Thinking]
Saya perlu menyimpan gambar kucing ke desktop. Mari saya uraikan ini menjadi langkah-langkah:

1. Pertama, saya akan mengambil screenshot untuk melihat apa yang ada di desktop
2. Kemudian saya akan mencari browser web untuk mencari gambar kucing
3. Setelah menemukan gambar yang cocok, saya perlu menyimpannya ke desktop

Mari saya mulai dengan mengambil screenshot untuk melihat apa yang tersedia...

Augmentasi computer use dengan alat lain

Alat computer use dapat dikombinasikan dengan alat lain untuk membuat alur kerja otomasi yang lebih kuat. Ini sangat berguna ketika Anda perlu:

Menjalankan perintah sistem (alat bash)
Mengedit file konfigurasi atau skrip (alat editor teks)
Mengintegrasikan dengan API kustom atau layanan (alat kustom)

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 2000,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250728",
        "name": "str_replace_based_edit_tool"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "The unit of temperature, either 'celsius' or 'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Find flights from San Francisco to a place with warmer weather."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Bangun lingkungan penggunaan komputer khusus

Implementasi referensi dirancang untuk membantu Anda memulai dengan penggunaan komputer. Ini mencakup semua komponen yang diperlukan agar Claude dapat menggunakan komputer. Namun, Anda dapat membangun lingkungan Anda sendiri untuk penggunaan komputer sesuai kebutuhan Anda. Anda akan memerlukan:

Lingkungan virtual atau terkontainerisasi yang sesuai untuk penggunaan komputer dengan Claude
Implementasi setidaknya satu dari alat penggunaan komputer yang ditentukan Anthropic
Loop agen yang berinteraksi dengan API Claude dan menjalankan hasil tool_use menggunakan implementasi alat Anda
API atau UI yang memungkinkan masukan pengguna untuk memulai loop agen

Implementasikan alat penggunaan komputer

Alat penggunaan komputer diimplementasikan sebagai alat tanpa skema. Saat menggunakan alat ini, Anda tidak perlu memberikan skema masukan seperti dengan alat lain; skema dibangun ke dalam model Claude dan tidak dapat dimodifikasi.

Siapkan lingkungan komputasi Anda
Buat tampilan virtual atau sambungkan ke tampilan yang ada yang akan berinteraksi dengan Claude. Ini biasanya melibatkan pengaturan Xvfb (X Virtual Framebuffer) atau teknologi serupa.

Implementasikan penangan tindakan

Buat fungsi untuk menangani setiap jenis tindakan yang mungkin diminta Claude:

def handle_computer_action(action_type, params):
    if action_type == "screenshot":
        return capture_screenshot()
    elif action_type == "left_click":
        x, y = params["coordinate"]
        return click_at(x, y)
    elif action_type == "type":
        return type_text(params["text"])
    # ... tangani tindakan lainnya

Proses panggilan alat Claude

Ekstrak dan jalankan panggilan alat dari respons Claude:

for content in response.content:
    if content.type == "tool_use":
        action = content.input["action"]
        result = handle_computer_action(action, content.input)
        
        # Kembalikan hasil ke Claude
        tool_result = {
            "type": "tool_result",
            "tool_use_id": content.id,
            "content": result
        }

Implementasikan loop agen

Buat loop yang berlanjut sampai Claude menyelesaikan tugas:

while True:
    response = client.beta.messages.create(...)
    
    # Periksa apakah Claude menggunakan alat apa pun
    tool_results = process_tool_calls(response)
    
    if not tool_results:
        # Tidak ada lagi penggunaan alat, tugas selesai
        break
        
    # Lanjutkan percakapan dengan hasil alat
    messages.append({"role": "user", "content": tool_results})

Tangani kesalahan

Saat mengimplementasikan alat penggunaan komputer, berbagai kesalahan mungkin terjadi. Berikut cara menanganinya:

Tangani penskalaan koordinat untuk resolusi lebih tinggi

API membatasi gambar hingga maksimal 1568 piksel di tepi terpanjang dan sekitar 1,15 megapiksel total (lihat pengubahan ukuran gambar untuk detail). Misalnya, layar 1512x982 dikurangi sampel menjadi sekitar 1330x864. Claude menganalisis gambar yang lebih kecil ini dan mengembalikan koordinat dalam ruang itu, tetapi alat Anda menjalankan klik dalam ruang layar asli.

Ini dapat menyebabkan koordinat klik Claude melewatkan target mereka kecuali Anda menangani transformasi koordinat.

Untuk memperbaiki ini, ubah ukuran tangkapan layar sendiri dan skalakan koordinat Claude kembali:

import math

def get_scale_factor(width, height):
    """Hitung faktor skala untuk memenuhi batasan API."""
    long_edge = max(width, height)
    total_pixels = width * height

    long_edge_scale = 1568 / long_edge
    total_pixels_scale = math.sqrt(1_150_000 / total_pixels)

    return min(1.0, long_edge_scale, total_pixels_scale)

# Saat menangkap tangkapan layar
scale = get_scale_factor(screen_width, screen_height)
scaled_width = int(screen_width * scale)
scaled_height = int(screen_height * scale)

# Ubah ukuran gambar ke dimensi yang diskalakan sebelum mengirim ke Claude
screenshot = capture_and_resize(scaled_width, scaled_height)

# Saat menangani koordinat Claude, skalakan kembali
def execute_click(x, y):
    screen_x = x / scale
    screen_y = y / scale
    perform_click(screen_x, screen_y)

Ikuti praktik terbaik implementasi

Pahami keterbatasan penggunaan komputer

Fungsionalitas penggunaan komputer masih dalam versi beta. Meskipun kemampuan Claude terdepan, pengembang harus menyadari keterbatasannya:

Latensi: latensi penggunaan komputer saat ini untuk interaksi manusia-AI mungkin terlalu lambat dibandingkan dengan tindakan komputer yang diarahkan manusia biasa. Kami merekomendasikan fokus pada kasus penggunaan di mana kecepatan tidak kritis (misalnya, pengumpulan informasi latar belakang, pengujian perangkat lunak otomatis) di lingkungan terpercaya.
Akurasi dan keandalan visi komputer: Claude mungkin membuat kesalahan atau berhalusinasi saat menampilkan koordinat spesifik sambil menghasilkan tindakan. Claude Sonnet 3.7 memperkenalkan kemampuan pemikiran yang dapat membantu Anda memahami penalaran model dan mengidentifikasi potensi masalah.
Akurasi dan keandalan pemilihan alat: Claude mungkin membuat kesalahan atau berhalusinasi saat memilih alat sambil menghasilkan tindakan atau mengambil tindakan yang tidak terduga untuk menyelesaikan masalah. Selain itu, keandalan mungkin lebih rendah saat berinteraksi dengan aplikasi niche atau beberapa aplikasi sekaligus. Kami merekomendasikan agar pengguna dengan hati-hati memberi perintah pada model saat meminta tugas yang kompleks.
Keandalan pengguliran: Claude Sonnet 3.7 memperkenalkan tindakan pengguliran khusus dengan kontrol arah yang meningkatkan keandalan. Model sekarang dapat secara eksplisit menggulir ke arah mana pun (atas/bawah/kiri/kanan) dengan jumlah yang ditentukan.
Interaksi spreadsheet: Klik mouse untuk interaksi spreadsheet telah ditingkatkan di Claude Sonnet 3.7 dengan penambahan tindakan kontrol mouse yang lebih presisi seperti left_mouse_down, left_mouse_up, dan dukungan tombol pengubah baru. Pemilihan sel dapat lebih andal dengan menggunakan kontrol butir halus ini dan menggabungkan tombol pengubah dengan klik.
Pembuatan akun dan pembuatan konten di platform media sosial dan komunikasi: Meskipun Claude akan mengunjungi situs web, kami membatasi kemampuannya untuk membuat akun atau menghasilkan dan berbagi konten atau sebaliknya terlibat dalam peniruan manusia di seluruh situs web dan platform media sosial. Kami dapat memperbarui kemampuan ini di masa depan.
Kerentanan: Kerentanan seperti jailbreaking atau injeksi prompt mungkin tetap ada di seluruh sistem AI frontier, termasuk API penggunaan komputer beta. Dalam beberapa keadaan, Claude akan mengikuti perintah yang ditemukan dalam konten, kadang-kadang bahkan bertentangan dengan instruksi pengguna. Misalnya, instruksi Claude di halaman web atau yang terdapat dalam gambar dapat mengganti instruksi atau menyebabkan Claude membuat kesalahan. Kami merekomendasikan: a. Membatasi penggunaan komputer ke lingkungan terpercaya seperti mesin virtual atau kontainer dengan hak istimewa minimal b. Menghindari pemberian akses penggunaan komputer ke akun atau data sensitif tanpa pengawasan ketat c. Menginformasikan pengguna akhir tentang risiko yang relevan dan mendapatkan persetujuan mereka sebelum mengaktifkan atau meminta izin yang diperlukan untuk fitur penggunaan komputer di aplikasi Anda
Tindakan yang tidak pantas atau ilegal: Sesuai dengan syarat layanan Anthropic, Anda tidak boleh menggunakan penggunaan komputer untuk melanggar hukum apa pun atau Kebijakan Penggunaan Yang Dapat Diterima kami.

Selalu tinjau dan verifikasi dengan hati-hati tindakan dan log penggunaan komputer Claude. Jangan gunakan Claude untuk tugas yang memerlukan presisi sempurna atau informasi pengguna sensitif tanpa pengawasan manusia.

Harga

Computer use follows the standard tool use pricing. When using the computer use tool:

System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt

Computer use tool token usage:

Model	Input tokens per tool definition
Claude 4.x models	735 tokens
Claude Sonnet 3.7 (deprecated)	735 tokens

Additional token consumption:

Screenshot images (see Vision pricing)
Tool execution results returned to Claude

If you're also using bash or text editor tools alongside computer use, those tools have their own token costs as documented in their respective pages.

Langkah berikutnya

Implementasi referensi

Mulai dengan cepat dengan implementasi berbasis Docker lengkap kami

Dokumentasi alat

Pelajari lebih lanjut tentang penggunaan alat dan membuat alat khusus

Was this page helpful?

Alat

Alat computer use

Claude dapat berinteraksi dengan lingkungan komputer melalui alat computer use, yang menyediakan kemampuan screenshot dan kontrol mouse/keyboard untuk interaksi desktop otonom.

Computer use saat ini dalam beta dan memerlukan beta header:

"computer-use-2025-11-24" untuk Claude Opus 4.6, Claude Opus 4.5
"computer-use-2025-01-24" untuk Claude Sonnet 4.5, Haiku 4.5, Opus 4.1, Sonnet 4, Opus 4, dan Sonnet 3.7 (deprecated)

Silakan hubungi kami melalui formulir umpan balik untuk berbagi umpan balik Anda tentang fitur ini.

Ikhtisar

Computer use adalah fitur beta yang memungkinkan Claude berinteraksi dengan lingkungan desktop. Alat ini menyediakan:

Penangkapan screenshot: Lihat apa yang saat ini ditampilkan di layar
Kontrol mouse: Klik, seret, dan pindahkan kursor
Input keyboard: Ketik teks dan gunakan pintasan keyboard
Otomasi desktop: Berinteraksi dengan aplikasi atau antarmuka apa pun

Kompatibilitas model

Computer use tersedia untuk model Claude berikut:

Model	Versi Alat	Bendera Beta
Claude Opus 4.6, Claude Opus 4.5	`computer_20251124`	`computer-use-2025-11-24`
Semua model yang didukung lainnya	`computer_20250124`	`computer-use-2025-01-24`

Versi alat yang lebih lama tidak dijamin kompatibel mundur dengan model yang lebih baru. Selalu gunakan versi alat yang sesuai dengan versi model Anda.

Pertimbangan keamanan

Computer use adalah fitur beta dengan risiko unik yang berbeda dari fitur API standar. Risiko ini meningkat ketika berinteraksi dengan internet.

Untuk meminimalkan risiko, pertimbangkan untuk mengambil tindakan pencegahan seperti:

Menggunakan mesin virtual atau kontainer khusus dengan hak istimewa minimal untuk mencegah serangan sistem langsung atau kecelakaan.
Menghindari memberikan model akses ke data sensitif, seperti informasi login akun, untuk mencegah pencurian informasi.
Membatasi akses internet ke daftar putih domain untuk mengurangi paparan terhadap konten berbahaya.
Meminta manusia untuk mengkonfirmasi keputusan yang mungkin menghasilkan konsekuensi dunia nyata yang bermakna serta tugas apa pun yang memerlukan persetujuan afirmatif, seperti menerima cookie, melaksanakan transaksi keuangan, atau menyetujui syarat layanan.

Kami masih menyarankan untuk mengambil tindakan pencegahan untuk mengisolasi Claude dari data dan tindakan sensitif untuk menghindari risiko terkait injeksi prompt.

Terakhir, silakan informasikan pengguna akhir tentang risiko yang relevan dan dapatkan persetujuan mereka sebelum mengaktifkan computer use di produk Anda sendiri.

Implementasi referensi computer use

Mulai dengan cepat dengan implementasi referensi computer use kami yang mencakup antarmuka web, kontainer Docker, implementasi alat contoh, dan loop agen.

Catatan: Implementasi telah diperbarui untuk menyertakan alat baru untuk model Claude 4 dan Claude Sonnet 3.7. Pastikan untuk menarik versi terbaru repo untuk mengakses fitur-fitur baru ini.

Silakan gunakan formulir ini untuk memberikan umpan balik tentang kualitas respons model, API itu sendiri, atau kualitas dokumentasi - kami tidak sabar untuk mendengar dari Anda!

Mulai cepat

Berikut cara memulai dengan computer use:

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",  # atau model kompatibel lainnya
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20251124",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20250728",
          "name": "str_replace_based_edit_tool"
        },
        {
          "type": "bash_20250124",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Simpan gambar kucing ke desktop saya."}],
    betas=["computer-use-2025-11-24"]
)
print(response)

Beta header hanya diperlukan untuk alat computer use.

Contoh di atas menunjukkan ketiga alat digunakan bersama-sama, yang memerlukan beta header karena mencakup alat computer use.

Cara kerja computer use

Berikan Claude alat computer use dan prompt pengguna
- Tambahkan alat computer use (dan secara opsional alat lainnya) ke permintaan API Anda.
- Sertakan prompt pengguna yang memerlukan interaksi desktop, misalnya, "Simpan gambar kucing ke desktop saya."
Claude memutuskan untuk menggunakan alat computer use
- Claude menilai apakah alat computer use dapat membantu dengan kueri pengguna.
- Jika ya, Claude membuat permintaan penggunaan alat yang diformat dengan benar.
- Respons API memiliki stop_reason dari tool_use, menandakan niat Claude.
Ekstrak input alat, evaluasi alat di komputer, dan kembalikan hasil
- Di pihak Anda, ekstrak nama alat dan input dari permintaan Claude.
- Gunakan alat di kontainer atau Mesin Virtual.
- Lanjutkan percakapan dengan pesan user baru yang berisi blok konten tool_result.
Claude terus memanggil alat computer use hingga menyelesaikan tugas
- Claude menganalisis hasil alat untuk menentukan apakah penggunaan alat lebih lanjut diperlukan atau tugas telah selesai.
- Jika Claude memutuskan memerlukan alat lain, ia merespons dengan stop_reason tool_use lainnya dan Anda harus kembali ke langkah 3.
- Jika tidak, ia membuat respons teks kepada pengguna.

Lingkungan komputasi

Computer use memerlukan lingkungan komputasi bersandal di mana Claude dapat dengan aman berinteraksi dengan aplikasi dan web. Lingkungan ini mencakup:

Tampilan virtual: Server tampilan X11 virtual (menggunakan Xvfb) yang merender antarmuka desktop yang akan Claude lihat melalui screenshot dan kontrol dengan tindakan mouse/keyboard.
Lingkungan desktop: UI ringan dengan pengelola jendela (Mutter) dan panel (Tint2) yang berjalan di Linux, yang menyediakan antarmuka grafis yang konsisten untuk Claude berinteraksi.
Aplikasi: Aplikasi Linux yang sudah diinstal sebelumnya seperti Firefox, LibreOffice, editor teks, dan pengelola file yang dapat Claude gunakan untuk menyelesaikan tugas.
Implementasi alat: Kode integrasi yang menerjemahkan permintaan alat abstrak Claude (seperti "pindahkan mouse" atau "ambil screenshot") menjadi operasi aktual di lingkungan virtual.
Agent loop: Program yang menangani komunikasi antara Claude dan lingkungan, mengirim tindakan Claude ke lingkungan dan mengembalikan hasil (screenshot, output perintah) kembali ke Claude.

Ketika Anda menggunakan computer use, Claude tidak terhubung langsung ke lingkungan ini. Sebaliknya, aplikasi Anda:

Menerima permintaan penggunaan alat Claude
Menerjemahkannya menjadi tindakan di lingkungan komputasi Anda
Menangkap hasil (screenshot, output perintah, dll.)
Mengembalikan hasil ini ke Claude

Untuk keamanan dan isolasi, implementasi referensi menjalankan semua ini di dalam kontainer Docker dengan pemetaan port yang sesuai untuk melihat dan berinteraksi dengan lingkungan.

Cara mengimplementasikan computer use

Mulai dengan implementasi referensi kami

Kami telah membangun implementasi referensi yang mencakup semua yang Anda butuhkan untuk memulai dengan cepat dengan computer use:

Lingkungan terkontainerisasi yang cocok untuk computer use dengan Claude
Implementasi alat computer use
Agent loop yang berinteraksi dengan API Claude dan menjalankan alat computer use
Antarmuka web untuk berinteraksi dengan kontainer, agent loop, dan alat.

Memahami agent loop multi-agen

Inti dari computer use adalah "agent loop" - siklus di mana Claude meminta tindakan alat, aplikasi Anda menjalankannya, dan mengembalikan hasil ke Claude. Berikut adalah contoh yang disederhanakan:

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # Tambahkan batas iterasi untuk mencegah loop tak terbatas
):
    """
    Agent loop sederhana untuk interaksi computer use Claude.

    Fungsi ini menangani bolak-balik antara:
    1. Mengirim pesan pengguna ke Claude
    2. Claude meminta untuk menggunakan alat
    3. Aplikasi Anda menjalankan alat tersebut
    4. Mengirim hasil alat kembali ke Claude
    """
    # Atur alat dan parameter API
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # Konfigurasi alat - Anda seharusnya sudah memiliki ini diinisialisasi di tempat lain
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # Agent loop utama (dengan batas iterasi untuk mencegah biaya API yang melonjak)
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # Atur parameter thinking opsional (untuk Claude Sonnet 3.7)
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Panggil API Claude
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # Tambahkan respons Claude ke riwayat percakapan
        response_content = response.content
        messages.append({"role": "assistant", "content": response_content})

        # Periksa apakah Claude menggunakan alat apa pun
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # Dalam aplikasi nyata, Anda akan menjalankan alat di sini
                # Misalnya: result = run_tool(block.name, block.input)
                result = {"result": "Tool executed successfully"}

                # Format hasil untuk Claude
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # Jika tidak ada alat yang digunakan, Claude selesai - kembalikan pesan final
        if not tool_results:
            return messages

        # Tambahkan hasil alat ke pesan untuk iterasi berikutnya dengan Claude
        messages.append({"role": "user", "content": tool_results})

Kami merekomendasikan mencoba implementasi referensi terlebih dahulu sebelum membaca sisa dokumentasi ini.

Optimalkan kinerja model dengan prompting

Berikut adalah beberapa tips tentang cara mendapatkan output berkualitas terbaik:

Tentukan tugas sederhana dan terdefinisi dengan baik serta berikan instruksi eksplisit untuk setiap langkah.
Claude kadang-kadang mengasumsikan hasil tindakannya tanpa secara eksplisit memeriksa hasilnya. Untuk mencegah ini, Anda dapat memberi prompt Claude dengan Setelah setiap langkah, ambil screenshot dan evaluasi dengan hati-hati apakah Anda telah mencapai hasil yang tepat. Tunjukkan pemikiran Anda secara eksplisit: "Saya telah mengevaluasi langkah X..." Jika tidak benar, coba lagi. Hanya ketika Anda mengkonfirmasi langkah dijalankan dengan benar, Anda harus melanjutkan ke langkah berikutnya.
Beberapa elemen UI (seperti dropdown dan scrollbar) mungkin sulit untuk Claude manipulasi menggunakan gerakan mouse. Jika Anda mengalami ini, coba beri prompt model untuk menggunakan pintasan keyboard.
Untuk tugas yang dapat diulang atau interaksi UI, sertakan screenshot contoh dan panggilan alat hasil yang berhasil dalam prompt Anda.
Jika Anda perlu model untuk masuk, berikan nama pengguna dan kata sandi dalam prompt Anda di dalam tag xml seperti <robot_credentials>. Menggunakan computer use dalam aplikasi yang memerlukan login meningkatkan risiko hasil buruk sebagai akibat dari injeksi prompt. Silakan tinjau panduan kami tentang mitigasi injeksi prompt sebelum memberikan model dengan kredensial login.

System prompts

Ketika salah satu alat yang ditentukan Anthropic diminta melalui API Claude, system prompt khusus computer use dihasilkan. Ini mirip dengan tool use system prompt tetapi dimulai dengan:

Anda memiliki akses ke serangkaian fungsi yang dapat Anda gunakan untuk menjawab pertanyaan pengguna. Ini termasuk akses ke lingkungan komputasi bersandal. Anda saat ini TIDAK memiliki kemampuan untuk memeriksa file atau berinteraksi dengan sumber daya eksternal, kecuali dengan memanggil fungsi di bawah ini.

Seperti dengan tool use reguler, bidang system_prompt yang disediakan pengguna masih dihormati dan digunakan dalam konstruksi system prompt gabungan.

Tindakan yang tersedia

Alat computer use mendukung tindakan ini:

Tindakan dasar (semua versi)

screenshot - Tangkap tampilan saat ini
left_click - Klik di koordinat [x, y]
type - Ketik string teks
key - Tekan kunci atau kombinasi kunci (misalnya, "ctrl+s")
mouse_move - Pindahkan kursor ke koordinat

Tindakan yang ditingkatkan (computer_20250124) Tersedia di model Claude 4 dan Claude Sonnet 3.7:

scroll - Gulir ke arah mana pun dengan kontrol jumlah
left_click_drag - Klik dan seret antara koordinat
right_click, middle_click - Tombol mouse tambahan
double_click, triple_click - Beberapa klik
left_mouse_down, left_mouse_up - Kontrol klik terperinci
hold_key - Tahan kunci untuk durasi tertentu (dalam detik)
wait - Jeda antara tindakan

Tindakan yang ditingkatkan (computer_20251124) Tersedia di Claude Opus 4.6 dan Claude Opus 4.5:

Semua tindakan dari computer_20250124
zoom - Lihat wilayah layar tertentu dengan resolusi penuh. Memerlukan enable_zoom: true dalam definisi alat. Mengambil parameter region dengan koordinat [x1, y1, x2, y2] yang menentukan sudut kiri atas dan kanan bawah area untuk diperiksa.

Parameter alat

Parameter	Diperlukan	Deskripsi
`type`	Ya	Versi alat (`computer_20251124`, `computer_20250124`, atau `computer_20241022`)
`name`	Ya	Harus "computer"
`display_width_px`	Ya	Lebar tampilan dalam piksel
`display_height_px`	Ya	Tinggi tampilan dalam piksel
`display_number`	Tidak	Nomor tampilan untuk lingkungan X11
`enable_zoom`	Tidak	Aktifkan tindakan zoom (`computer_20251124` hanya). Atur ke `true` untuk memungkinkan Claude zoom ke wilayah layar tertentu. Default: `false`

Aktifkan kemampuan thinking di model Claude 4 dan Claude Sonnet 3.7

Untuk mengaktifkan thinking, tambahkan parameter thinking ke permintaan API Anda:

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

Parameter budget_tokens menentukan berapa banyak token yang dapat Claude gunakan untuk thinking. Ini dikurangi dari anggaran max_tokens keseluruhan Anda.

Ketika thinking diaktifkan, Claude akan mengembalikan proses penalarannya sebagai bagian dari respons, yang dapat membantu Anda:

Memahami proses pengambilan keputusan model
Mengidentifikasi potensi masalah atau kesalahpahaman
Belajar dari pendekatan Claude terhadap pemecahan masalah
Dapatkan lebih banyak visibilitas ke dalam operasi multi-langkah yang kompleks

Berikut adalah contoh dari apa output thinking mungkin terlihat:

[Thinking]
Saya perlu menyimpan gambar kucing ke desktop. Mari saya uraikan ini menjadi langkah-langkah:

1. Pertama, saya akan mengambil screenshot untuk melihat apa yang ada di desktop
2. Kemudian saya akan mencari browser web untuk mencari gambar kucing
3. Setelah menemukan gambar yang cocok, saya perlu menyimpannya ke desktop

Mari saya mulai dengan mengambil screenshot untuk melihat apa yang tersedia...

Augmentasi computer use dengan alat lain

Alat computer use dapat dikombinasikan dengan alat lain untuk membuat alur kerja otomasi yang lebih kuat. Ini sangat berguna ketika Anda perlu:

Menjalankan perintah sistem (alat bash)
Mengedit file konfigurasi atau skrip (alat editor teks)
Mengintegrasikan dengan API kustom atau layanan (alat kustom)

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 2000,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250728",
        "name": "str_replace_based_edit_tool"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "The unit of temperature, either 'celsius' or 'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Find flights from San Francisco to a place with warmer weather."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Bangun lingkungan penggunaan komputer khusus

Lingkungan virtual atau terkontainerisasi yang sesuai untuk penggunaan komputer dengan Claude
Implementasi setidaknya satu dari alat penggunaan komputer yang ditentukan Anthropic
Loop agen yang berinteraksi dengan API Claude dan menjalankan hasil tool_use menggunakan implementasi alat Anda
API atau UI yang memungkinkan masukan pengguna untuk memulai loop agen

Implementasikan alat penggunaan komputer

Siapkan lingkungan komputasi Anda
Buat tampilan virtual atau sambungkan ke tampilan yang ada yang akan berinteraksi dengan Claude. Ini biasanya melibatkan pengaturan Xvfb (X Virtual Framebuffer) atau teknologi serupa.

Implementasikan penangan tindakan

Buat fungsi untuk menangani setiap jenis tindakan yang mungkin diminta Claude:

def handle_computer_action(action_type, params):
    if action_type == "screenshot":
        return capture_screenshot()
    elif action_type == "left_click":
        x, y = params["coordinate"]
        return click_at(x, y)
    elif action_type == "type":
        return type_text(params["text"])
    # ... tangani tindakan lainnya

Proses panggilan alat Claude

Ekstrak dan jalankan panggilan alat dari respons Claude:

for content in response.content:
    if content.type == "tool_use":
        action = content.input["action"]
        result = handle_computer_action(action, content.input)
        
        # Kembalikan hasil ke Claude
        tool_result = {
            "type": "tool_result",
            "tool_use_id": content.id,
            "content": result
        }

Implementasikan loop agen

Buat loop yang berlanjut sampai Claude menyelesaikan tugas:

while True:
    response = client.beta.messages.create(...)
    
    # Periksa apakah Claude menggunakan alat apa pun
    tool_results = process_tool_calls(response)
    
    if not tool_results:
        # Tidak ada lagi penggunaan alat, tugas selesai
        break
        
    # Lanjutkan percakapan dengan hasil alat
    messages.append({"role": "user", "content": tool_results})

Tangani kesalahan

Saat mengimplementasikan alat penggunaan komputer, berbagai kesalahan mungkin terjadi. Berikut cara menanganinya:

Tangani penskalaan koordinat untuk resolusi lebih tinggi

Ini dapat menyebabkan koordinat klik Claude melewatkan target mereka kecuali Anda menangani transformasi koordinat.

Untuk memperbaiki ini, ubah ukuran tangkapan layar sendiri dan skalakan koordinat Claude kembali:

import math

def get_scale_factor(width, height):
    """Hitung faktor skala untuk memenuhi batasan API."""
    long_edge = max(width, height)
    total_pixels = width * height

    long_edge_scale = 1568 / long_edge
    total_pixels_scale = math.sqrt(1_150_000 / total_pixels)

    return min(1.0, long_edge_scale, total_pixels_scale)

# Saat menangkap tangkapan layar
scale = get_scale_factor(screen_width, screen_height)
scaled_width = int(screen_width * scale)
scaled_height = int(screen_height * scale)

# Ubah ukuran gambar ke dimensi yang diskalakan sebelum mengirim ke Claude
screenshot = capture_and_resize(scaled_width, scaled_height)

# Saat menangani koordinat Claude, skalakan kembali
def execute_click(x, y):
    screen_x = x / scale
    screen_y = y / scale
    perform_click(screen_x, screen_y)

Ikuti praktik terbaik implementasi

Pahami keterbatasan penggunaan komputer

Fungsionalitas penggunaan komputer masih dalam versi beta. Meskipun kemampuan Claude terdepan, pengembang harus menyadari keterbatasannya:

Latensi: latensi penggunaan komputer saat ini untuk interaksi manusia-AI mungkin terlalu lambat dibandingkan dengan tindakan komputer yang diarahkan manusia biasa. Kami merekomendasikan fokus pada kasus penggunaan di mana kecepatan tidak kritis (misalnya, pengumpulan informasi latar belakang, pengujian perangkat lunak otomatis) di lingkungan terpercaya.
Akurasi dan keandalan visi komputer: Claude mungkin membuat kesalahan atau berhalusinasi saat menampilkan koordinat spesifik sambil menghasilkan tindakan. Claude Sonnet 3.7 memperkenalkan kemampuan pemikiran yang dapat membantu Anda memahami penalaran model dan mengidentifikasi potensi masalah.
Akurasi dan keandalan pemilihan alat: Claude mungkin membuat kesalahan atau berhalusinasi saat memilih alat sambil menghasilkan tindakan atau mengambil tindakan yang tidak terduga untuk menyelesaikan masalah. Selain itu, keandalan mungkin lebih rendah saat berinteraksi dengan aplikasi niche atau beberapa aplikasi sekaligus. Kami merekomendasikan agar pengguna dengan hati-hati memberi perintah pada model saat meminta tugas yang kompleks.
Keandalan pengguliran: Claude Sonnet 3.7 memperkenalkan tindakan pengguliran khusus dengan kontrol arah yang meningkatkan keandalan. Model sekarang dapat secara eksplisit menggulir ke arah mana pun (atas/bawah/kiri/kanan) dengan jumlah yang ditentukan.
Interaksi spreadsheet: Klik mouse untuk interaksi spreadsheet telah ditingkatkan di Claude Sonnet 3.7 dengan penambahan tindakan kontrol mouse yang lebih presisi seperti left_mouse_down, left_mouse_up, dan dukungan tombol pengubah baru. Pemilihan sel dapat lebih andal dengan menggunakan kontrol butir halus ini dan menggabungkan tombol pengubah dengan klik.
Pembuatan akun dan pembuatan konten di platform media sosial dan komunikasi: Meskipun Claude akan mengunjungi situs web, kami membatasi kemampuannya untuk membuat akun atau menghasilkan dan berbagi konten atau sebaliknya terlibat dalam peniruan manusia di seluruh situs web dan platform media sosial. Kami dapat memperbarui kemampuan ini di masa depan.
Kerentanan: Kerentanan seperti jailbreaking atau injeksi prompt mungkin tetap ada di seluruh sistem AI frontier, termasuk API penggunaan komputer beta. Dalam beberapa keadaan, Claude akan mengikuti perintah yang ditemukan dalam konten, kadang-kadang bahkan bertentangan dengan instruksi pengguna. Misalnya, instruksi Claude di halaman web atau yang terdapat dalam gambar dapat mengganti instruksi atau menyebabkan Claude membuat kesalahan. Kami merekomendasikan: a. Membatasi penggunaan komputer ke lingkungan terpercaya seperti mesin virtual atau kontainer dengan hak istimewa minimal b. Menghindari pemberian akses penggunaan komputer ke akun atau data sensitif tanpa pengawasan ketat c. Menginformasikan pengguna akhir tentang risiko yang relevan dan mendapatkan persetujuan mereka sebelum mengaktifkan atau meminta izin yang diperlukan untuk fitur penggunaan komputer di aplikasi Anda
Tindakan yang tidak pantas atau ilegal: Sesuai dengan syarat layanan Anthropic, Anda tidak boleh menggunakan penggunaan komputer untuk melanggar hukum apa pun atau Kebijakan Penggunaan Yang Dapat Diterima kami.

Harga

Computer use follows the standard tool use pricing. When using the computer use tool:

System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt

Computer use tool token usage:

Model	Input tokens per tool definition
Claude 4.x models	735 tokens
Claude Sonnet 3.7 (deprecated)	735 tokens

Additional token consumption:

Screenshot images (see Vision pricing)
Tool execution results returned to Claude

If you're also using bash or text editor tools alongside computer use, those tools have their own token costs as documented in their respective pages.

Langkah berikutnya

Implementasi referensi

Mulai dengan cepat dengan implementasi berbasis Docker lengkap kami

Dokumentasi alat

Pelajari lebih lanjut tentang penggunaan alat dan membuat alat khusus

Was this page helpful?

Ikhtisar

Kompatibilitas model

Pertimbangan keamanan

Mulai cepat

Cara kerja computer use

Lingkungan komputasi

Cara mengimplementasikan computer use

Mulai dengan implementasi referensi kami

Memahami agent loop multi-agen

Optimalkan kinerja model dengan prompting

System prompts

Tindakan yang tersedia

Contoh tindakan

Kunci modifier dengan tindakan klik dan gulir

Parameter alat

Aktifkan kemampuan thinking di model Claude 4 dan Claude Sonnet 3.7

Augmentasi computer use dengan alat lain

Bangun lingkungan penggunaan komputer khusus

Implementasikan alat penggunaan komputer

Tangani kesalahan

Kegagalan penangkapan tangkapan layar

Koordinat tidak valid

Kegagalan eksekusi tindakan

Tangani penskalaan koordinat untuk resolusi lebih tinggi

Ikuti praktik terbaik implementasi

Gunakan resolusi tampilan yang sesuai

Implementasikan penanganan tangkapan layar yang tepat

Tambahkan penundaan tindakan

Validasi tindakan sebelum eksekusi

Catat tindakan untuk debugging

Pahami keterbatasan penggunaan komputer

Harga

Langkah berikutnya

Ikhtisar

Kompatibilitas model

Pertimbangan keamanan

Mulai cepat

Cara kerja computer use

Lingkungan komputasi

Cara mengimplementasikan computer use

Mulai dengan implementasi referensi kami

Memahami agent loop multi-agen

Optimalkan kinerja model dengan prompting

System prompts

Tindakan yang tersedia

Contoh tindakan

Kunci modifier dengan tindakan klik dan gulir

Parameter alat

Aktifkan kemampuan thinking di model Claude 4 dan Claude Sonnet 3.7

Augmentasi computer use dengan alat lain

Bangun lingkungan penggunaan komputer khusus

Implementasikan alat penggunaan komputer

Tangani kesalahan

Kegagalan penangkapan tangkapan layar

Koordinat tidak valid

Kegagalan eksekusi tindakan

Tangani penskalaan koordinat untuk resolusi lebih tinggi

Ikuti praktik terbaik implementasi

Gunakan resolusi tampilan yang sesuai

Implementasikan penanganan tangkapan layar yang tepat

Tambahkan penundaan tindakan

Validasi tindakan sebelum eksekusi

Catat tindakan untuk debugging

Pahami keterbatasan penggunaan komputer

Harga

Langkah berikutnya