Claude dapat berinteraksi dengan lingkungan komputer melalui alat "computer use" (penggunaan komputer), yang menyediakan kemampuan tangkapan layar serta kontrol mouse/keyboard untuk interaksi desktop secara otonom. Pada WebArena, sebuah benchmark untuk navigasi web otonom di berbagai situs web nyata, Claude mencapai hasil terbaik di kelasnya di antara sistem agen tunggal, menunjukkan kemampuan yang kuat untuk menyelesaikan tugas browser multi-langkah dari awal hingga akhir.
Computer use masih dalam tahap beta dan memerlukan beta header:
"computer-use-2025-11-24" untuk Claude Sonnet 5, Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6, dan Claude Opus 4.5"computer-use-2025-01-24" untuk Claude Sonnet 4.5, Claude Haiku 4.5, Claude Opus 4.1 (tidak digunakan lagi), Claude Sonnet 4 (dihentikan, kecuali di Bedrock dan Google Cloud), dan Claude Opus 4 (dihentikan, kecuali di Google Cloud)Hubungi kami melalui formulir umpan balik untuk membagikan masukan Anda tentang fitur ini.
Fitur ini memenuhi syarat untuk Zero Data Retention (ZDR). Ketika organisasi Anda memiliki pengaturan ZDR, data yang dikirim melalui fitur ini tidak disimpan setelah respons API dikembalikan.
Computer use adalah fitur beta yang memungkinkan Claude berinteraksi dengan lingkungan desktop. Alat ini menyediakan:
Meskipun computer use dapat dilengkapi dengan alat lain seperti bash dan text editor untuk alur kerja otomatisasi yang lebih komprehensif, computer use secara spesifik mengacu pada kemampuan alat computer use untuk melihat dan mengontrol lingkungan desktop.
Untuk dukungan model, lihat Referensi alat.
Computer use adalah fitur beta dengan risiko unik yang berbeda dari fitur API standar. Risiko ini meningkat saat berinteraksi dengan internet.
Untuk meminimalkan risiko, pertimbangkan untuk mengambil tindakan pencegahan seperti:
Dalam beberapa keadaan, Claude akan mengikuti perintah yang ditemukan dalam konten meskipun bertentangan dengan instruksi pengguna. Misalnya, instruksi untuk Claude pada halaman web atau yang terkandung dalam gambar mungkin mengesampingkan instruksi atau menyebabkan Claude membuat kesalahan. Ambil tindakan pencegahan untuk mengisolasi Claude dari data dan tindakan sensitif guna menghindari risiko terkait prompt injection.
Anthropic telah melatih model untuk menolak prompt injection ini dan telah menambahkan lapisan pertahanan tambahan. Jika Anda menggunakan alat computer use, classifier akan secara otomatis berjalan pada prompt Anda untuk menandai potensi kasus prompt injection. Ketika classifier ini mengidentifikasi potensi prompt injection dalam tangkapan layar, mereka akan secara otomatis mengarahkan model untuk meminta konfirmasi pengguna sebelum melanjutkan ke tindakan berikutnya. Perlindungan tambahan ini tidak akan ideal untuk setiap kasus penggunaan (misalnya, kasus penggunaan tanpa manusia dalam loop), jadi jika Anda ingin menonaktifkannya, hubungi dukungan.
Tindakan pencegahan ini tetap penting bahkan dengan adanya lapisan pertahanan classifier.
Informasikan kepada pengguna akhir tentang risiko yang relevan dan dapatkan persetujuan mereka sebelum mengaktifkan computer use dalam produk Anda sendiri.
Mulailah dengan implementasi referensi computer use yang mencakup antarmuka web, kontainer Docker, contoh implementasi alat, dan agent loop.
Berikut cara memulai dengan computer use:
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-8", # or another compatible model
max_tokens=1024,
tools=[
{
"type": "computer_20251124",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1,
},
{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
{"type": "bash_20250124", "name": "bash"},
],
messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
betas=["computer-use-2025-11-24"],
)
print(response)Beta header hanya diperlukan untuk alat computer use.
Contoh sebelumnya menunjukkan ketiga alat digunakan bersama, yang memerlukan beta header karena menyertakan alat computer use.
Berikan Claude alat computer use dan prompt pengguna
Claude memilih alat computer use
stop_reason berupa tool_use, yang menandakan permintaan penggunaan alat.Ekstrak input alat, evaluasi alat pada komputer, dan kembalikan hasilnya
user baru yang berisi blok konten tool_result.Claude terus memanggil alat computer use hingga tugas selesai
stop_reason tool_use lagi dan Anda harus kembali ke langkah 3.Pengulangan langkah 3 dan 4 tanpa input pengguna disebut sebagai "agent loop" (yaitu, Claude merespons dengan permintaan penggunaan alat dan aplikasi Anda merespons Claude dengan hasil evaluasi permintaan tersebut).
Computer use memerlukan lingkungan komputasi sandbox tempat Claude dapat berinteraksi dengan aman dengan aplikasi dan web. Lingkungan ini mencakup:
Tampilan virtual: Server tampilan X11 virtual (menggunakan Xvfb) yang merender antarmuka desktop yang akan dilihat Claude melalui tangkapan layar dan dikontrol dengan tindakan mouse/keyboard.
Lingkungan desktop: UI ringan dengan window manager (Mutter) dan panel (Tint2) yang berjalan di Linux, yang menyediakan antarmuka grafis yang konsisten untuk berinteraksi dengan Claude.
Aplikasi: Aplikasi Linux yang sudah terinstal seperti Firefox, LibreOffice, editor teks, dan pengelola file yang dapat digunakan Claude untuk menyelesaikan tugas.
Implementasi alat: Kode integrasi yang menerjemahkan permintaan alat abstrak Claude (seperti "gerakkan mouse" atau "ambil tangkapan layar") menjadi operasi aktual di lingkungan virtual.
Agent loop: Program yang menangani komunikasi antara Claude dan lingkungan, mengirimkan tindakan Claude ke lingkungan dan mengembalikan hasilnya (tangkapan layar, output perintah) kembali ke Claude.
Saat Anda menggunakan computer use, Claude tidak terhubung langsung ke lingkungan ini. Sebaliknya, aplikasi Anda:
Untuk keamanan dan isolasi, implementasi referensi menjalankan semua ini di dalam kontainer Docker dengan pemetaan port yang sesuai untuk melihat dan berinteraksi dengan lingkungan.
Tersedia implementasi referensi yang mencakup semua yang Anda butuhkan untuk memulai dengan computer use:
Inti dari computer use adalah "agent loop": siklus di mana Claude meminta tindakan alat, aplikasi Anda menjalankannya, dan mengembalikan hasilnya ke Claude. Berikut contoh yang disederhanakan:
Loop berlanjut hingga Claude merespons tanpa meminta alat apa pun (tugas selesai) atau batas iterasi maksimum tercapai. Pengaman ini mencegah potensi loop tak terbatas yang dapat mengakibatkan biaya API yang tidak terduga.
Coba implementasi referensi terlebih dahulu sebelum membaca sisa dokumentasi ini.
Berikut beberapa tips untuk mendapatkan output berkualitas terbaik:
After each step, take a screenshot and carefully evaluate if you have achieved the right outcome. Explicitly show your thinking: "I have evaluated step X..." If not correct, try again. Only when you confirm a step was executed correctly should you move on to the next one.<robot_credentials>. Menggunakan computer use dalam aplikasi yang memerlukan login meningkatkan risiko hasil buruk akibat prompt injection. Tinjau Mitigasi jailbreak dan prompt injection sebelum memberikan kredensial login kepada model.content pada giliran pengguna, tempatkan teks instruksi sebelum gambar tangkapan layar. Memberikan deskripsi target sebelum gambar diproses akan meningkatkan akurasi klik.computer_20251124 dengan enable_zoom: true diatur, Claude akan memperbesar suatu area ketika ditanya tentang teks kecil atau elemen UI tertentu yang tidak terbaca pada resolusi default tangkapan layar, seperti nama file di sidebar, judul tab, teks status bar, nomor baris, atau label tombol. Jika Claude tidak memperbesar saat Anda mengharapkannya, tanyakan tentang area atau elemen tertentu alih-alih layar secara keseluruhan.Jika Anda berulang kali menemui serangkaian masalah yang jelas atau mengetahui sebelumnya tugas yang perlu diselesaikan Claude, gunakan prompt sistem untuk memberikan Claude tips atau instruksi eksplisit tentang cara menyelesaikan tugas dengan sukses.
Untuk agen yang mencakup beberapa sesi, jalankan verifikasi end-to-end di awal setiap sesi, bukan hanya setelah implementasi. Pemeriksaan berbasis browser menangkap regresi dari sesi sebelumnya yang terlewat oleh tinjauan tingkat kode saja. Lihat Effective harnesses for long-running agents untuk detailnya.
Ketika salah satu alat dengan skema Anthropic diminta melalui Claude API, prompt sistem khusus computer use akan dihasilkan. Ini mirip dengan prompt sistem penggunaan alat tetapi dimulai dengan:
You have access to a set of functions you can use to answer the user's question. This includes access to a sandboxed computing environment. You do NOT currently have the ability to inspect files or interact with external resources, except by invoking the below functions.
Seperti halnya penggunaan alat biasa, field system_prompt yang disediakan pengguna tetap dihormati dan digunakan dalam penyusunan prompt sistem gabungan.
Alat computer use mendukung tindakan berikut:
Tindakan dasar (semua versi)
[x, y]Tindakan yang ditingkatkan (computer_20250124)
Tersedia di semua model yang mendukung computer use:
Tindakan yang ditingkatkan (computer_20251124)
Tersedia di Claude Sonnet 5, Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6, dan Claude Opus 4.5:
computer_20250124enable_zoom: true dalam definisi alat. Menerima parameter region dengan koordinat [x1, y1, x2, y2] yang mendefinisikan sudut kiri atas dan kanan bawah dari area yang akan diperiksa.| Parameter | Wajib | Deskripsi |
|---|---|---|
type | Ya | Versi alat (computer_20251124 atau computer_20250124) |
name | Ya | Harus berupa "computer" |
display_width_px | Ya | Lebar tampilan dalam piksel |
display_height_px | Ya | Tinggi tampilan dalam piksel |
display_number | Tidak | Nomor tampilan untuk lingkungan X11 |
enable_zoom | Tidak | Mengaktifkan tindakan zoom (hanya computer_20251124). Atur ke true untuk mengizinkan Claude memperbesar area layar tertentu. Default: false |
Penting: Aplikasi Anda harus secara eksplisit menjalankan alat computer use; Claude tidak dapat menjalankannya secara langsung. Anda bertanggung jawab untuk mengimplementasikan pengambilan tangkapan layar, gerakan mouse, input keyboard, dan tindakan lainnya berdasarkan permintaan Claude.
Untuk menggabungkan computer use dengan pemikiran diperpanjang, lihat Pemikiran diperpanjang.
Khusus untuk computer use, benchmarking internal menyarankan pengaturan effort berikut:
high sebagai default; gunakan low untuk beban kerja dengan throughput tinggi atau yang sensitif terhadap biaya.medium sebagai default (rasio akurasi-terhadap-biaya terbaik). Hindari max, yang menambah biaya token tanpa meningkatkan akurasi pada tugas UI. Pada model-model ini, low menggunakan lebih sedikit token output dibandingkan menonaktifkan thinking sepenuhnya (lebih sedikit kesalahan berarti lebih sedikit percobaan ulang), menjadikannya opsi yang kuat untuk loop yang sensitif terhadap biaya.Untuk menambahkan alat lain bersama computer use, sertakan alat tersebut dalam array tools yang sama. Bagian Mulai cepat menunjukkan pola ini dengan alat bash dan alat text editor. Anda dapat menambahkan definisi alat kustom Anda sendiri dengan cara yang sama.
Implementasi referensi dimaksudkan untuk membantu Anda memulai dengan computer use. Implementasi ini mencakup semua komponen yang diperlukan agar Claude dapat menggunakan komputer. Namun, Anda dapat membangun lingkungan Anda sendiri untuk computer use sesuai kebutuhan Anda. Anda akan memerlukan:
tool_use menggunakan implementasi alat AndaAlat computer use diimplementasikan sebagai alat tanpa skema. Saat menggunakan alat ini, Anda tidak perlu menyediakan skema input seperti pada alat lainnya; skema sudah terintegrasi ke dalam model Claude dan tidak dapat dimodifikasi.
Siapkan lingkungan komputasi Anda
Buat tampilan virtual atau hubungkan ke tampilan yang sudah ada yang akan berinteraksi dengan Claude. Ini biasanya melibatkan pengaturan Xvfb (X Virtual Framebuffer) atau teknologi serupa.
Implementasikan action handler
Buat fungsi untuk menangani setiap jenis tindakan yang mungkin diminta Claude:
Proses pemanggilan alat dari Claude
Ekstrak dan jalankan pemanggilan alat dari respons Claude:
Implementasikan agent loop
Buat loop yang berlanjut hingga Claude menyelesaikan tugas:
Saat mengimplementasikan alat computer use, berbagai error mungkin terjadi. Berikut cara menanganinya:
Tangkapan layar yang dikirim ke alat computer harus sudah sesuai dengan batas ukuran gambar Claude (lihat batas ukuran gambar). API tidak mengubah ukuran gambar yang terlalu besar; tangkapan layar yang melebihi batas akan ditolak dengan error validasi HTTP 400.
Batas bervariasi menurut model. Claude Sonnet 5, Claude Opus 4.8, dan Claude Opus 4.7 menerima hingga 2576 piksel pada sisi terpanjang; model sebelumnya menerima hingga 1568 piksel pada sisi terpanjang dan sekitar 1,15 megapiksel total. Contoh berikut menggunakan batas model sebelumnya yaitu 1568 px / 1,15 MP; ganti dengan batas model Anda.
Jika layar Anda lebih besar dari batas tersebut, ubah ukuran tangkapan layar sebelum mengirimnya, atur display_width_px/display_height_px ke dimensi yang telah diubah ukurannya, dan skalakan kembali koordinat yang dikembalikan Claude ke ruang layar asli:
Layar Retina macOS menangkap tangkapan layar pada rasio piksel perangkat 2, sehingga gambar memiliki resolusi dua kali lipat dari koordinat layar logis. Perkecil tangkapan layar sebesar 2x sebelum mengirim, atau bagi dua koordinat yang dikembalikan Claude sebelum melakukan klik.
Jika klik meleset dari targetnya, penyebabnya biasanya salah satu dari berikut:
| Gejala | Kemungkinan penyebab | Coba |
|---|---|---|
| Klik secara konsisten bergeser ke satu arah | display_width_px/display_height_px tidak cocok dengan dimensi gambar yang sebenarnya dikirim | Pastikan dimensi tampilan persis cocok dengan tangkapan layar yang Anda kirim |
| Klik mendarat di area yang benar tetapi meleset dari target | Target sangat kecil, detail hilang saat memperkecil sumber 4K+, atau rasio aspek terdistorsi | Atur enable_zoom: true; tangkap pada DPI lebih rendah atau potong ke area yang relevan; pertahankan rasio aspek saat mengubah ukuran |
| Claude mengklik elemen yang sepenuhnya salah | Instruksi ambigu, atau ada elemen yang secara visual mirip di dekatnya | Gunakan prompt posisional ("tombol Submit biru di kanan bawah"); pecah interaksi menjadi langkah-langkah yang lebih kecil |
| Akurasi secara konsisten buruk | Resolusi terlalu rendah | Coba 1280x720 sebagai baseline |
Pilihan model memengaruhi presisi klik. Claude Sonnet 4.6 secara mekanis lebih presisi dalam mengklik dibandingkan Claude Opus 4.6 dan lebih tangguh ketika tangkapan layar memerlukan pengecilan yang signifikan. Claude Opus 4.7 mempersempit kesenjangan tersebut: presisi kliknya kurang lebih sebanding dengan Sonnet 4.6, dan batas resolusinya yang lebih tinggi berarti lebih sedikit pengecilan yang diperlukan.
Fungsionalitas "computer use" (penggunaan komputer) masih dalam tahap beta. Meskipun kemampuan Claude sudah mutakhir, pengembang harus menyadari batasan-batasannya:
left_mouse_down, left_mouse_up) dan kombinasi tombol modifier untuk memilih sel individual. Operasi spreadsheet yang kompleks mungkin masih memerlukan beberapa kali percobaan.Selalu tinjau dan verifikasi dengan cermat tindakan dan log computer use Claude. Jangan gunakan Claude untuk tugas yang memerlukan presisi sempurna atau informasi pengguna yang sensitif tanpa pengawasan manusia.
Computer use adalah alat sisi klien. Semua tangkapan layar, tindakan mouse, input keyboard, dan file apa pun yang terlibat dalam sesi ditangkap dan disimpan di lingkungan Anda, bukan oleh Anthropic. Anthropic memproses gambar tangkapan layar dan permintaan tindakan secara real time sebagai bagian dari panggilan API tetapi tidak menyimpannya setelah respons dikembalikan.
Karena aplikasi Anda mengontrol di mana dan bagaimana data computer use disimpan, computer use memenuhi syarat ZDR. Untuk kelayakan ZDR di seluruh fitur, lihat API dan retensi data.
Computer use mengikuti harga penggunaan alat standar. Saat menggunakan alat computer use:
Overhead prompt sistem: Beta computer use menambahkan 466-499 token ke prompt sistem
Penggunaan token alat computer use:
| Model | Token input per definisi alat |
|---|---|
| Model Claude 4.x | 735 token |
Konsumsi token tambahan:
Jika Anda juga menggunakan alat bash atau text editor bersamaan dengan computer use, alat-alat tersebut memiliki biaya token tersendiri sebagaimana didokumentasikan di halaman masing-masing.
Lanjutkan ke alat berikutnya: lihat, buat, dan edit file dengan Claude
Mulai dengan implementasi lengkap berbasis Docker
Pelajari lebih lanjut tentang penggunaan alat dan pembuatan alat kustom
Rekomendasi yang telah di-benchmark untuk resolusi, upaya pemikiran, dan manajemen konteks
Was this page helpful?