Loading...
    • Bangun
    • Admin
    • Model & harga
    • Client SDKs
    • API Reference
    Search...
    ⌘K
    Langkah pertama
    Pengenalan ClaudePanduan cepat
    Membangun dengan Claude
    Ikhtisar fiturMenggunakan Messages APIClaude API skillMenangani alasan penghentian
    Kemampuan model
    Extended thinkingAdaptive thinkingUpayaAnggaran tugas (beta)Mode cepat (beta: pratinjau penelitian)Output terstrukturKutipanStreaming MessagesPemrosesan batchHasil pencarianStreaming penolakanDukungan multibahasaEmbeddings
    Alat
    IkhtisarCara kerja penggunaan alatAlat pencarian webAlat pengambilan webAlat eksekusi kodeAlat penasihatAlat memoriAlat BashAlat penggunaan komputerAlat editor teks
    Infrastruktur alat
    Referensi alatPencarian alatPemanggilan alat terprogramStreaming alat berbutir halus
    Manajemen konteks
    Jendela konteksPemadatanPengeditan konteksPrompt cachingPenghitungan token
    Bekerja dengan file
    Files APIDukungan PDFGambar dan visi
    Skills
    IkhtisarPanduan cepatPraktik terbaikSkills untuk enterpriseSkills dalam API
    MCP
    Server MCP jarak jauhMCP connector
    Rekayasa prompt
    IkhtisarPraktik terbaik promptingAlat prompting Console
    Uji dan evaluasi
    Tentukan kesuksesan dan bangun evaluasiMenggunakan Alat Evaluasi di ConsoleMengurangi latensi
    Perkuat guardrail
    Kurangi halusinasiTingkatkan konsistensi outputMitigasi jailbreakKurangi kebocoran prompt
    Sumber daya
    Glosarium
    Catatan rilis
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Bekerja dengan file

    Visi

    Kemampuan visi Claude memungkinkannya untuk memahami dan menganalisis gambar, membuka kemungkinan menarik untuk interaksi multimodal.

    Panduan ini menjelaskan cara bekerja dengan gambar di Claude, termasuk praktik terbaik, contoh kode, dan batasan yang perlu diingat.


    Cara menggunakan visi

    Gunakan kemampuan visi Claude melalui:

    • claude.ai. Unggah gambar seperti Anda mengunggah file, atau seret dan lepaskan gambar langsung ke jendela obrolan.
    • Console Workbench. Tombol untuk menambahkan gambar muncul di sudut kanan atas setiap blok pesan Pengguna.
    • Permintaan API. Lihat contoh dalam panduan ini.

    Sebelum Anda mengunggah

    Dasar dan batas

    Anda dapat menyertakan beberapa gambar dalam satu permintaan: hingga 20 untuk claude.ai, dan hingga 600 untuk permintaan API (100 untuk model dengan jendela konteks token 200k). Claude menganalisis semua gambar yang disediakan saat merumuskan responsnya. Ini dapat membantu untuk membandingkan atau membedakan gambar.

    Jika Anda mengirimkan gambar yang lebih besar dari 8000x8000 px, gambar tersebut akan ditolak. Jika Anda mengirimkan lebih dari 20 gambar dalam satu permintaan API, batas ini adalah 2000x2000 px.

    Meskipun API mendukung hingga 600 gambar per permintaan, batas ukuran permintaan (32 MB untuk titik akhir standar; lebih rendah di beberapa platform pihak ketiga) dapat tercapai terlebih dahulu. Untuk banyak gambar, pertimbangkan untuk mengunggah dengan Files API dan mereferensikan dengan file_id untuk menjaga payload permintaan tetap kecil.

    Bahkan saat menggunakan Files API, permintaan dengan banyak gambar besar dapat gagal sebelum mencapai jumlah 600 gambar. Kurangi dimensi gambar atau ukuran file (misalnya, dengan downsampling) sebelum mengunggah (lihat Evaluasi ukuran gambar).

    Evaluasi ukuran gambar

    Untuk meminimalkan latensi tanpa mengorbankan kualitas output, ubah ukuran gambar sebelum mengunggah jika terlalu besar. Pada Claude Opus 4.6, Claude Sonnet 4.6, dan model sebelumnya, jika tepi panjang gambar Anda lebih dari 1568 piksel, atau gambar Anda lebih dari ~1.600 token, gambar tersebut pertama kali diperkecil, mempertahankan rasio aspek, hingga berada dalam batas ukuran.

    Jika gambar input Anda terlalu besar dan perlu diubah ukurannya, hal ini meningkatkan latensi time-to-first-token, tanpa manfaat untuk kualitas output. Gambar yang sangat kecil di bawah 200 piksel di tepi mana pun dapat menurunkan kualitas output.

    Untuk model sebelum Claude Opus 4.7, untuk meningkatkan time-to-first-token, pertimbangkan untuk mengubah ukuran gambar menjadi tidak lebih dari 1,15 megapiksel (dan dalam 1568 piksel di kedua dimensi). Untuk Claude Opus 4.7, lihat Dukungan gambar resolusi tinggi di bawah.

    Dukungan gambar resolusi tinggi pada Claude Opus 4.7

    Claude Opus 4.7 adalah model Claude pertama dengan dukungan gambar resolusi tinggi. Resolusi gambar maksimum adalah 2576 piksel pada tepi panjang (naik dari 1568 px pada model sebelumnya). Ini membuka keuntungan kinerja pada beban kerja yang berat visi dan sangat berharga untuk penggunaan komputer, pemahaman tangkapan layar, dan analisis dokumen.

    Dukungan resolusi tinggi otomatis pada Claude Opus 4.7 dan tidak memerlukan header beta atau opt-in sisi klien.

    Biaya token: Gambar resolusi penuh pada Claude Opus 4.7 dapat menggunakan hingga sekitar 3x lebih banyak token gambar daripada pada model sebelumnya (hingga 4784 token per gambar, dibandingkan dengan batas sebelumnya sekitar ~1.600 token per gambar). Jika Anda tidak memerlukan kejelasan tambahan, downsample gambar sebelum mengirim untuk mengontrol biaya token.

    Matematika koordinat: Pada Claude Opus 4.7, koordinat penunjukan dan kotak pembatas yang dikembalikan oleh model adalah 1

    dengan piksel gambar aktual, jadi tidak ada konversi faktor skala yang diperlukan. Ini menyederhanakan penggunaan komputer, anotasi, dan alur kerja lokalisasi.

    Berikut adalah tabel ukuran gambar maksimum yang diterima oleh API yang tidak akan diubah ukurannya untuk rasio aspek umum. Dengan Claude Sonnet 4.6, gambar-gambar ini menggunakan sekitar 1.600 token dan sekitar $4,80/1k gambar.

    Rasio aspekUkuran gambar
    1:11092x1092 px
    3:4951x1268 px
    2:3896x1344 px
    9:16819x1456 px
    1:2784x1568 px

    Hitung biaya gambar

    Setiap gambar yang Anda sertakan dalam permintaan ke Claude dihitung terhadap penggunaan token Anda. Untuk menghitung biaya perkiraan, kalikan jumlah token gambar perkiraan dengan harga per-token model yang Anda gunakan.

    Jika gambar Anda tidak perlu diubah ukurannya, Anda dapat memperkirakan jumlah token yang digunakan melalui algoritma ini: tokens = (width px * height px)/750

    Berikut adalah contoh tokenisasi perkiraan dan biaya untuk ukuran gambar berbeda dalam batasan ukuran API berdasarkan harga per-token Claude Sonnet 4.6 sebesar $3 per juta token input:

    Ukuran gambar# TokenBiaya / gambarBiaya / 1k gambar
    200x200 px(0,04 megapiksel)~54~$0,00016~$0,16
    1000x1000 px(1 megapiksel)~1334~$0,004~$4,00
    1092x1092 px(1,19 megapiksel)~1590~$0,0048~$4,80

    Memastikan kualitas gambar

    Saat memberikan gambar kepada Claude, pertimbangkan hal berikut untuk hasil terbaik:

    • Format gambar: Gunakan format gambar yang didukung: JPEG, PNG, GIF, atau WebP.
    • Kejelasan gambar: Pastikan gambar jelas dan tidak terlalu buram atau pikselasi.
    • Teks: Jika gambar berisi teks penting, pastikan teks tersebut dapat dibaca dan tidak terlalu kecil. Hindari memotong konteks visual kunci hanya untuk memperbesar teks.

    Contoh prompt

    Banyak dari teknik prompting yang bekerja dengan baik untuk interaksi berbasis teks dengan Claude juga dapat diterapkan pada prompt berbasis gambar.

    Contoh-contoh ini mendemonstrasikan struktur prompt praktik terbaik yang melibatkan gambar.

    Sama seperti menempatkan dokumen panjang sebelum kueri Anda meningkatkan hasil dalam prompt teks, Claude bekerja paling baik ketika gambar datang sebelum teks. Gambar yang ditempatkan setelah teks atau diinterpolasi dengan teks masih berkinerja baik, tetapi jika kasus penggunaan Anda memungkinkan, lebih suka struktur gambar-lalu-teks.

    Tentang contoh prompt

    Contoh-contoh berikut mendemonstrasikan cara menggunakan kemampuan visi Claude menggunakan berbagai bahasa pemrograman dan pendekatan. Anda dapat memberikan gambar kepada Claude dalam tiga cara:

    1. Sebagai gambar yang dikodekan base64 dalam blok konten image
    2. Sebagai referensi URL ke gambar yang dihosting online
    3. Menggunakan Files API (unggah sekali, gunakan berkali-kali)

    Prompt contoh base64 menggunakan variabel-variabel ini:

    import base64
    import httpx
    
    # Untuk gambar yang dikodekan base64
    image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
    image1_media_type = "image/jpeg"
    image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")
    
    image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
    image2_media_type = "image/jpeg"
    image2_data = base64.standard_b64encode(httpx.get(image2_url).content).decode("utf-8")
    
    # Untuk gambar berbasis URL, Anda dapat menggunakan URL langsung dalam permintaan Anda

    Di bawah ini adalah contoh cara menyertakan gambar dalam permintaan Messages API menggunakan gambar yang dikodekan base64 dan referensi URL:

    Contoh gambar yang dikodekan base64

    image1_data = "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAIAAACQd1PeAAAADElEQVR4nGP4z8AAAAMBAQDJ/pLvAAAAAElFTkSuQmCC"
    image1_media_type = "image/png"
    
    client = anthropic.Anthropic()
    message = client.messages.create(
        model="claude-opus-4-7",
        max_tokens=1024,
        messages=[
            {
                "role": "user",
                "content": [
                    {
                        "type": "image",
                        "source": {
                            "type": "base64",
                            "media_type": image1_media_type,
                            "data": image1_data,
                        },
                    },
                    {"type": "text", "text": "Describe this image."},
                ],
            }
        ],
    )
    print(message)

    Contoh gambar berbasis URL

    client = anthropic.Anthropic()
    message = client.messages.create(
        model="claude-opus-4-7",
        max_tokens=1024,
        messages=[
            {
                "role": "user",
                "content": [
                    {
                        "type": "image",
                        "source": {
                            "type": "url",
                            "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg",
                        },
                    },
                    {"type": "text", "text": "Describe this image."},
                ],
            }
        ],
    )
    print(message)

    Contoh Files API untuk gambar

    Untuk gambar yang akan Anda gunakan berulang kali atau ketika Anda ingin menghindari overhead encoding, gunakan Files API. Unggah gambar sekali, kemudian referensikan file_id yang dikembalikan dalam pesan berikutnya alih-alih mengirim ulang data base64.

    Dalam percakapan multi-turn dan alur kerja agentic, setiap permintaan mengirim ulang riwayat percakapan lengkap. Jika gambar dikodekan base64, byte gambar lengkap disertakan dalam payload pada setiap turn, yang dapat secara signifikan meningkatkan ukuran permintaan dan latensi seiring pertumbuhan percakapan. Mengunggah gambar ke Files API dan mereferensikannya dengan file_id membuat payload permintaan tetap kecil terlepas dari berapa banyak gambar yang terakumulasi dalam riwayat percakapan.

    client = anthropic.Anthropic()
    
    # Unggah file gambar
    with open("image.jpg", "rb") as f:
        file_upload = client.beta.files.upload(file=("image.jpg", f, "image/jpeg"))
    
    # Gunakan file yang diunggah dalam pesan
    message = client.beta.messages.create(
        model="claude-opus-4-7",
        max_tokens=1024,
        betas=["files-api-2025-04-14"],
        messages=[
            {
                "role": "user",
                "content": [
                    {
                        "type": "image",
                        "source": {"type": "file", "file_id": file_upload.id},
                    },
                    {"type": "text", "text": "Describe this image."},
                ],
            }
        ],
    )
    
    print(message.content)

    Lihat contoh Messages API untuk lebih banyak contoh kode dan detail parameter.


    Keterbatasan

    Meskipun kemampuan pemahaman gambar Claude terdepan, ada beberapa keterbatasan yang perlu diketahui:

    • Identifikasi orang: Claude tidak dapat digunakan untuk menamai orang dalam gambar dan menolak untuk melakukannya.
    • Akurasi: Claude mungkin mengalami halusinasi atau membuat kesalahan saat menafsirkan gambar berkualitas rendah, diputar, atau sangat kecil di bawah 200 piksel.
    • Penalaran spasial: Kemampuan penalaran spasial Claude terbatas. Mungkin kesulitan dengan tugas yang memerlukan lokalisasi presisi atau tata letak, seperti membaca wajah jam analog atau mendeskripsikan posisi tepat dari bidak catur.
    • Penghitungan: Claude dapat memberikan perkiraan jumlah objek dalam gambar tetapi mungkin tidak selalu akurat, terutama dengan jumlah besar objek kecil.
    • Gambar yang dihasilkan AI: Claude tidak tahu apakah gambar dihasilkan AI dan mungkin salah jika ditanya. Jangan mengandalkannya untuk mendeteksi gambar palsu atau sintetis.
    • Konten yang tidak pantas: Claude tidak memproses gambar yang tidak pantas atau eksplisit yang melanggar Kebijakan Penggunaan yang Dapat Diterima.
    • Aplikasi kesehatan: Meskipun Claude dapat menganalisis gambar medis umum, Claude tidak dirancang untuk menafsirkan pemindaian diagnostik kompleks seperti CT atau MRI. Output Claude tidak boleh dianggap sebagai pengganti saran atau diagnosis medis profesional.

    Selalu tinjau dan verifikasi interpretasi gambar Claude dengan hati-hati, terutama untuk kasus penggunaan berisiko tinggi. Jangan gunakan Claude untuk tugas yang memerlukan presisi sempurna atau analisis gambar sensitif tanpa pengawasan manusia.


    FAQ


    Pelajari lebih dalam tentang visi

    Siap mulai membangun dengan gambar menggunakan Claude? Berikut adalah beberapa sumber daya yang berguna:

    • Multimodal cookbook: Cookbook ini memiliki tips tentang memulai dengan gambar dan teknik praktik terbaik untuk memastikan kinerja kualitas tertinggi dengan gambar. Lihat bagaimana Anda dapat secara efektif memberi prompt Claude dengan gambar untuk melakukan tugas seperti menafsirkan dan menganalisis bagan atau mengekstrak konten dari formulir.
    • Referensi API: Dokumentasi untuk Messages API, termasuk contoh panggilan API yang melibatkan gambar.

    Jika Anda memiliki pertanyaan lain, hubungi tim dukungan. Anda juga dapat bergabung dengan komunitas pengembang untuk terhubung dengan kreator lain dan mendapatkan bantuan dari ahli Anthropic.

    Was this page helpful?

    • Cara menggunakan visi
    • Sebelum Anda mengunggah
    • Dasar dan batas
    • Evaluasi ukuran gambar
    • Hitung biaya gambar
    • Memastikan kualitas gambar
    • Contoh prompt
    • Tentang contoh prompt
    • Contoh gambar yang dikodekan base64
    • Contoh gambar berbasis URL
    • Contoh Files API untuk gambar
    • Keterbatasan
    • FAQ
    • Pelajari lebih dalam tentang visi