Loading...
    • Panduan Pengembang
    • Referensi API
    • MCP
    • Sumber Daya
    • Catatan Rilis
    Search...
    ⌘K

    Langkah pertama

    Pengantar ClaudePanduan Cepat

    Model & harga

    Ikhtisar modelMemilih modelApa yang baru di Claude 4.5Migrasi ke Claude 4.5Penghentian modelHarga

    Bangun dengan Claude

    Ikhtisar fiturBekerja dengan Messages APIJendela konteksPraktik terbaik prompting

    Kemampuan

    Penyimpanan cache promptPengeditan konteksPemikiran yang diperluasStreaming MessagesPemrosesan batchKutipanDukungan multibahasaPenghitungan tokenEmbeddingsVisiDukungan PDFFiles APIHasil pencarianAdd-on Google Sheets

    Alat

    Gambaran UmumCara mengimplementasikan penggunaan alatPenggunaan tool yang efisien tokenStreaming tool berbutir halusAlat BashAlat eksekusi kodeAlat penggunaan komputerAlat editor teksAlat web fetchAlat pencarian webAlat memori

    Keterampilan Agen

    IkhtisarMulai dengan Agent Skills di APIPraktik terbaik pembuatan SkillMenggunakan Agent Skills dengan API

    SDK Agen

    Ikhtisar Agent SDKReferensi Agent SDK - TypeScriptReferensi Agent SDK - Python

    Panduan

    Input StreamingMenangani IzinManajemen SesiHosting the Agent SDKMemodifikasi system promptMCP dalam SDKAlat KustomSubagen dalam SDKPerintah Slash dalam SDKAgent Skills dalam SDKMelacak Biaya dan PenggunaanDaftar TodoPlugin dalam SDK

    MCP dalam API

    Konektor MCPServer MCP jarak jauh

    Claude di platform pihak ketiga

    Amazon BedrockVertex AI

    Rekayasa Prompt

    IkhtisarGenerator promptGunakan template promptPerbaikan promptBersikap jelas dan langsungGunakan contoh (multishot prompting)Biarkan Claude berpikir (CoT)Gunakan tag XMLBerikan Claude peran (system prompts)Isi awal respons ClaudeRangkai prompt kompleksTips konteks panjangTips pemikiran diperpanjang

    Uji & evaluasi

    Tentukan kriteria keberhasilanKembangkan kasus ujiMenggunakan Alat EvaluasiMengurangi latensi

    Perkuat perlindungan

    Mengurangi halusinasiMeningkatkan konsistensi outputMitigasi jailbreakhandle-streaming-refusalsMengurangi kebocoran promptMenjaga Claude dalam karakter

    Administrasi dan pemantauan

    Ikhtisar Admin APIAPI Penggunaan dan BiayaClaude Code Analytics API
    Console
    Uji & evaluasi

    Mengurangi latensi

    Pelajari cara mengurangi latensi dalam aplikasi Claude Anda melalui pemilihan model yang tepat, optimisasi prompt, dan streaming.

    Latensi mengacu pada waktu yang dibutuhkan model untuk memproses prompt dan menghasilkan output. Latensi dapat dipengaruhi oleh berbagai faktor, seperti ukuran model, kompleksitas prompt, dan infrastruktur yang mendasari model dan titik interaksi.

    Selalu lebih baik untuk terlebih dahulu merekayasa prompt yang bekerja dengan baik tanpa batasan model atau prompt, dan kemudian mencoba strategi pengurangan latensi setelahnya. Mencoba mengurangi latensi terlalu dini mungkin mencegah Anda menemukan seperti apa performa terbaik itu.


    Cara mengukur latensi

    Ketika membahas latensi, Anda mungkin menemukan beberapa istilah dan pengukuran:

    • Latensi dasar: Ini adalah waktu yang dibutuhkan model untuk memproses prompt dan menghasilkan respons, tanpa mempertimbangkan token input dan output per detik. Ini memberikan gambaran umum tentang kecepatan model.
    • Waktu ke token pertama (TTFT): Metrik ini mengukur waktu yang dibutuhkan model untuk menghasilkan token pertama dari respons, dari saat prompt dikirim. Ini sangat relevan ketika Anda menggunakan streaming (lebih lanjut tentang itu nanti) dan ingin memberikan pengalaman yang responsif kepada pengguna Anda.

    Untuk pemahaman yang lebih mendalam tentang istilah-istilah ini, lihat glosarium kami.


    Cara mengurangi latensi

    1. Pilih model yang tepat

    Salah satu cara paling langsung untuk mengurangi latensi adalah memilih model yang sesuai untuk kasus penggunaan Anda. Anthropic menawarkan berbagai model dengan kemampuan dan karakteristik performa yang berbeda. Pertimbangkan kebutuhan spesifik Anda dan pilih model yang paling sesuai dengan kebutuhan Anda dalam hal kecepatan dan kualitas output.

    Untuk aplikasi yang kritis terhadap kecepatan, Claude Haiku 4.5 menawarkan waktu respons tercepat sambil mempertahankan kecerdasan tinggi:

    import anthropic
    
    client = anthropic.Anthropic()
    
    # Untuk aplikasi yang sensitif terhadap waktu, gunakan Claude Haiku 4.5
    message = client.messages.create(
        model="claude-haiku-4-5",
        max_tokens=100,
        messages=[{
            "role": "user",
            "content": "Ringkas umpan balik pelanggan ini dalam 2 kalimat: [teks umpan balik]"
        }]
    )

    Untuk detail lebih lanjut tentang metrik model, lihat halaman ikhtisar model kami.

    2. Optimalkan panjang prompt dan output

    Minimalkan jumlah token dalam prompt input dan output yang diharapkan, sambil tetap mempertahankan performa tinggi. Semakin sedikit token yang harus diproses dan dihasilkan model, semakin cepat responsnya.

    Berikut beberapa tips untuk membantu Anda mengoptimalkan prompt dan output:

    • Jelas tapi ringkas: Bertujuan untuk menyampaikan maksud Anda dengan jelas dan ringkas dalam prompt. Hindari detail yang tidak perlu atau informasi yang berlebihan, sambil mengingat bahwa claude kekurangan konteks tentang kasus penggunaan Anda dan mungkin tidak membuat lompatan logika yang dimaksudkan jika instruksi tidak jelas.
    • Minta respons yang lebih pendek: Minta Claude secara langsung untuk ringkas. Keluarga model Claude 3 memiliki kemampuan pengarahan yang lebih baik dibandingkan generasi sebelumnya. Jika Claude mengeluarkan panjang yang tidak diinginkan, minta Claude untuk mengurangi kecerewetannya.
      Karena cara LLM menghitung token alih-alih kata, meminta jumlah kata yang tepat atau batas jumlah kata tidak seefektif strategi meminta batas jumlah paragraf atau kalimat.
    • Tetapkan batas output yang sesuai: Gunakan parameter max_tokens untuk menetapkan batas keras pada panjang maksimum respons yang dihasilkan. Ini mencegah Claude menghasilkan output yang terlalu panjang.

      Catatan: Ketika respons mencapai max_tokens token, respons akan terpotong, mungkin di tengah kalimat atau di tengah kata, jadi ini adalah teknik kasar yang mungkin memerlukan pasca-pemrosesan dan biasanya paling sesuai untuk respons pilihan ganda atau jawaban pendek di mana jawabannya langsung muncul di awal.

    • Bereksperimen dengan temperature: Parameter temperature mengontrol keacakan output. Nilai yang lebih rendah (misalnya, 0.2) kadang-kadang dapat menghasilkan respons yang lebih fokus dan lebih pendek, sementara nilai yang lebih tinggi (misalnya, 0.8) mungkin menghasilkan output yang lebih beragam tetapi berpotensi lebih panjang.

    Menemukan keseimbangan yang tepat antara kejelasan prompt, kualitas output, dan jumlah token mungkin memerlukan beberapa eksperimen.

    3. Manfaatkan streaming

    Streaming adalah fitur yang memungkinkan model mulai mengirim kembali responsnya sebelum output penuh selesai. Ini dapat secara signifikan meningkatkan responsivitas yang dirasakan dari aplikasi Anda, karena pengguna dapat melihat output model secara real-time.

    Dengan streaming diaktifkan, Anda dapat memproses output model saat tiba, memperbarui antarmuka pengguna atau melakukan tugas lain secara paralel. Ini dapat sangat meningkatkan pengalaman pengguna dan membuat aplikasi Anda terasa lebih interaktif dan responsif.

    Kunjungi streaming Messages untuk mempelajari tentang bagaimana Anda dapat mengimplementasikan streaming untuk kasus penggunaan Anda.

    • Cara mengukur latensi
    • Cara mengurangi latensi
    • 1. Pilih model yang tepat
    • 2. Optimalkan panjang prompt dan output
    • 3. Manfaatkan streaming
    © 2025 ANTHROPIC PBC

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    © 2025 ANTHROPIC PBC