Loading...
  • Bangun
  • Admin
  • Model & harga
  • Client SDK
  • Referensi API
Search...
⌘K
Log in
Mengurangi latensi
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Bangun/Uji dan evaluasi

Mengurangi latensi

Latensi mengacu pada waktu yang dibutuhkan model untuk memproses prompt dan menghasilkan output. Latensi dapat dipengaruhi oleh berbagai faktor, seperti ukuran model, kompleksitas prompt, dan infrastruktur yang mendukung model serta titik interaksi.

Selalu lebih baik untuk terlebih dahulu merancang prompt yang bekerja dengan baik tanpa batasan model atau prompt, kemudian mencoba strategi pengurangan latensi setelahnya. Mencoba mengurangi latensi terlalu dini mungkin mencegah Anda menemukan seperti apa performa terbaik itu.


Cara mengukur latensi

Saat membahas latensi, Anda mungkin menemukan beberapa istilah dan pengukuran:

  • Latensi dasar: Ini adalah waktu yang dibutuhkan model untuk memproses prompt dan menghasilkan respons, tanpa mempertimbangkan token input dan output per detik. Ini memberikan gambaran umum tentang kecepatan model.
  • Waktu ke token pertama (TTFT): Metrik ini mengukur waktu yang dibutuhkan model untuk menghasilkan token pertama dari respons, sejak prompt dikirim. Ini sangat relevan ketika Anda menggunakan streaming (lebih lanjut tentang itu nanti) dan ingin memberikan pengalaman yang responsif kepada pengguna Anda.

Untuk pemahaman yang lebih mendalam tentang istilah-istilah ini, lihat glosarium kami.


Cara mengurangi latensi

1. Pilih model yang tepat

Salah satu cara paling mudah untuk mengurangi latensi adalah memilih model yang sesuai untuk kasus penggunaan Anda. Anthropic menawarkan berbagai model dengan kemampuan dan karakteristik performa yang berbeda. Pertimbangkan kebutuhan spesifik Anda dan pilih model yang paling sesuai dengan kebutuhan Anda dalam hal kecepatan dan kualitas output.

Untuk aplikasi yang kritis terhadap kecepatan, Claude Haiku 4.5 menawarkan waktu respons tercepat sambil mempertahankan kecerdasan tinggi:

Python
import anthropic

client = anthropic.Anthropic()

# For time-sensitive applications, use Claude Haiku 4.5
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
        }
    ],
)

Untuk detail lebih lanjut tentang metrik model, lihat halaman ikhtisar model kami.

2. Optimalkan panjang prompt dan output

Minimalkan jumlah token dalam prompt input dan output yang diharapkan, sambil tetap mempertahankan performa tinggi. Semakin sedikit token yang harus diproses dan dihasilkan oleh model, semakin cepat responsnya.

Berikut beberapa tips untuk membantu Anda mengoptimalkan prompt dan output:

  • Jelas namun ringkas: Usahakan untuk menyampaikan maksud Anda dengan jelas dan ringkas dalam prompt. Hindari detail yang tidak perlu atau informasi yang berlebihan, sambil tetap mengingat bahwa claude tidak memiliki konteks tentang kasus penggunaan Anda dan mungkin tidak membuat lompatan logika yang dimaksud jika instruksi tidak jelas.
  • Minta respons yang lebih pendek: Minta Claude secara langsung untuk ringkas. Keluarga model Claude 3 memiliki kemampuan pengarahan yang lebih baik dibandingkan generasi sebelumnya. Jika Claude menghasilkan panjang yang tidak diinginkan, minta Claude untuk mengurangi kecerewetannya.
    Karena cara LLM menghitung token bukan kata, meminta jumlah kata yang tepat atau batas jumlah kata tidak seefektif meminta batas jumlah paragraf atau kalimat.
  • Tetapkan batas output yang sesuai: Gunakan parameter max_tokens untuk menetapkan batas keras pada panjang maksimum respons yang dihasilkan. Ini mencegah Claude menghasilkan output yang terlalu panjang.

    Catatan: Ketika respons mencapai token max_tokens, respons akan terpotong, mungkin di tengah kalimat atau di tengah kata, sehingga ini adalah teknik yang kasar yang mungkin memerlukan pasca-pemrosesan dan biasanya paling tepat untuk respons pilihan ganda atau jawaban singkat di mana jawaban muncul tepat di awal.

  • Bereksperimen dengan temperature: Parameter temperature mengontrol keacakan output. Nilai yang lebih rendah (misalnya, 0.2) terkadang dapat menghasilkan respons yang lebih terfokus dan lebih pendek, sementara nilai yang lebih tinggi (misalnya, 0.8) dapat menghasilkan output yang lebih beragam tetapi berpotensi lebih panjang.

Menemukan keseimbangan yang tepat antara kejelasan prompt, kualitas output, dan jumlah token mungkin memerlukan beberapa eksperimen.

3. Manfaatkan streaming

Streaming adalah fitur yang memungkinkan model mulai mengirimkan responsnya sebelum output penuh selesai. Ini dapat secara signifikan meningkatkan responsivitas yang dirasakan dari aplikasi Anda, karena pengguna dapat melihat output model secara real-time.

Dengan streaming diaktifkan, Anda dapat memproses output model saat tiba, memperbarui antarmuka pengguna Anda atau melakukan tugas lain secara paralel. Ini dapat sangat meningkatkan pengalaman pengguna dan membuat aplikasi Anda terasa lebih interaktif dan responsif.

Kunjungi streaming Messages untuk mempelajari cara mengimplementasikan streaming untuk kasus penggunaan Anda.

Was this page helpful?

  • Cara mengukur latensi
  • Cara mengurangi latensi
  • 1. Pilih model yang tepat
  • 2. Optimalkan panjang prompt dan output
  • 3. Manfaatkan streaming