"Latency" (latensi) mengacu pada waktu yang diperlukan model untuk memproses prompt dan menghasilkan output. Latensi dapat dipengaruhi oleh berbagai faktor, seperti ukuran model, kompleksitas prompt, serta infrastruktur yang mendasari model dan titik interaksi.
Selalu lebih baik untuk terlebih dahulu merekayasa prompt yang bekerja dengan baik tanpa batasan model atau prompt, lalu mencoba strategi pengurangan latensi setelahnya. Mencoba mengurangi latensi terlalu dini dapat mencegah Anda menemukan seperti apa performa terbaik yang sebenarnya.
Saat membahas latensi, Anda mungkin menemukan beberapa istilah dan pengukuran berikut:
Untuk pemahaman yang lebih mendalam tentang istilah-istilah ini, lihat glosarium kami.
Salah satu cara paling mudah untuk mengurangi latensi adalah memilih model yang sesuai untuk kasus penggunaan Anda. Anthropic menawarkan berbagai model dengan kemampuan dan karakteristik performa yang berbeda. Pertimbangkan kebutuhan spesifik Anda dan pilih model yang paling sesuai dengan kebutuhan Anda dalam hal kecepatan dan kualitas output.
Untuk aplikasi yang mengutamakan kecepatan, Claude Haiku 4.5 menawarkan waktu respons tercepat sambil tetap mempertahankan kecerdasan yang tinggi:
import anthropic
client = anthropic.Anthropic()
# Untuk aplikasi yang sensitif terhadap waktu, gunakan Claude Haiku 4.5
message = client.messages.create(
model="claude-haiku-4-5",
max_tokens=100,
messages=[
{
"role": "user",
"content": "Summarize this customer feedback in 2 sentences: [feedback text]",
}
],
)Untuk detail lebih lanjut tentang metrik model, lihat halaman ikhtisar model kami.
Minimalkan jumlah token dalam prompt input Anda maupun output yang diharapkan, sambil tetap mempertahankan performa yang tinggi. Semakin sedikit token yang harus diproses dan dihasilkan model, semakin cepat responsnya.
Berikut beberapa tips untuk membantu Anda mengoptimalkan prompt dan output:
max_tokens untuk menetapkan batas keras pada panjang maksimum respons yang dihasilkan. Ini mencegah Claude menghasilkan output yang terlalu panjang.
Catatan: Ketika respons mencapai
max_tokenstoken, respons akan terpotong, mungkin di tengah kalimat atau di tengah kata, sehingga ini adalah teknik kasar yang mungkin memerlukan pasca-pemrosesan dan biasanya paling sesuai untuk respons pilihan ganda atau jawaban singkat di mana jawabannya muncul tepat di awal.
temperature mengontrol keacakan output. Nilai yang lebih rendah (misalnya, 0.2) terkadang dapat menghasilkan respons yang lebih fokus dan lebih pendek, sementara nilai yang lebih tinggi (misalnya, 0.8) dapat menghasilkan output yang lebih beragam tetapi berpotensi lebih panjang.Menemukan keseimbangan yang tepat antara kejelasan prompt, kualitas output, dan jumlah token mungkin memerlukan beberapa eksperimen.
Streaming adalah fitur yang memungkinkan model mulai mengirimkan responsnya sebelum output lengkap selesai. Ini dapat secara signifikan meningkatkan responsivitas yang dirasakan dari aplikasi Anda, karena pengguna dapat melihat output model secara real-time.
Dengan streaming diaktifkan, Anda dapat memproses output model saat output tersebut tiba, memperbarui antarmuka pengguna Anda atau melakukan tugas lain secara paralel. Ini dapat sangat meningkatkan pengalaman pengguna dan membuat aplikasi Anda terasa lebih interaktif dan responsif.
Kunjungi streaming Messages untuk mempelajari cara mengimplementasikan streaming untuk kasus penggunaan Anda.
Was this page helpful?