Claude Platform Docs
  • Messages
  • Managed Agents
  • Admin

Search...
⌘K

Log in
Batas laju
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Referensi API/Dukungan & konfigurasi

Batas laju

Untuk mengurangi penyalahgunaan dan mengelola kapasitas pada API, terdapat batasan mengenai seberapa banyak sebuah organisasi dapat menggunakan Claude API.


Claude Platform on AWS: Batas laju pada halaman ini berlaku untuk Claude Platform on AWS. Penagihan dan batas pengeluaran berbeda: batas pengeluaran tidak tersedia, dan penagihan dilakukan melalui AWS Marketplace (bukan pembelian kredit Anthropic). Organisasi di Claude Platform on AWS ditempatkan pada tier Start dan tidak berpindah antar tier penggunaan secara otomatis. Untuk meminta batas yang lebih tinggi, hubungi perwakilan akun Anthropic Anda. Konfigurasi batas laju per-workspace dan fast mode tidak tersedia di Claude Platform on AWS.

Ada dua jenis batas:

  1. Batas pengeluaran menetapkan biaya bulanan maksimum yang dapat dikeluarkan organisasi untuk penggunaan API.
  2. Batas laju menetapkan jumlah maksimum permintaan API yang dapat dibuat organisasi dalam periode waktu tertentu.

API menerapkan batas yang dikonfigurasi layanan pada tingkat organisasi, tetapi Anda juga dapat menetapkan batas yang dapat dikonfigurasi pengguna untuk workspace organisasi Anda.

Tentang batas laju

  • Batas dirancang untuk mencegah penyalahgunaan API, sambil meminimalkan dampak pada pola penggunaan pelanggan yang umum.
  • Batas ditentukan berdasarkan tier penggunaan. Organisasi Anda ditempatkan pada sebuah tier secara otomatis dan dapat berpindah ke tier yang lebih tinggi seiring waktu saat Anda menggunakan API.
  • Batas ditetapkan pada tingkat organisasi. Anda dapat melihat tier organisasi Anda dan batas saat ini pada halaman Limits di Claude Console.
  • Anda mungkin mencapai batas laju dalam interval waktu yang lebih pendek. Misalnya, laju 60 permintaan per menit (RPM) mungkin diterapkan sebagai 1 permintaan per detik. Lonjakan permintaan dalam waktu singkat dapat melebihi batas dan memicu error batas laju.
  • Batas berikut adalah batas standar untuk setiap tier. Jika Anda memerlukan batas yang lebih tinggi, lihat Meminta batas yang lebih tinggi.
  • API menggunakan algoritma token bucket untuk melakukan pembatasan laju. Ini berarti kapasitas Anda terus diisi ulang hingga batas maksimum Anda, alih-alih direset pada interval tetap.
  • Semua batas yang dijelaskan di sini mewakili penggunaan maksimum yang diizinkan, bukan minimum yang dijamin. Batas ini dimaksudkan untuk mengurangi pengeluaran berlebih yang tidak disengaja dan memastikan distribusi sumber daya yang adil di antara pengguna.

Batas pengeluaran

Masing-masing tier Start, Build, dan Scale memiliki batas pengeluaran bulanan, yaitu jumlah maksimum yang dapat dibelanjakan organisasi Anda pada API setiap bulan kalender. Setelah Anda mencapai batas pengeluaran tier Anda, penggunaan API dijeda hingga bulan berikutnya kecuali Anda meminta batas yang lebih tinggi. Anda dapat melihat batas pengeluaran bulanan organisasi Anda pada halaman Limits.

Tier penggunaanBatas pengeluaran bulanan
Start$500
Build$1.000
Scale$200.000

Organisasi pada tier Custom tidak memiliki batas pengeluaran bulanan; batas diatur bersama tim akun mereka.

Anda juga dapat menetapkan batas pengeluaran Anda sendiri di bawah batas tier Anda untuk mengontrol biaya:

  1. 1

    Buka halaman Limits

    Buka Settings > Limits di Claude Console.

  2. 2

    Buka editor batas pengeluaran

    Di bagian Spend limits, klik Change Limit (atau Set spend limit jika belum ada batas yang ditetapkan).

  3. 3

    Sesuaikan batas pengeluaran Anda

    Masukkan nilai baru. Batas pengeluaran Anda tidak boleh melebihi batas tier Anda saat ini.

Batas laju

Batas laju untuk Messages API diukur dalam "requests per minute" (permintaan per menit), atau RPM, "input tokens per minute" (token input per menit), atau ITPM, dan "output tokens per minute" (token output per menit), atau OTPM, untuk setiap kelas model. Jika Anda melebihi salah satu batas laju, Anda akan mendapatkan error 429 yang menjelaskan batas laju mana yang terlampaui, beserta header retry-after yang menunjukkan berapa lama harus menunggu.



Anda mungkin juga mengalami error 429 karena batas akselerasi pada API jika organisasi Anda mengalami peningkatan penggunaan yang tajam. Untuk menghindari batas akselerasi, tingkatkan lalu lintas Anda secara bertahap dan pertahankan pola penggunaan yang konsisten.

ITPM yang memperhitungkan cache

Banyak penyedia API menggunakan batas gabungan "tokens per minute" (TPM) yang mungkin mencakup semua token, baik yang di-cache maupun tidak, input maupun output. Untuk sebagian besar model Claude, hanya token input yang tidak di-cache yang dihitung terhadap batas laju ITPM Anda. Ini adalah keunggulan utama yang membuat batas laju secara efektif lebih tinggi daripada yang mungkin terlihat pada awalnya.

Batas laju ITPM diestimasi pada awal setiap permintaan, dan estimasi tersebut disesuaikan selama permintaan untuk mencerminkan jumlah token input yang sebenarnya digunakan.

Berikut adalah apa yang dihitung terhadap ITPM:

  • input_tokens (token setelah breakpoint cache terakhir) ✓ Dihitung terhadap ITPM
  • cache_creation_input_tokens (token yang sedang ditulis ke cache) ✓ Dihitung terhadap ITPM
  • cache_read_input_tokens (token yang dibaca dari cache) ✗ TIDAK dihitung terhadap ITPM untuk sebagian besar model


Field input_tokens hanya mewakili token yang muncul setelah breakpoint cache terakhir Anda, bukan semua token input dalam permintaan Anda. Untuk menghitung total token input:

total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens

Ini berarti ketika Anda memiliki konten yang di-cache, input_tokens biasanya akan jauh lebih kecil daripada total input Anda. Misalnya, dengan dokumen yang di-cache sebesar 200k token dan pertanyaan pengguna sebesar 50 token, Anda akan melihat input_tokens: 50 meskipun total input adalah 200.050 token.

Untuk keperluan batas laju pada sebagian besar model, hanya input_tokens + cache_creation_input_tokens yang dihitung terhadap batas ITPM Anda, menjadikan caching prompt cara yang efektif untuk meningkatkan throughput efektif Anda.

Contoh: Dengan batas ITPM 2.000.000 dan tingkat cache hit 80%, Anda secara efektif dapat memproses 10.000.000 total token input per menit (2 juta tidak di-cache + 8 juta di-cache), karena token yang di-cache tidak dihitung terhadap batas laju Anda.



Claude Haiku 3.5 (ditandai dengan † pada tabel batas laju berikut) juga menghitung cache_read_input_tokens terhadap batas laju ITPM.

Untuk semua model tanpa penanda †, token input yang di-cache tidak dihitung terhadap batas laju dan ditagih dengan tarif yang lebih rendah (10% dari harga token input dasar). Ini berarti Anda dapat mencapai throughput efektif yang jauh lebih tinggi dengan menggunakan caching prompt.



Maksimalkan batas laju Anda dengan caching prompt

Untuk memaksimalkan batas laju Anda, gunakan caching prompt untuk konten yang berulang seperti:

  • Instruksi dan prompt sistem
  • Dokumen konteks yang besar
  • Definisi alat
  • Riwayat percakapan

Dengan caching yang efektif, Anda dapat secara dramatis meningkatkan throughput aktual Anda tanpa meningkatkan batas laju Anda. Pantau tingkat cache hit Anda pada halaman Usage untuk mengoptimalkan strategi caching Anda.

Batas laju OTPM dievaluasi secara real time saat token output dihasilkan, hanya menghitung token yang benar-benar dihasilkan. Parameter max_tokens tidak diperhitungkan dalam kalkulasi batas laju OTPM, sehingga tidak ada kerugian batas laju dalam menetapkan nilai max_tokens yang lebih tinggi.

Batas laju diterapkan secara terpisah untuk setiap model; oleh karena itu Anda dapat menggunakan model yang berbeda hingga batas masing-masing secara bersamaan. Anda dapat memeriksa batas laju dan perilaku Anda saat ini di Claude Console, atau membaca batas yang dikonfigurasi secara terprogram dengan Rate Limits API.



Batas laju saat ini dibagi di seluruh nilai inference_geo. Permintaan dengan inference_geo: "us" dan inference_geo: "global" mengambil dari pool batas laju yang sama.

* - Batas laju Opus adalah batas total yang berlaku untuk gabungan lalu lintas di Claude Opus 4.8, Opus 4.7, Opus 4.6, dan Opus 4.5.

** - Batas laju Sonnet 4.x adalah batas total yang berlaku untuk gabungan lalu lintas di Sonnet 4.6 dan Sonnet 4.5. Claude Sonnet 5 memiliki batas laju terpisah dan bukan bagian dari bucket gabungan ini.

† - Batas menghitung cache_read_input_tokens terhadap penggunaan ITPM.

Message Batches API

Message Batches API memiliki kumpulan batas laju sendiri yang dibagi di seluruh model. Ini mencakup batas permintaan per menit (RPM) untuk semua endpoint API dan batas jumlah permintaan batch yang dapat berada dalam antrean pemrosesan pada saat yang sama. "Permintaan batch" di sini mengacu pada bagian dari Message Batch. Anda dapat membuat Message Batch yang berisi ribuan permintaan batch, yang masing-masing dihitung terhadap batas ini. Permintaan batch dianggap sebagai bagian dari antrean pemrosesan ketika belum berhasil diproses oleh model.

Managed Agents

Endpoint Claude Managed Agents dibatasi lajunya per organisasi. Batas ini terpisah dari batas laju Messages API di atas.

OperasiBatas
Endpoint pembuatan (misalnya, agents, sessions, dan environments)300 permintaan per menit
Endpoint pembacaan (misalnya, retrieve, list, dan stream)1.200 permintaan per menit

Batas laju fast mode

Saat menggunakan fast mode (pratinjau riset) dengan speed: "fast" pada Claude Opus 4.8 atau Opus 4.7, batas laju khusus berlaku yang terpisah dari batas laju Opus standar. Ketika batas laju fast mode terlampaui, API mengembalikan error 429 dengan header retry-after. Fast mode tidak tersedia pada Claude Opus 4.6: permintaan ke claude-opus-4-6 dengan speed: "fast" berjalan pada kecepatan standar. Lihat Fast mode.

Respons menyertakan header anthropic-fast-* yang menunjukkan status batas laju fast mode Anda. Lihat Fast mode untuk detail tentang header ini.

Memantau batas laju Anda di Console

Anda dapat memantau penggunaan batas laju Anda pada halaman Usage di Claude Console.

Selain menyediakan grafik token dan permintaan, halaman Usage menyediakan dua grafik batas laju terpisah. Gunakan grafik ini untuk melihat ruang yang Anda miliki untuk berkembang, kapan Anda mungkin mencapai penggunaan puncak, lebih memahami batas laju apa yang perlu diminta, atau bagaimana Anda dapat meningkatkan tingkat caching Anda. Grafik memvisualisasikan sejumlah metrik untuk batas laju tertentu (misalnya, per model):

  • Grafik Rate Limit - Input Tokens mencakup:
    • Token input tidak di-cache maksimum per menit per jam
    • Batas laju token input per menit Anda saat ini
    • Tingkat cache untuk token input Anda (yaitu, persentase token input yang dibaca dari cache)
  • Grafik Rate Limit - Output Tokens mencakup:
    • Token output maksimum per menit per jam
    • Batas laju token output per menit Anda saat ini

Meminta batas yang lebih tinggi

Untuk meminta batas laju yang lebih tinggi atau batas pengeluaran bulanan yang lebih tinggi, gunakan Request rate limit increase pada halaman Limits.



Tim dukungan juga dapat menaikkan batas. Untuk kebutuhan mendesak, hubungi dukungan.

Menetapkan batas yang lebih rendah untuk Workspace

Untuk informasi lebih lanjut tentang workspace, lihat Workspace.

Untuk melindungi Workspace di Organisasi Anda dari potensi penggunaan berlebih, Anda dapat menetapkan batas pengeluaran dan batas laju kustom per Workspace.

Contoh: Jika batas Organisasi Anda adalah 40.000 token input per menit dan 8.000 token output per menit, Anda mungkin membatasi satu Workspace menjadi 30.000 token input per menit. Ini melindungi Workspace lain dari potensi penggunaan berlebih dan memastikan distribusi sumber daya yang lebih adil di seluruh Organisasi Anda. Sisa token per menit yang tidak terpakai (atau lebih, jika Workspace tersebut tidak menggunakan batasnya) kemudian tersedia untuk digunakan oleh Workspace lain.

Catatan:

  • Anda tidak dapat menetapkan batas pada Workspace default.
  • Jika tidak ditetapkan, batas Workspace mengikuti batas Organisasi.
  • Batas Workspace ditetapkan per jenis pembatas (seperti permintaan per menit, token input per menit, atau token output per menit).
  • Batas tingkat Organisasi selalu berlaku, bahkan jika jumlah batas Workspace melebihinya.

Untuk membaca batas laju organisasi dan workspace Anda saat ini secara terprogram, gunakan Rate Limits API.

Header respons

Respons API menyertakan header yang menunjukkan batas laju yang diterapkan, penggunaan saat ini, dan kapan batas akan direset.

Header berikut dikembalikan:

HeaderDeskripsi
retry-afterJumlah detik yang harus ditunggu hingga Anda dapat mencoba kembali permintaan. Percobaan ulang yang lebih awal akan gagal.
anthropic-ratelimit-requests-limitJumlah maksimum permintaan yang diizinkan dalam periode batas laju apa pun.
anthropic-ratelimit-requests-remainingJumlah permintaan yang tersisa sebelum dibatasi lajunya.
anthropic-ratelimit-requests-resetWaktu ketika batas laju permintaan akan terisi penuh kembali, disediakan dalam format RFC 3339.
anthropic-ratelimit-tokens-limitJumlah maksimum token yang diizinkan dalam periode batas laju apa pun.
anthropic-ratelimit-tokens-remainingJumlah token yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi lajunya.
anthropic-ratelimit-tokens-resetWaktu ketika batas laju token akan terisi penuh kembali, disediakan dalam format RFC 3339.
anthropic-ratelimit-input-tokens-limitJumlah maksimum token input yang diizinkan dalam periode batas laju apa pun.
anthropic-ratelimit-input-tokens-remainingJumlah token input yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi lajunya.
anthropic-ratelimit-input-tokens-resetWaktu ketika batas laju token input akan terisi penuh kembali, disediakan dalam format RFC 3339.
anthropic-ratelimit-output-tokens-limitJumlah maksimum token output yang diizinkan dalam periode batas laju apa pun.
anthropic-ratelimit-output-tokens-remainingJumlah token output yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi lajunya.
anthropic-ratelimit-output-tokens-resetWaktu ketika batas laju token output akan terisi penuh kembali, disediakan dalam format RFC 3339.
anthropic-priority-input-tokens-limitJumlah maksimum token input Priority Tier yang diizinkan dalam periode batas laju apa pun. (Hanya Priority Tier)
anthropic-priority-input-tokens-remainingJumlah token input Priority Tier yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi lajunya. (Hanya Priority Tier)
anthropic-priority-input-tokens-resetWaktu ketika batas laju token input Priority Tier akan terisi penuh kembali, disediakan dalam format RFC 3339. (Hanya Priority Tier)
anthropic-priority-output-tokens-limitJumlah maksimum token output Priority Tier yang diizinkan dalam periode batas laju apa pun. (Hanya Priority Tier)
anthropic-priority-output-tokens-remainingJumlah token output Priority Tier yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi lajunya. (Hanya Priority Tier)
anthropic-priority-output-tokens-resetWaktu ketika batas laju token output Priority Tier akan terisi penuh kembali, disediakan dalam format RFC 3339. (Hanya Priority Tier)

Header anthropic-ratelimit-tokens-* menampilkan nilai untuk batas paling ketat yang sedang berlaku. Misalnya, jika Anda telah melebihi batas token per menit Workspace, header akan berisi nilai batas laju token per menit Workspace. Jika batas Workspace tidak berlaku, header akan mengembalikan total token yang tersisa, di mana total adalah jumlah token input dan output. Pendekatan ini memastikan bahwa Anda memiliki visibilitas terhadap kendala yang paling relevan pada penggunaan API Anda saat ini.

Was this page helpful?

  • Tentang batas laju
  • Batas pengeluaran
  • Batas laju
  • ITPM yang memperhitungkan cache
  • Message Batches API
  • Managed Agents
  • Batas laju fast mode
  • Memantau batas laju Anda di Console
  • Meminta batas yang lebih tinggi
  • Menetapkan batas yang lebih rendah untuk Workspace
  • Header respons