Claude Platform on AWS: Batas laju pada halaman ini berlaku untuk Claude Platform on AWS. Penagihan dan batas pengeluaran berbeda: batas pengeluaran tidak tersedia, dan penagihan dilakukan melalui AWS Marketplace (bukan pembelian kredit Anthropic). Organisasi di Claude Platform on AWS ditempatkan pada tier Start dan tidak berpindah antar tier penggunaan secara otomatis. Untuk meminta batas yang lebih tinggi, hubungi perwakilan akun Anthropic Anda. Konfigurasi batas laju per-workspace dan fast mode tidak tersedia di Claude Platform on AWS.
Ada dua jenis batas:
API menerapkan batas yang dikonfigurasi layanan pada tingkat organisasi, tetapi Anda juga dapat menetapkan batas yang dapat dikonfigurasi pengguna untuk workspace organisasi Anda.
Masing-masing tier Start, Build, dan Scale memiliki batas pengeluaran bulanan, yaitu jumlah maksimum yang dapat dibelanjakan organisasi Anda pada API setiap bulan kalender. Setelah Anda mencapai batas pengeluaran tier Anda, penggunaan API dijeda hingga bulan berikutnya kecuali Anda meminta batas yang lebih tinggi. Anda dapat melihat batas pengeluaran bulanan organisasi Anda pada halaman Limits.
| Tier penggunaan | Batas pengeluaran bulanan |
|---|---|
| Start | $500 |
| Build | $1.000 |
| Scale | $200.000 |
Organisasi pada tier Custom tidak memiliki batas pengeluaran bulanan; batas diatur bersama tim akun mereka.
Anda juga dapat menetapkan batas pengeluaran Anda sendiri di bawah batas tier Anda untuk mengontrol biaya:
Buka halaman Limits
Buka Settings > Limits di Claude Console.
Buka editor batas pengeluaran
Di bagian Spend limits, klik Change Limit (atau Set spend limit jika belum ada batas yang ditetapkan).
Sesuaikan batas pengeluaran Anda
Masukkan nilai baru. Batas pengeluaran Anda tidak boleh melebihi batas tier Anda saat ini.
Batas laju untuk Messages API diukur dalam "requests per minute" (permintaan per menit), atau RPM, "input tokens per minute" (token input per menit), atau ITPM, dan "output tokens per minute" (token output per menit), atau OTPM, untuk setiap kelas model.
Jika Anda melebihi salah satu batas laju, Anda akan mendapatkan error 429 yang menjelaskan batas laju mana yang terlampaui, beserta header retry-after yang menunjukkan berapa lama harus menunggu.
Anda mungkin juga mengalami error 429 karena batas akselerasi pada API jika organisasi Anda mengalami peningkatan penggunaan yang tajam. Untuk menghindari batas akselerasi, tingkatkan lalu lintas Anda secara bertahap dan pertahankan pola penggunaan yang konsisten.
Banyak penyedia API menggunakan batas gabungan "tokens per minute" (TPM) yang mungkin mencakup semua token, baik yang di-cache maupun tidak, input maupun output. Untuk sebagian besar model Claude, hanya token input yang tidak di-cache yang dihitung terhadap batas laju ITPM Anda. Ini adalah keunggulan utama yang membuat batas laju secara efektif lebih tinggi daripada yang mungkin terlihat pada awalnya.
Batas laju ITPM diestimasi pada awal setiap permintaan, dan estimasi tersebut disesuaikan selama permintaan untuk mencerminkan jumlah token input yang sebenarnya digunakan.
Berikut adalah apa yang dihitung terhadap ITPM:
input_tokens (token setelah breakpoint cache terakhir) ✓ Dihitung terhadap ITPMcache_creation_input_tokens (token yang sedang ditulis ke cache) ✓ Dihitung terhadap ITPMcache_read_input_tokens (token yang dibaca dari cache) ✗ TIDAK dihitung terhadap ITPM untuk sebagian besar modelField input_tokens hanya mewakili token yang muncul setelah breakpoint cache terakhir Anda, bukan semua token input dalam permintaan Anda. Untuk menghitung total token input:
total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokensIni berarti ketika Anda memiliki konten yang di-cache, input_tokens biasanya akan jauh lebih kecil daripada total input Anda. Misalnya, dengan dokumen yang di-cache sebesar 200k token dan pertanyaan pengguna sebesar 50 token, Anda akan melihat input_tokens: 50 meskipun total input adalah 200.050 token.
Untuk keperluan batas laju pada sebagian besar model, hanya input_tokens + cache_creation_input_tokens yang dihitung terhadap batas ITPM Anda, menjadikan caching prompt cara yang efektif untuk meningkatkan throughput efektif Anda.
Contoh: Dengan batas ITPM 2.000.000 dan tingkat cache hit 80%, Anda secara efektif dapat memproses 10.000.000 total token input per menit (2 juta tidak di-cache + 8 juta di-cache), karena token yang di-cache tidak dihitung terhadap batas laju Anda.
Claude Haiku 3.5 (ditandai dengan † pada tabel batas laju berikut) juga menghitung cache_read_input_tokens terhadap batas laju ITPM.
Untuk semua model tanpa penanda †, token input yang di-cache tidak dihitung terhadap batas laju dan ditagih dengan tarif yang lebih rendah (10% dari harga token input dasar). Ini berarti Anda dapat mencapai throughput efektif yang jauh lebih tinggi dengan menggunakan caching prompt.
Maksimalkan batas laju Anda dengan caching prompt
Untuk memaksimalkan batas laju Anda, gunakan caching prompt untuk konten yang berulang seperti:
Dengan caching yang efektif, Anda dapat secara dramatis meningkatkan throughput aktual Anda tanpa meningkatkan batas laju Anda. Pantau tingkat cache hit Anda pada halaman Usage untuk mengoptimalkan strategi caching Anda.
Batas laju OTPM dievaluasi secara real time saat token output dihasilkan, hanya menghitung token yang benar-benar dihasilkan. Parameter max_tokens tidak diperhitungkan dalam kalkulasi batas laju OTPM, sehingga tidak ada kerugian batas laju dalam menetapkan nilai max_tokens yang lebih tinggi.
Batas laju diterapkan secara terpisah untuk setiap model; oleh karena itu Anda dapat menggunakan model yang berbeda hingga batas masing-masing secara bersamaan. Anda dapat memeriksa batas laju dan perilaku Anda saat ini di Claude Console, atau membaca batas yang dikonfigurasi secara terprogram dengan Rate Limits API.
Batas laju saat ini dibagi di seluruh nilai inference_geo. Permintaan dengan inference_geo: "us" dan inference_geo: "global" mengambil dari pool batas laju yang sama.
* - Batas laju Opus adalah batas total yang berlaku untuk gabungan lalu lintas di Claude Opus 4.8, Opus 4.7, Opus 4.6, dan Opus 4.5.
** - Batas laju Sonnet 4.x adalah batas total yang berlaku untuk gabungan lalu lintas di Sonnet 4.6 dan Sonnet 4.5. Claude Sonnet 5 memiliki batas laju terpisah dan bukan bagian dari bucket gabungan ini.
† - Batas menghitung cache_read_input_tokens terhadap penggunaan ITPM.
Message Batches API memiliki kumpulan batas laju sendiri yang dibagi di seluruh model. Ini mencakup batas permintaan per menit (RPM) untuk semua endpoint API dan batas jumlah permintaan batch yang dapat berada dalam antrean pemrosesan pada saat yang sama. "Permintaan batch" di sini mengacu pada bagian dari Message Batch. Anda dapat membuat Message Batch yang berisi ribuan permintaan batch, yang masing-masing dihitung terhadap batas ini. Permintaan batch dianggap sebagai bagian dari antrean pemrosesan ketika belum berhasil diproses oleh model.
Endpoint Claude Managed Agents dibatasi lajunya per organisasi. Batas ini terpisah dari batas laju Messages API di atas.
| Operasi | Batas |
|---|---|
| Endpoint pembuatan (misalnya, agents, sessions, dan environments) | 300 permintaan per menit |
| Endpoint pembacaan (misalnya, retrieve, list, dan stream) | 1.200 permintaan per menit |
Saat menggunakan fast mode (pratinjau riset) dengan speed: "fast" pada Claude Opus 4.8 atau Opus 4.7, batas laju khusus berlaku yang terpisah dari batas laju Opus standar. Ketika batas laju fast mode terlampaui, API mengembalikan error 429 dengan header retry-after. Fast mode tidak tersedia pada Claude Opus 4.6: permintaan ke claude-opus-4-6 dengan speed: "fast" berjalan pada kecepatan standar. Lihat Fast mode.
Respons menyertakan header anthropic-fast-* yang menunjukkan status batas laju fast mode Anda. Lihat Fast mode untuk detail tentang header ini.
Anda dapat memantau penggunaan batas laju Anda pada halaman Usage di Claude Console.
Selain menyediakan grafik token dan permintaan, halaman Usage menyediakan dua grafik batas laju terpisah. Gunakan grafik ini untuk melihat ruang yang Anda miliki untuk berkembang, kapan Anda mungkin mencapai penggunaan puncak, lebih memahami batas laju apa yang perlu diminta, atau bagaimana Anda dapat meningkatkan tingkat caching Anda. Grafik memvisualisasikan sejumlah metrik untuk batas laju tertentu (misalnya, per model):
Untuk meminta batas laju yang lebih tinggi atau batas pengeluaran bulanan yang lebih tinggi, gunakan Request rate limit increase pada halaman Limits.
Tim dukungan juga dapat menaikkan batas. Untuk kebutuhan mendesak, hubungi dukungan.
Untuk informasi lebih lanjut tentang workspace, lihat Workspace.
Untuk melindungi Workspace di Organisasi Anda dari potensi penggunaan berlebih, Anda dapat menetapkan batas pengeluaran dan batas laju kustom per Workspace.
Contoh: Jika batas Organisasi Anda adalah 40.000 token input per menit dan 8.000 token output per menit, Anda mungkin membatasi satu Workspace menjadi 30.000 token input per menit. Ini melindungi Workspace lain dari potensi penggunaan berlebih dan memastikan distribusi sumber daya yang lebih adil di seluruh Organisasi Anda. Sisa token per menit yang tidak terpakai (atau lebih, jika Workspace tersebut tidak menggunakan batasnya) kemudian tersedia untuk digunakan oleh Workspace lain.
Catatan:
Untuk membaca batas laju organisasi dan workspace Anda saat ini secara terprogram, gunakan Rate Limits API.
Respons API menyertakan header yang menunjukkan batas laju yang diterapkan, penggunaan saat ini, dan kapan batas akan direset.
Header berikut dikembalikan:
| Header | Deskripsi |
|---|---|
retry-after | Jumlah detik yang harus ditunggu hingga Anda dapat mencoba kembali permintaan. Percobaan ulang yang lebih awal akan gagal. |
anthropic-ratelimit-requests-limit | Jumlah maksimum permintaan yang diizinkan dalam periode batas laju apa pun. |
anthropic-ratelimit-requests-remaining | Jumlah permintaan yang tersisa sebelum dibatasi lajunya. |
anthropic-ratelimit-requests-reset | Waktu ketika batas laju permintaan akan terisi penuh kembali, disediakan dalam format RFC 3339. |
anthropic-ratelimit-tokens-limit | Jumlah maksimum token yang diizinkan dalam periode batas laju apa pun. |
anthropic-ratelimit-tokens-remaining | Jumlah token yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi lajunya. |
anthropic-ratelimit-tokens-reset | Waktu ketika batas laju token akan terisi penuh kembali, disediakan dalam format RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Jumlah maksimum token input yang diizinkan dalam periode batas laju apa pun. |
anthropic-ratelimit-input-tokens-remaining | Jumlah token input yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi lajunya. |
anthropic-ratelimit-input-tokens-reset | Waktu ketika batas laju token input akan terisi penuh kembali, disediakan dalam format RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Jumlah maksimum token output yang diizinkan dalam periode batas laju apa pun. |
anthropic-ratelimit-output-tokens-remaining | Jumlah token output yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi lajunya. |
anthropic-ratelimit-output-tokens-reset | Waktu ketika batas laju token output akan terisi penuh kembali, disediakan dalam format RFC 3339. |
anthropic-priority-input-tokens-limit | Jumlah maksimum token input Priority Tier yang diizinkan dalam periode batas laju apa pun. (Hanya Priority Tier) |
anthropic-priority-input-tokens-remaining | Jumlah token input Priority Tier yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi lajunya. (Hanya Priority Tier) |
anthropic-priority-input-tokens-reset | Waktu ketika batas laju token input Priority Tier akan terisi penuh kembali, disediakan dalam format RFC 3339. (Hanya Priority Tier) |
anthropic-priority-output-tokens-limit | Jumlah maksimum token output Priority Tier yang diizinkan dalam periode batas laju apa pun. (Hanya Priority Tier) |
anthropic-priority-output-tokens-remaining | Jumlah token output Priority Tier yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi lajunya. (Hanya Priority Tier) |
anthropic-priority-output-tokens-reset | Waktu ketika batas laju token output Priority Tier akan terisi penuh kembali, disediakan dalam format RFC 3339. (Hanya Priority Tier) |
Header anthropic-ratelimit-tokens-* menampilkan nilai untuk batas paling ketat yang sedang berlaku. Misalnya, jika Anda telah melebihi batas token per menit Workspace, header akan berisi nilai batas laju token per menit Workspace. Jika batas Workspace tidak berlaku, header akan mengembalikan total token yang tersisa, di mana total adalah jumlah token input dan output. Pendekatan ini memastikan bahwa Anda memiliki visibilitas terhadap kendala yang paling relevan pada penggunaan API Anda saat ini.
Was this page helpful?