Anthropic menawarkan tiga tingkat layanan:
Standard tier adalah tingkat layanan default untuk semua permintaan API. API memprioritaskan permintaan ini bersama dengan semua permintaan lainnya dengan ketersediaan upaya terbaik (best-effort).
API memprioritaskan permintaan di tingkat ini di atas semua permintaan lainnya. Prioritas ini membantu meminimalkan error "server overloaded", bahkan selama waktu puncak.
Untuk informasi lebih lanjut, lihat Memulai dengan Priority Tier
Saat menangani permintaan, Anthropic memutuskan untuk menetapkan permintaan ke Priority Tier dalam skenario berikut:
Anthropic menghitung penggunaan terhadap kapasitas Priority Tier sebagai berikut:
Token Input
inference_geo: "us") pada Claude Opus 4.6, Claude Sonnet 4.6, dan model yang lebih baru, token input dihitung sebagai 1,1 token per tokenToken Output
inference_geo: "us") pada Claude Opus 4.6, Claude Sonnet 4.6, dan model yang lebih baru, token output dihitung sebagai 1,1 token per tokenJika tidak, permintaan akan diproses pada standard tier.
Tingkat pengurangan (burndown rate) ini mencerminkan harga relatif dari setiap jenis token. Misalnya, inferensi khusus AS dihargai 1,1x pada Opus 4.6, Sonnet 4.6, dan model yang lebih baru, sehingga setiap token yang dikonsumsi dengan inference_geo: "us" mengurangi 1,1 token dari kapasitas Priority Tier Anda.
Permintaan yang ditetapkan ke Priority Tier mengambil dari kapasitas Priority Tier dan batas laju reguler. Jika melayani permintaan tersebut akan melebihi batas laju, permintaan akan ditolak.
Anda dapat mengontrol tingkat layanan mana yang dapat digunakan untuk suatu permintaan dengan mengatur parameter service_tier:
message = client.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello, Claude!"}],
service_tier="auto", # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)Parameter service_tier menerima nilai-nilai berikut:
"auto" (default) - Menggunakan kapasitas Priority Tier jika tersedia, beralih ke kapasitas Anda yang lain jika tidak"standard_only" - Hanya menggunakan kapasitas standard tier, berguna jika Anda tidak ingin menggunakan kapasitas Priority Tier AndaObjek usage dalam respons juga menyertakan tingkat layanan yang ditetapkan untuk permintaan tersebut:
{
"usage": {
"input_tokens": 410,
"cache_creation_input_tokens": 0,
"cache_read_input_tokens": 0,
"output_tokens": 585,
"service_tier": "priority"
}
}Ini memungkinkan Anda menentukan tingkat layanan mana yang ditetapkan untuk permintaan tersebut.
Saat meminta service_tier="auto" dengan model yang memiliki komitmen Priority Tier, header respons berikut memberikan wawasan:
anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21ZAnda dapat menggunakan keberadaan header ini untuk mendeteksi apakah permintaan Anda memenuhi syarat untuk Priority Tier, bahkan jika melebihi batas.
Anda mungkin ingin berkomitmen pada kapasitas Priority Tier jika Anda tertarik pada:
Berkomitmen pada Priority Tier melibatkan penentuan:
Rasio token input terhadap output yang Anda beli itu penting. Menyesuaikan ukuran kapasitas Priority Tier Anda agar selaras dengan pola lalu lintas aktual membantu Anda memaksimalkan pemanfaatan token yang telah dibeli.
Priority Tier didukung pada semua model Claude yang tersedia (termasuk Claude Opus 4.8) kecuali Claude Mythos Preview.
Periksa Ikhtisar model untuk detail lebih lanjut tentang model yang tersedia.
Untuk mulai menggunakan Priority Tier:
service_tier ke auto.Was this page helpful?