Referensi APIDukungan & konfigurasi

Tingkatan layanan

Tingkatan layanan yang berbeda memungkinkan Anda menyeimbangkan ketersediaan, performa, dan biaya yang dapat diprediksi berdasarkan kebutuhan aplikasi Anda.

Komitmen kapasitas Priority Tier tidak lagi tersedia untuk dibeli. Organisasi dengan komitmen yang sudah ada dapat terus menggunakan Priority Tier hingga tanggal berakhirnya kontrak mereka, dan halaman ini tetap tersedia sebagai referensi bagi mereka. Jika Anda membutuhkan kapasitas yang terjamin, hubungi tim penjualan.

Anthropic menawarkan tiga tingkatan layanan:

Priority Tier: Hanya tersedia untuk organisasi dengan komitmen kapasitas yang sudah ada
Standard: Tingkatan default untuk uji coba maupun penskalaan kasus penggunaan sehari-hari
Batch: Paling cocok untuk alur kerja asinkron yang dapat menunggu atau mendapat manfaat karena berada di luar kapasitas normal Anda

Standard Tier

Standard tier adalah tingkatan layanan default untuk semua permintaan API. API memprioritaskan permintaan ini bersama dengan semua permintaan lainnya dengan ketersediaan upaya terbaik (best-effort).

Priority Tier

API memprioritaskan permintaan dalam tingkatan ini di atas semua permintaan lainnya. Prioritas ini membantu meminimalkan error "server overloaded", bahkan pada waktu puncak.

Untuk informasi lebih lanjut, lihat Komitmen Priority Tier yang sudah ada.

Bagaimana permintaan ditetapkan ke tingkatan

Saat menangani permintaan, Anthropic memutuskan untuk menetapkan permintaan ke Priority Tier dalam skenario berikut:

Organisasi Anda memiliki kapasitas priority tier yang cukup untuk token input per menit
Organisasi Anda memiliki kapasitas priority tier yang cukup untuk token output per menit

Anthropic menghitung penggunaan terhadap kapasitas Priority Tier sebagai berikut:

Token Input

Pembacaan cache dihitung sebagai 0,1 token per token yang dibaca dari cache
Penulisan cache dihitung sebagai 1,25 token per token yang ditulis ke cache dengan TTL 5 menit
Penulisan cache dihitung sebagai 2,00 token per token yang ditulis ke cache dengan TTL 1 jam
Untuk permintaan inferensi khusus AS (inference_geo: "us") pada Claude Opus 4.6, Claude Sonnet 4.6, dan model yang lebih baru, token input dihitung sebagai 1,1 token per token
Semua token input lainnya dihitung sebagai 1 token per token

Token Output

Untuk permintaan inferensi khusus AS (inference_geo: "us") pada Claude Opus 4.6, Claude Sonnet 4.6, dan model yang lebih baru, token output dihitung sebagai 1,1 token per token
Semua token output lainnya dihitung sebagai 1 token per token

Jika tidak, permintaan akan diproses pada standard tier.

Tarif pengurangan (burndown rate) ini mencerminkan harga relatif dari setiap jenis token. Misalnya, inferensi khusus AS dihargai 1,1x pada Opus 4.6, Sonnet 4.6, dan model yang lebih baru, sehingga setiap token yang dikonsumsi dengan inference_geo: "us" mengurangi 1,1 token dari kapasitas Priority Tier Anda.

Permintaan yang ditetapkan ke Priority Tier mengambil dari kapasitas Priority Tier sekaligus dari batas laju reguler. Jika melayani permintaan tersebut akan melebihi batas laju, permintaan akan ditolak.

Menggunakan tingkatan layanan

Anda dapat mengontrol tingkatan layanan mana yang dapat digunakan untuk sebuah permintaan dengan mengatur parameter service_tier:

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

Parameter service_tier menerima nilai-nilai berikut:

"auto" (default) - Menggunakan kapasitas Priority Tier jika tersedia, beralih ke kapasitas Anda yang lain jika tidak
"standard_only" - Hanya menggunakan kapasitas standard tier, berguna jika Anda tidak ingin menggunakan kapasitas Priority Tier Anda

Objek usage dalam respons juga menyertakan tingkatan layanan yang ditetapkan untuk permintaan tersebut:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Ini memungkinkan Anda menentukan tingkatan layanan mana yang ditetapkan untuk permintaan tersebut.

Saat meminta service_tier="auto" dengan model yang memiliki komitmen Priority Tier, header respons berikut memberikan informasi:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Anda dapat menggunakan keberadaan header ini untuk mendeteksi apakah permintaan Anda memenuhi syarat untuk Priority Tier, bahkan jika permintaan tersebut melebihi batas.

Komitmen Priority Tier yang sudah ada

Komitmen Priority Tier terdiri dari:

Sejumlah token input per menit
Sejumlah token output per menit
Durasi komitmen (1, 3, 6, atau 12 bulan)
Versi model tertentu

Priority Tier menargetkan uptime 99,5% dengan sumber daya komputasi yang diprioritaskan. Permintaan yang melebihi kapasitas komitmen Anda secara otomatis beralih ke standard tier.

Model yang didukung

Priority Tier didukung pada semua model Claude yang tersedia (termasuk Claude Fable 5 dan Claude Opus 4.8) kecuali Claude Sonnet 5, Claude Mythos Preview, dan Claude Mythos 5.

Lihat Ikhtisar model untuk detail lebih lanjut tentang model yang tersedia.

Was this page helpful?

Referensi APIDukungan & konfigurasi

Tingkatan layanan

Tingkatan layanan yang berbeda memungkinkan Anda menyeimbangkan ketersediaan, performa, dan biaya yang dapat diprediksi berdasarkan kebutuhan aplikasi Anda.

Anthropic menawarkan tiga tingkatan layanan:

Priority Tier: Hanya tersedia untuk organisasi dengan komitmen kapasitas yang sudah ada
Standard: Tingkatan default untuk uji coba maupun penskalaan kasus penggunaan sehari-hari
Batch: Paling cocok untuk alur kerja asinkron yang dapat menunggu atau mendapat manfaat karena berada di luar kapasitas normal Anda

Standard Tier

Standard tier adalah tingkatan layanan default untuk semua permintaan API. API memprioritaskan permintaan ini bersama dengan semua permintaan lainnya dengan ketersediaan upaya terbaik (best-effort).

Priority Tier

API memprioritaskan permintaan dalam tingkatan ini di atas semua permintaan lainnya. Prioritas ini membantu meminimalkan error "server overloaded", bahkan pada waktu puncak.

Untuk informasi lebih lanjut, lihat Komitmen Priority Tier yang sudah ada.

Bagaimana permintaan ditetapkan ke tingkatan

Saat menangani permintaan, Anthropic memutuskan untuk menetapkan permintaan ke Priority Tier dalam skenario berikut:

Organisasi Anda memiliki kapasitas priority tier yang cukup untuk token input per menit
Organisasi Anda memiliki kapasitas priority tier yang cukup untuk token output per menit

Anthropic menghitung penggunaan terhadap kapasitas Priority Tier sebagai berikut:

Token Input

Pembacaan cache dihitung sebagai 0,1 token per token yang dibaca dari cache
Penulisan cache dihitung sebagai 1,25 token per token yang ditulis ke cache dengan TTL 5 menit
Penulisan cache dihitung sebagai 2,00 token per token yang ditulis ke cache dengan TTL 1 jam
Untuk permintaan inferensi khusus AS (inference_geo: "us") pada Claude Opus 4.6, Claude Sonnet 4.6, dan model yang lebih baru, token input dihitung sebagai 1,1 token per token
Semua token input lainnya dihitung sebagai 1 token per token

Token Output

Untuk permintaan inferensi khusus AS (inference_geo: "us") pada Claude Opus 4.6, Claude Sonnet 4.6, dan model yang lebih baru, token output dihitung sebagai 1,1 token per token
Semua token output lainnya dihitung sebagai 1 token per token

Jika tidak, permintaan akan diproses pada standard tier.

Menggunakan tingkatan layanan

Anda dapat mengontrol tingkatan layanan mana yang dapat digunakan untuk sebuah permintaan dengan mengatur parameter service_tier:

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

Parameter service_tier menerima nilai-nilai berikut:

"auto" (default) - Menggunakan kapasitas Priority Tier jika tersedia, beralih ke kapasitas Anda yang lain jika tidak
"standard_only" - Hanya menggunakan kapasitas standard tier, berguna jika Anda tidak ingin menggunakan kapasitas Priority Tier Anda

Objek usage dalam respons juga menyertakan tingkatan layanan yang ditetapkan untuk permintaan tersebut:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Ini memungkinkan Anda menentukan tingkatan layanan mana yang ditetapkan untuk permintaan tersebut.

Saat meminta service_tier="auto" dengan model yang memiliki komitmen Priority Tier, header respons berikut memberikan informasi:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Anda dapat menggunakan keberadaan header ini untuk mendeteksi apakah permintaan Anda memenuhi syarat untuk Priority Tier, bahkan jika permintaan tersebut melebihi batas.

Komitmen Priority Tier yang sudah ada

Komitmen Priority Tier terdiri dari:

Sejumlah token input per menit
Sejumlah token output per menit
Durasi komitmen (1, 3, 6, atau 12 bulan)
Versi model tertentu

Priority Tier menargetkan uptime 99,5% dengan sumber daya komputasi yang diprioritaskan. Permintaan yang melebihi kapasitas komitmen Anda secara otomatis beralih ke standard tier.

Model yang didukung

Priority Tier didukung pada semua model Claude yang tersedia (termasuk Claude Fable 5 dan Claude Opus 4.8) kecuali Claude Sonnet 5, Claude Mythos Preview, dan Claude Mythos 5.

Lihat Ikhtisar model untuk detail lebih lanjut tentang model yang tersedia.

Was this page helpful?

Standard Tier

Priority Tier

Bagaimana permintaan ditetapkan ke tingkatan

Menggunakan tingkatan layanan

Komitmen Priority Tier yang sudah ada

Model yang didukung

Standard Tier

Priority Tier

Bagaimana permintaan ditetapkan ke tingkatan

Menggunakan tingkatan layanan

Komitmen Priority Tier yang sudah ada

Model yang didukung

Standard Tier

Priority Tier

Bagaimana permintaan ditetapkan ke tingkatan

Menggunakan tingkatan layanan

Komitmen Priority Tier yang sudah ada

Model yang didukung

Standard Tier

Priority Tier

Bagaimana permintaan ditetapkan ke tingkatan

Menggunakan tingkatan layanan

Komitmen Priority Tier yang sudah ada

Model yang didukung