• Pesan
  • Managed Agents
  • Admin

Search...
⌘K

Log in
Tingkatan layanan
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Referensi API/Dukungan & konfigurasi

Tingkat layanan

Berbagai tingkat layanan memungkinkan Anda menyeimbangkan ketersediaan, performa, dan biaya yang dapat diprediksi berdasarkan kebutuhan aplikasi Anda.

Anthropic menawarkan tiga tingkat layanan:

  • Priority Tier: Terbaik untuk alur kerja yang diterapkan di produksi di mana waktu, ketersediaan, dan harga yang dapat diprediksi menjadi hal penting
  • Standard: Tingkat default untuk uji coba maupun penskalaan kasus penggunaan sehari-hari
  • Batch: Terbaik untuk alur kerja asinkron yang dapat menunggu atau mendapat manfaat karena berada di luar kapasitas normal Anda

Standard Tier

Standard tier adalah tingkat layanan default untuk semua permintaan API. API memprioritaskan permintaan ini bersama dengan semua permintaan lainnya dengan ketersediaan upaya terbaik (best-effort).

Priority Tier

API memprioritaskan permintaan di tingkat ini di atas semua permintaan lainnya. Prioritas ini membantu meminimalkan error "server overloaded", bahkan selama waktu puncak.

Untuk informasi lebih lanjut, lihat Memulai dengan Priority Tier

Bagaimana permintaan ditetapkan ke tingkat layanan

Saat menangani permintaan, Anthropic memutuskan untuk menetapkan permintaan ke Priority Tier dalam skenario berikut:

  • Organisasi Anda memiliki kapasitas priority tier yang cukup untuk token input per menit
  • Organisasi Anda memiliki kapasitas priority tier yang cukup untuk token output per menit

Anthropic menghitung penggunaan terhadap kapasitas Priority Tier sebagai berikut:

Token Input

  • Pembacaan cache dihitung sebagai 0,1 token per token yang dibaca dari cache
  • Penulisan cache dihitung sebagai 1,25 token per token yang ditulis ke cache dengan TTL 5 menit
  • Penulisan cache dihitung sebagai 2,00 token per token yang ditulis ke cache dengan TTL 1 jam
  • Untuk permintaan inferensi khusus AS (inference_geo: "us") pada Claude Opus 4.6, Claude Sonnet 4.6, dan model yang lebih baru, token input dihitung sebagai 1,1 token per token
  • Semua token input lainnya dihitung sebagai 1 token per token

Token Output

  • Untuk permintaan inferensi khusus AS (inference_geo: "us") pada Claude Opus 4.6, Claude Sonnet 4.6, dan model yang lebih baru, token output dihitung sebagai 1,1 token per token
  • Semua token output lainnya dihitung sebagai 1 token per token

Jika tidak, permintaan akan diproses pada standard tier.



Tingkat pengurangan (burndown rate) ini mencerminkan harga relatif dari setiap jenis token. Misalnya, inferensi khusus AS dihargai 1,1x pada Opus 4.6, Sonnet 4.6, dan model yang lebih baru, sehingga setiap token yang dikonsumsi dengan inference_geo: "us" mengurangi 1,1 token dari kapasitas Priority Tier Anda.



Permintaan yang ditetapkan ke Priority Tier mengambil dari kapasitas Priority Tier dan batas laju reguler. Jika melayani permintaan tersebut akan melebihi batas laju, permintaan akan ditolak.

Menggunakan tingkat layanan

Anda dapat mengontrol tingkat layanan mana yang dapat digunakan untuk suatu permintaan dengan mengatur parameter service_tier:

Python
message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

Parameter service_tier menerima nilai-nilai berikut:

  • "auto" (default) - Menggunakan kapasitas Priority Tier jika tersedia, beralih ke kapasitas Anda yang lain jika tidak
  • "standard_only" - Hanya menggunakan kapasitas standard tier, berguna jika Anda tidak ingin menggunakan kapasitas Priority Tier Anda

Objek usage dalam respons juga menyertakan tingkat layanan yang ditetapkan untuk permintaan tersebut:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Ini memungkinkan Anda menentukan tingkat layanan mana yang ditetapkan untuk permintaan tersebut.

Saat meminta service_tier="auto" dengan model yang memiliki komitmen Priority Tier, header respons berikut memberikan wawasan:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Anda dapat menggunakan keberadaan header ini untuk mendeteksi apakah permintaan Anda memenuhi syarat untuk Priority Tier, bahkan jika melebihi batas.

Memulai dengan Priority Tier

Anda mungkin ingin berkomitmen pada kapasitas Priority Tier jika Anda tertarik pada:

  • Ketersediaan lebih tinggi: Target uptime 99,5% dengan sumber daya komputasi yang diprioritaskan
  • Kontrol biaya: Pengeluaran yang dapat diprediksi dan diskon untuk komitmen yang lebih lama
  • Overflow fleksibel: Secara otomatis beralih ke standard tier ketika Anda melebihi kapasitas yang telah dikomitmenkan

Berkomitmen pada Priority Tier melibatkan penentuan:

  • Jumlah token input per menit
  • Jumlah token output per menit
  • Durasi komitmen (1, 3, 6, atau 12 bulan)
  • Versi model tertentu


Rasio token input terhadap output yang Anda beli itu penting. Menyesuaikan ukuran kapasitas Priority Tier Anda agar selaras dengan pola lalu lintas aktual membantu Anda memaksimalkan pemanfaatan token yang telah dibeli.

Model yang didukung

Priority Tier didukung pada semua model Claude yang tersedia (termasuk Claude Opus 4.8) kecuali Claude Mythos Preview.

Periksa Ikhtisar model untuk detail lebih lanjut tentang model yang tersedia.

Cara mengakses Priority Tier

Untuk mulai menggunakan Priority Tier:

  1. Hubungi tim penjualan untuk menyelesaikan penyediaan.
  2. (Opsional) Perbarui permintaan API Anda untuk mengatur parameter service_tier ke auto.
  3. Pantau penggunaan Anda melalui header respons dan Claude Console.

Was this page helpful?

  • Standard Tier
  • Priority Tier
  • Bagaimana permintaan ditetapkan ke tingkat layanan
  • Menggunakan tingkat layanan
  • Memulai dengan Priority Tier
  • Model yang didukung
  • Cara mengakses Priority Tier