Mode cepat menyediakan pembuatan token keluaran yang jauh lebih cepat untuk Claude Opus 4.6. Dengan mengatur speed: "fast" dalam permintaan API Anda, Anda mendapatkan hingga 2,5x token keluaran per detik yang lebih tinggi dari model yang sama dengan harga premium.
Mode cepat sedang dalam beta (pratinjau penelitian). Bergabunglah dengan daftar tunggu untuk meminta akses. Ketersediaan terbatas saat Anthropic mengumpulkan umpan balik.
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
Mode cepat didukung pada model berikut:
claude-opus-4-6)Mode cepat menjalankan model yang sama dengan konfigurasi inferensi yang lebih cepat. Tidak ada perubahan pada kecerdasan atau kemampuan.
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)Mode cepat dihargai pada 6x tarif Opus standar di seluruh jendela konteks, termasuk permintaan di atas 200k token input. Tabel berikut menunjukkan harga untuk Claude Opus 4.6 dengan mode cepat:
| Input | Output |
|---|---|
| $30 / MTok | $150 / MTok |
Harga mode cepat ditumpuk dengan pengubah harga lainnya:
Untuk detail harga lengkap, lihat halaman harga.
Mode cepat memiliki batas laju khusus yang terpisah dari batas laju Opus standar. Ketika batas laju mode cepat Anda terlampaui, API mengembalikan kesalahan 429 dengan header retry-after yang menunjukkan kapan kapasitas akan tersedia.
Respons mencakup header yang menunjukkan status batas laju mode cepat Anda:
| Header | Deskripsi |
|---|---|
anthropic-fast-input-tokens-limit | Token input mode cepat maksimum per menit |
anthropic-fast-input-tokens-remaining | Token input mode cepat yang tersisa |
anthropic-fast-input-tokens-reset | Waktu ketika batas token input mode cepat direset |
anthropic-fast-output-tokens-limit | Token output mode cepat maksimum per menit |
anthropic-fast-output-tokens-remaining | Token output mode cepat yang tersisa |
anthropic-fast-output-tokens-reset | Waktu ketika batas token output mode cepat direset |
Untuk batas laju khusus tingkat, lihat halaman batas laju.
Objek usage respons mencakup bidang speed yang menunjukkan kecepatan mana yang digunakan, baik "fast" atau "standard":
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Untuk melacak penggunaan mode cepat dan biaya di seluruh organisasi Anda, lihat API Penggunaan dan Biaya.
Ketika batas laju mode cepat terlampaui, API mengembalikan kesalahan 429 dengan header retry-after. SDK Anthropic secara otomatis mencoba ulang permintaan ini hingga 2 kali secara default (dapat dikonfigurasi melalui max_retries), menunggu penundaan yang ditentukan server sebelum setiap percobaan ulang. Karena mode cepat menggunakan pengisian ulang token berkelanjutan, penundaan retry-after biasanya singkat dan permintaan berhasil setelah kapasitas tersedia.
Jika Anda lebih suka jatuh kembali ke kecepatan standar daripada menunggu kapasitas mode cepat, tangkap kesalahan batas laju dan coba ulang tanpa speed: "fast". Atur max_retries ke 0 pada permintaan cepat awal untuk melewati percobaan ulang otomatis dan gagal segera pada kesalahan batas laju.
Jatuh kembali dari kecepatan cepat ke standar akan menghasilkan cache prompt miss. Permintaan pada kecepatan berbeda tidak berbagi awalan yang di-cache.
Karena mengatur max_retries ke 0 juga menonaktifkan percobaan ulang untuk kesalahan transien lainnya (kelebihan beban, kesalahan server internal), contoh di bawah mengeluarkan kembali permintaan asli dengan percobaan ulang default untuk kasus-kasus tersebut.
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" dengan model yang tidak didukung mengembalikan kesalahan.Lihat informasi harga mode cepat yang terperinci.
Periksa tingkat batas laju untuk mode cepat.
Kontrol penggunaan token dengan parameter usaha.
Was this page helpful?