Mode cepat menyediakan pembuatan token output yang jauh lebih cepat untuk Claude Opus 4.8, Claude Opus 4.7, dan Claude Opus 4.6 dengan harga premium. Atur speed: "fast" dalam permintaan API Anda untuk mengaktifkannya. Mode cepat menghasilkan hingga 2,5x lebih tinggi token output per detik dari model yang sama.
Mode cepat berada dalam pratinjau riset. Hubungi manajer akun Anda untuk meminta akses. Jika Anda tidak memiliki manajer akun, bergabunglah dengan daftar tunggu untuk mode cepat.
Fitur ini memenuhi syarat untuk Zero Data Retention (ZDR). Ketika organisasi Anda memiliki pengaturan ZDR, data yang dikirim melalui fitur ini tidak disimpan setelah respons API dikembalikan.
Mode cepat didukung pada model-model berikut:
Mode cepat untuk Claude Opus 4.8 diluncurkan sebagai pratinjau riset hanya di Claude API, termasuk Claude Managed Agents. Mode ini tidak tersedia di platform pihak ketiga, termasuk Vertex AI, Amazon Bedrock, dan Microsoft Foundry.
Mode cepat untuk Claude Opus 4.6 tidak digunakan lagi (deprecated) sejak peluncuran Claude Opus 4.8 dan akan dihapus sekitar 30 hari setelahnya. Setelah dihapus, permintaan ke claude-opus-4-6 dengan speed: "fast" akan kembali ke kecepatan standar dengan harga standar, bukan mengembalikan error. Migrasikan ke mode cepat untuk Claude Opus 4.8 atau Claude Opus 4.7 untuk mempertahankan peningkatan kecepatan.
Mode cepat menjalankan model yang sama dengan konfigurasi inferensi yang lebih cepat. Tidak ada perubahan pada kecerdasan atau kemampuan.
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-8",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)Mode cepat dihargai dengan pengali per model pada tarif standar di seluruh jendela konteks penuh, termasuk permintaan dengan lebih dari 200k token input. Tabel berikut menunjukkan harga mode cepat untuk setiap model yang didukung:
| Model | Input | Output |
|---|---|---|
| Claude Opus 4.6 / Claude Opus 4.7 | $30 / MTok | $150 / MTok |
| Claude Opus 4.8 | $10 / MTok | $50 / MTok |
Harga mode cepat digabungkan dengan pengubah harga lainnya:
Untuk detail harga lengkap, lihat halaman harga.
Mode cepat memiliki batas laju khusus yang terpisah dari batas laju Opus standar. Ketika batas laju mode cepat Anda terlampaui, API mengembalikan error 429 dengan header retry-after yang menunjukkan kapan kapasitas akan tersedia.
Respons menyertakan header yang menunjukkan status batas laju mode cepat Anda:
| Header | Deskripsi |
|---|---|
anthropic-fast-input-tokens-limit | Token input mode cepat maksimum per menit |
anthropic-fast-input-tokens-remaining | Token input mode cepat yang tersisa |
anthropic-fast-input-tokens-reset | Waktu ketika batas token input mode cepat direset |
anthropic-fast-output-tokens-limit | Token output mode cepat maksimum per menit |
anthropic-fast-output-tokens-remaining | Token output mode cepat yang tersisa |
anthropic-fast-output-tokens-reset | Waktu ketika batas token output mode cepat direset |
Untuk batas laju spesifik per tingkat, lihat halaman batas laju.
Objek usage dalam respons menyertakan field speed yang menunjukkan kecepatan mana yang digunakan, baik "fast" atau "standard":
response = client.beta.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 8,
"output_tokens": 12,
"speed": "fast"
}
}Untuk melacak penggunaan dan biaya mode cepat di seluruh organisasi Anda, lihat Usage and Cost API.
Ketika batas laju mode cepat terlampaui, API mengembalikan error 429 dengan header retry-after. SDK Anthropic secara otomatis mencoba ulang permintaan ini hingga 2 kali secara default (dapat dikonfigurasi melalui max_retries), menunggu selama penundaan yang ditentukan server sebelum setiap percobaan ulang. Karena mode cepat menggunakan pengisian ulang token secara berkelanjutan, penundaan retry-after biasanya singkat dan permintaan berhasil setelah kapasitas tersedia.
Jika Anda lebih memilih untuk kembali ke kecepatan standar daripada menunggu kapasitas mode cepat, tangkap error batas laju dan coba ulang tanpa speed: "fast". Atur max_retries ke 0 pada permintaan cepat awal untuk melewati percobaan ulang otomatis dan langsung gagal pada error batas laju.
Kembali dari kecepatan cepat ke kecepatan standar akan menghasilkan cache miss pada cache prompt. Permintaan pada kecepatan yang berbeda tidak berbagi prefiks yang di-cache.
Karena mengatur max_retries ke 0 juga menonaktifkan percobaan ulang untuk error sementara lainnya (overloaded, internal server error), contoh di bawah ini mengirim ulang permintaan asli dengan percobaan ulang default untuk kasus-kasus tersebut.
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
try:
return client.with_options(max_retries=max_retries).beta.messages.create(
**params
)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(max_retries=max_retries, **params)
raise
except (
anthropic.APIStatusError,
anthropic.APIConnectionError,
) as error:
if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
raise
if max_attempts > 1:
return create_message_with_fast_fallback(
max_retries=max_retries, max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-8",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" dengan model yang tidak didukung akan mengembalikan error.Lihat informasi harga mode cepat secara detail.
Periksa tingkat batas laju untuk mode cepat.
Kontrol penggunaan token dengan parameter effort.
Was this page helpful?