Mode cepat menyediakan pembuatan token output yang jauh lebih cepat untuk Claude Opus 4.6. Dengan mengatur speed: "fast" dalam permintaan API Anda, Anda mendapatkan hingga 2,5x token output per detik yang lebih tinggi dari model yang sama dengan harga premium.
Mode cepat saat ini dalam pratinjau penelitian. Bergabunglah dengan daftar tunggu untuk meminta akses. Ketersediaan terbatas saat kami mengumpulkan umpan balik.
Mode cepat didukung pada model berikut:
claude-opus-4-6)Mode cepat menjalankan model yang sama dengan konfigurasi inferensi yang lebih cepat. Tidak ada perubahan pada kecerdasan atau kemampuan.
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"speed": "fast",
"messages": [{
"role": "user",
"content": "Refactor this module to use dependency injection"
}]
}'Mode cepat dihargai pada 6x tarif Opus standar untuk prompt ≤200K token, dan 12x tarif Opus standar untuk prompt > 200K token. Tabel berikut menunjukkan harga untuk Claude Opus 4.6 dengan mode cepat:
| Jendela konteks | Input | Output |
|---|---|---|
| ≤ 200K token input | $30 / MTok | $150 / MTok |
| > 200K token input | $60 / MTok | $225 / MTok |
Harga mode cepat ditumpuk dengan pengubah harga lainnya:
Untuk detail harga lengkap, lihat halaman harga.
Mode cepat memiliki batas laju khusus yang terpisah dari batas laju Opus standar. Tidak seperti kecepatan standar, yang memiliki batas terpisah untuk ≤200K dan >200K token input, mode cepat menggunakan batas laju tunggal yang mencakup rentang konteks penuh. Ketika batas laju mode cepat Anda terlampaui, API mengembalikan kesalahan 429 dengan header retry-after yang menunjukkan kapan kapasitas akan tersedia.
Respons mencakup header yang menunjukkan status batas laju mode cepat Anda:
| Header | Deskripsi |
|---|---|
anthropic-fast-input-tokens-limit | Token input mode cepat maksimum per menit |
anthropic-fast-input-tokens-remaining | Token input mode cepat yang tersisa |
anthropic-fast-input-tokens-reset | Waktu ketika batas token input mode cepat direset |
anthropic-fast-output-tokens-limit | Token output mode cepat maksimum per menit |
anthropic-fast-output-tokens-remaining | Token output mode cepat yang tersisa |
anthropic-fast-output-tokens-reset | Waktu ketika batas token output mode cepat direset |
Untuk batas laju khusus tingkat, lihat halaman batas laju.
Objek usage respons mencakup bidang speed yang menunjukkan kecepatan mana yang digunakan, baik "fast" atau "standard":
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"speed": "fast",
"messages": [{"role": "user", "content": "Hello"}]
}'
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
...
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Untuk melacak penggunaan mode cepat dan biaya di seluruh organisasi Anda, lihat API Penggunaan dan Biaya.
Ketika batas laju mode cepat terlampaui, API mengembalikan kesalahan 429 dengan header retry-after. SDK Anthropic secara otomatis mencoba ulang permintaan ini hingga 2 kali secara default (dapat dikonfigurasi melalui max_retries), menunggu penundaan yang ditentukan server sebelum setiap percobaan ulang. Karena mode cepat menggunakan pengisian ulang token berkelanjutan, penundaan retry-after biasanya singkat dan permintaan berhasil setelah kapasitas tersedia.
Jika Anda lebih suka jatuh kembali ke kecepatan standar daripada menunggu kapasitas mode cepat, tangkap kesalahan batas laju dan coba ulang tanpa speed: "fast". Atur max_retries ke 0 pada permintaan cepat awal untuk melewati percobaan ulang otomatis dan gagal segera pada kesalahan batas laju.
Jatuh kembali dari cepat ke kecepatan standar akan menghasilkan prompt cache miss. Permintaan pada kecepatan berbeda tidak berbagi awalan yang di-cache.
Karena mengatur max_retries ke 0 juga menonaktifkan percobaan ulang untuk kesalahan transien lainnya (kelebihan beban, kesalahan server internal), contoh di bawah mengeluarkan kembali permintaan asli dengan percobaan ulang default untuk kasus-kasus tersebut.
import anthropic
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" dengan model yang tidak didukung mengembalikan kesalahan.Lihat informasi harga mode cepat yang terperinci.
Periksa tingkat batas laju untuk mode cepat.
Kontrol penggunaan token dengan parameter effort.
Was this page helpful?