MessagesKemampuan model

Mode cepat (pratinjau riset)

Dapatkan hingga 2,5x lebih banyak token output per detik dari model Claude Opus yang didukung.

Mode cepat menghasilkan hingga 2,5x lebih banyak token output per detik dari Claude Opus 4.8 dan Claude Opus 4.7 dengan harga premium. Atur speed: "fast" dengan header beta fast-mode-2026-02-01 pada permintaan Anda untuk mengaktifkannya.

Mode cepat berada dalam tahap pratinjau riset. Hubungi manajer akun Anda untuk meminta akses. Jika Anda tidak memiliki manajer akun, bergabunglah dengan daftar tunggu untuk mode cepat.

Fitur ini memenuhi syarat untuk Zero Data Retention (ZDR). Ketika organisasi Anda memiliki pengaturan ZDR, data yang dikirim melalui fitur ini tidak disimpan setelah respons API dikembalikan.

Model yang didukung

Mode cepat didukung pada model berikut:

Claude Opus 4.8 (claude-opus-4-8)
Claude Opus 4.7 (claude-opus-4-7)

Mode cepat untuk Claude Opus 4.8 diluncurkan sebagai pratinjau riset hanya di Claude API, termasuk Claude Managed Agents. Fitur ini tidak tersedia di Amazon Bedrock, Google Cloud, atau Microsoft Foundry.

Mode cepat untuk Claude Opus 4.7 tidak digunakan lagi (deprecated) per 25 Juni 2026, dan akan dihapus pada 24 Juli 2026. Setelah penghapusan, permintaan ke claude-opus-4-7 dengan speed: "fast" akan mengembalikan error; tidak seperti Claude Opus 4.6 (lihat catatan berikut), Claude Opus 4.7 tidak beralih ke kecepatan standar. Model itu sendiri tetap tersedia pada kecepatan standar. Untuk terus menggunakan mode cepat, migrasikan ke Claude Opus 4.8.

Per 29 Juni 2026, mode cepat tidak tersedia pada Claude Opus 4.6. Permintaan ke claude-opus-4-6 dengan speed: "fast" tidak mengembalikan error: permintaan tersebut berjalan pada kecepatan standar dan ditagih dengan tarif standar alih-alih tarif premium mode cepat, dan respons melaporkan usage.speed: "standard". Untuk terus menggunakan mode cepat, migrasikan ke Claude Opus 4.8.

Cara kerja mode cepat

Mode cepat menjalankan model yang sama dengan konfigurasi inferensi yang lebih cepat. Tidak ada perubahan pada kecerdasan atau kemampuan.

Hingga 2,5x lebih banyak token output per detik dibandingkan dengan kecepatan standar
Manfaat kecepatan difokuskan pada "output tokens per second" (token output per detik), atau OTPS, bukan "time to first token" (waktu hingga token pertama), atau TTFT
Bobot dan perilaku model yang sama (bukan model yang berbeda)
Kompatibel dengan streaming, di mana peningkatan OTPS paling terlihat

Penggunaan dasar

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Harga

Mode cepat dihargai dengan pengali per model di atas tarif standar di seluruh jendela konteks penuh, termasuk permintaan dengan lebih dari 200k token input. Tabel berikut menunjukkan harga mode cepat untuk setiap model yang didukung:

Model	Input	Output
Claude Opus 4.8	$10 / MTok	$50 / MTok
Claude Opus 4.7	$30 / MTok	$150 / MTok

Harga mode cepat digabungkan dengan pengubah harga lainnya:

Pengali caching prompt diterapkan di atas harga mode cepat
Pengali residensi data diterapkan di atas harga mode cepat

Untuk detail harga lengkap, lihat halaman harga.

Batas laju

Mode cepat memiliki batas laju khusus yang terpisah dari batas laju Opus standar. Ketika batas laju mode cepat Anda terlampaui, API mengembalikan error 429 dengan header retry-after yang menunjukkan kapan kapasitas akan tersedia.

Respons menyertakan header yang menunjukkan status batas laju mode cepat Anda:

Header	Deskripsi
`anthropic-fast-input-tokens-limit`	Token input mode cepat maksimum per menit
`anthropic-fast-input-tokens-remaining`	Token input mode cepat yang tersisa
`anthropic-fast-input-tokens-reset`	Waktu ketika batas token input mode cepat direset
`anthropic-fast-output-tokens-limit`	Token output mode cepat maksimum per menit
`anthropic-fast-output-tokens-remaining`	Token output mode cepat yang tersisa
`anthropic-fast-output-tokens-reset`	Waktu ketika batas token output mode cepat direset

Untuk batas laju spesifik per tier, lihat halaman batas laju.

Memeriksa kecepatan mana yang digunakan

Objek usage dalam respons menyertakan field speed yang menunjukkan kecepatan mana yang digunakan, baik "fast" atau "standard". Pada model yang didukung, mode cepat tidak secara diam-diam beralih ke kecepatan standar saat terjadi batas laju atau masalah kapasitas (Anda akan mendapatkan 429 atau 529 sebagai gantinya), jadi ketika Anda meminta speed: "fast" pada Claude Opus 4.8 atau Claude Opus 4.7, usage.speed adalah "fast". Pada Claude Opus 4.6, di mana mode cepat tidak tersedia, permintaan dengan speed: "fast" berjalan pada kecepatan standar dan mengembalikan usage.speed: "standard". Periksa field ini untuk mengonfirmasi kecepatan mana yang melayani permintaan.

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

Untuk melacak penggunaan dan biaya mode cepat di seluruh organisasi Anda, lihat Usage and Cost API.

Percobaan ulang dan fallback

Percobaan ulang otomatis

Ketika batas laju mode cepat terlampaui, API mengembalikan error 429 dengan header retry-after. SDK Anthropic secara otomatis mencoba ulang permintaan ini hingga 2 kali secara default (dapat dikonfigurasi dengan max_retries), menunggu selama penundaan yang ditentukan server sebelum setiap percobaan ulang. Karena mode cepat menggunakan pengisian ulang token secara kontinu, penundaan retry-after biasanya singkat dan permintaan berhasil setelah kapasitas tersedia.

Beralih ke kecepatan standar

Bagian ini membahas fallback sisi klien yang bersifat opt-in ketika mode cepat terkena batas laju. Ini terpisah dari perilaku pada Claude Opus 4.6, di mana mode cepat tidak tersedia dan permintaan berjalan pada kecepatan standar secara otomatis.

Jika Anda lebih memilih untuk beralih ke kecepatan standar daripada menunggu kapasitas mode cepat, tangkap error batas laju dan coba ulang tanpa speed: "fast". Atur max_retries ke 0 pada permintaan cepat awal untuk melewati percobaan ulang otomatis dan langsung gagal pada error batas laju.

Beralih dari kecepatan cepat ke standar akan menghasilkan cache miss pada caching prompt. Permintaan pada kecepatan yang berbeda tidak berbagi prefiks yang di-cache.

Karena mengatur max_retries ke 0 juga menonaktifkan percobaan ulang untuk error sementara lainnya (overloaded, internal server error), contoh berikut mengirim ulang permintaan asli dengan percobaan ulang default untuk kasus-kasus tersebut.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Pertimbangan

Caching prompt: Beralih antara kecepatan cepat dan standar membatalkan cache prompt. Permintaan pada kecepatan yang berbeda tidak berbagi prefiks yang di-cache.
Model yang didukung: Mode cepat didukung pada Claude Opus 4.8 dan Claude Opus 4.7 (mode cepat tidak digunakan lagi; penghapusan pada 24 Juli 2026, dengan model itu sendiri tidak terpengaruh). Pada Claude Opus 4.6, permintaan dengan speed: "fast" tidak mengembalikan error: permintaan tersebut berjalan pada kecepatan standar dan ditagih dengan tarif standar. Pada model lain mana pun, mengirim speed: "fast" mengembalikan error.
TTFT: Manfaat mode cepat difokuskan pada token output per detik (OTPS), bukan waktu hingga token pertama (TTFT).
Batch API: Mode cepat tidak tersedia dengan Batch API.
Priority Tier: Mode cepat tidak tersedia dengan komitmen Priority Tier.
Claude Platform on AWS: Mode cepat saat ini tidak tersedia di Claude Platform on AWS.

Langkah selanjutnya

Output terstruktur

Dapatkan hasil JSON yang tervalidasi dari alur kerja agen.

Harga

Pelajari tentang struktur harga Anthropic untuk model dan fitur.

Effort

Kontrol berapa banyak token yang digunakan Claude saat merespons dengan parameter effort, menyeimbangkan antara kelengkapan respons dan efisiensi token.

Streaming pesan

Stream respons Messages API secara inkremental dengan server-sent events, termasuk delta teks, penggunaan alat, dan pemikiran diperpanjang.

Was this page helpful?

MessagesKemampuan model

Mode cepat (pratinjau riset)

Dapatkan hingga 2,5x lebih banyak token output per detik dari model Claude Opus yang didukung.

Mode cepat berada dalam tahap pratinjau riset. Hubungi manajer akun Anda untuk meminta akses. Jika Anda tidak memiliki manajer akun, bergabunglah dengan daftar tunggu untuk mode cepat.

Fitur ini memenuhi syarat untuk Zero Data Retention (ZDR). Ketika organisasi Anda memiliki pengaturan ZDR, data yang dikirim melalui fitur ini tidak disimpan setelah respons API dikembalikan.

Model yang didukung

Mode cepat didukung pada model berikut:

Claude Opus 4.8 (claude-opus-4-8)
Claude Opus 4.7 (claude-opus-4-7)

Cara kerja mode cepat

Mode cepat menjalankan model yang sama dengan konfigurasi inferensi yang lebih cepat. Tidak ada perubahan pada kecerdasan atau kemampuan.

Hingga 2,5x lebih banyak token output per detik dibandingkan dengan kecepatan standar
Manfaat kecepatan difokuskan pada "output tokens per second" (token output per detik), atau OTPS, bukan "time to first token" (waktu hingga token pertama), atau TTFT
Bobot dan perilaku model yang sama (bukan model yang berbeda)
Kompatibel dengan streaming, di mana peningkatan OTPS paling terlihat

Penggunaan dasar

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Harga

Model	Input	Output
Claude Opus 4.8	$10 / MTok	$50 / MTok
Claude Opus 4.7	$30 / MTok	$150 / MTok

Harga mode cepat digabungkan dengan pengubah harga lainnya:

Pengali caching prompt diterapkan di atas harga mode cepat
Pengali residensi data diterapkan di atas harga mode cepat

Untuk detail harga lengkap, lihat halaman harga.

Batas laju

Respons menyertakan header yang menunjukkan status batas laju mode cepat Anda:

Header	Deskripsi
`anthropic-fast-input-tokens-limit`	Token input mode cepat maksimum per menit
`anthropic-fast-input-tokens-remaining`	Token input mode cepat yang tersisa
`anthropic-fast-input-tokens-reset`	Waktu ketika batas token input mode cepat direset
`anthropic-fast-output-tokens-limit`	Token output mode cepat maksimum per menit
`anthropic-fast-output-tokens-remaining`	Token output mode cepat yang tersisa
`anthropic-fast-output-tokens-reset`	Waktu ketika batas token output mode cepat direset

Untuk batas laju spesifik per tier, lihat halaman batas laju.

Memeriksa kecepatan mana yang digunakan

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

Untuk melacak penggunaan dan biaya mode cepat di seluruh organisasi Anda, lihat Usage and Cost API.

Percobaan ulang dan fallback

Percobaan ulang otomatis

Beralih ke kecepatan standar

Beralih dari kecepatan cepat ke standar akan menghasilkan cache miss pada caching prompt. Permintaan pada kecepatan yang berbeda tidak berbagi prefiks yang di-cache.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Pertimbangan

Caching prompt: Beralih antara kecepatan cepat dan standar membatalkan cache prompt. Permintaan pada kecepatan yang berbeda tidak berbagi prefiks yang di-cache.
Model yang didukung: Mode cepat didukung pada Claude Opus 4.8 dan Claude Opus 4.7 (mode cepat tidak digunakan lagi; penghapusan pada 24 Juli 2026, dengan model itu sendiri tidak terpengaruh). Pada Claude Opus 4.6, permintaan dengan speed: "fast" tidak mengembalikan error: permintaan tersebut berjalan pada kecepatan standar dan ditagih dengan tarif standar. Pada model lain mana pun, mengirim speed: "fast" mengembalikan error.
TTFT: Manfaat mode cepat difokuskan pada token output per detik (OTPS), bukan waktu hingga token pertama (TTFT).
Batch API: Mode cepat tidak tersedia dengan Batch API.
Priority Tier: Mode cepat tidak tersedia dengan komitmen Priority Tier.
Claude Platform on AWS: Mode cepat saat ini tidak tersedia di Claude Platform on AWS.

Langkah selanjutnya

Output terstruktur

Dapatkan hasil JSON yang tervalidasi dari alur kerja agen.

Harga

Pelajari tentang struktur harga Anthropic untuk model dan fitur.

Effort

Kontrol berapa banyak token yang digunakan Claude saat merespons dengan parameter effort, menyeimbangkan antara kelengkapan respons dan efisiensi token.

Streaming pesan

Stream respons Messages API secara inkremental dengan server-sent events, termasuk delta teks, penggunaan alat, dan pemikiran diperpanjang.

Was this page helpful?

Model yang didukung

Cara kerja mode cepat

Penggunaan dasar

Harga

Batas laju

Memeriksa kecepatan mana yang digunakan

Percobaan ulang dan fallback

Percobaan ulang otomatis

Beralih ke kecepatan standar

Pertimbangan

Langkah selanjutnya

Model yang didukung

Cara kerja mode cepat

Penggunaan dasar

Harga

Batas laju

Memeriksa kecepatan mana yang digunakan

Percobaan ulang dan fallback

Percobaan ulang otomatis

Beralih ke kecepatan standar

Pertimbangan

Langkah selanjutnya

Model yang didukung

Cara kerja mode cepat

Penggunaan dasar

Harga

Batas laju

Memeriksa kecepatan mana yang digunakan

Percobaan ulang dan fallback

Percobaan ulang otomatis

Beralih ke kecepatan standar

Pertimbangan

Langkah selanjutnya

Model yang didukung

Cara kerja mode cepat

Penggunaan dasar

Harga

Batas laju

Memeriksa kecepatan mana yang digunakan

Percobaan ulang dan fallback

Percobaan ulang otomatis

Beralih ke kecepatan standar

Pertimbangan

Langkah selanjutnya