Loading...
  • Bangun
  • Admin
  • Model & harga
  • Client SDK
  • Referensi API
Search...
⌘K
Log in
Mode cepat (beta: pratinjau riset)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Bangun/Kemampuan model

Mode cepat (beta: pratinjau penelitian)

Kecepatan keluaran lebih tinggi untuk Claude Opus 4.6, memberikan pembuatan token yang jauh lebih cepat untuk alur kerja yang sensitif terhadap latensi dan agentic.

Mode cepat menyediakan pembuatan token keluaran yang jauh lebih cepat untuk Claude Opus 4.6. Dengan mengatur speed: "fast" dalam permintaan API Anda, Anda mendapatkan hingga 2,5x token keluaran per detik yang lebih tinggi dari model yang sama dengan harga premium.

Mode cepat sedang dalam beta (pratinjau penelitian). Bergabunglah dengan daftar tunggu untuk meminta akses. Ketersediaan terbatas saat Anthropic mengumpulkan umpan balik.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

Model yang didukung

Mode cepat didukung pada model berikut:

  • Claude Opus 4.6 (claude-opus-4-6)

Cara kerja mode cepat

Mode cepat menjalankan model yang sama dengan konfigurasi inferensi yang lebih cepat. Tidak ada perubahan pada kecerdasan atau kemampuan.

  • Hingga 2,5x token keluaran per detik yang lebih tinggi dibandingkan dengan kecepatan standar
  • Manfaat kecepatan berfokus pada token keluaran per detik (OTPS), bukan waktu ke token pertama (TTFT)
  • Bobot dan perilaku model yang sama (bukan model yang berbeda)

Penggunaan dasar

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Harga

Mode cepat dihargai pada 6x tarif Opus standar di seluruh jendela konteks, termasuk permintaan di atas 200k token input. Tabel berikut menunjukkan harga untuk Claude Opus 4.6 dengan mode cepat:

InputOutput
$30 / MTok$150 / MTok

Harga mode cepat ditumpuk dengan pengubah harga lainnya:

  • Pengganda caching prompt berlaku di atas harga mode cepat
  • Residensi data pengganda berlaku di atas harga mode cepat

Untuk detail harga lengkap, lihat halaman harga.

Batas laju

Mode cepat memiliki batas laju khusus yang terpisah dari batas laju Opus standar. Ketika batas laju mode cepat Anda terlampaui, API mengembalikan kesalahan 429 dengan header retry-after yang menunjukkan kapan kapasitas akan tersedia.

Respons mencakup header yang menunjukkan status batas laju mode cepat Anda:

HeaderDeskripsi
anthropic-fast-input-tokens-limitToken input mode cepat maksimum per menit
anthropic-fast-input-tokens-remainingToken input mode cepat yang tersisa
anthropic-fast-input-tokens-resetWaktu ketika batas token input mode cepat direset
anthropic-fast-output-tokens-limitToken output mode cepat maksimum per menit
anthropic-fast-output-tokens-remainingToken output mode cepat yang tersisa
anthropic-fast-output-tokens-resetWaktu ketika batas token output mode cepat direset

Untuk batas laju khusus tingkat, lihat halaman batas laju.

Memeriksa kecepatan mana yang digunakan

Objek usage respons mencakup bidang speed yang menunjukkan kecepatan mana yang digunakan, baik "fast" atau "standard":

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"
Output
{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

Untuk melacak penggunaan mode cepat dan biaya di seluruh organisasi Anda, lihat API Penggunaan dan Biaya.

Percobaan ulang dan fallback

Percobaan ulang otomatis

Ketika batas laju mode cepat terlampaui, API mengembalikan kesalahan 429 dengan header retry-after. SDK Anthropic secara otomatis mencoba ulang permintaan ini hingga 2 kali secara default (dapat dikonfigurasi melalui max_retries), menunggu penundaan yang ditentukan server sebelum setiap percobaan ulang. Karena mode cepat menggunakan pengisian ulang token berkelanjutan, penundaan retry-after biasanya singkat dan permintaan berhasil setelah kapasitas tersedia.

Jatuh kembali ke kecepatan standar

Jika Anda lebih suka jatuh kembali ke kecepatan standar daripada menunggu kapasitas mode cepat, tangkap kesalahan batas laju dan coba ulang tanpa speed: "fast". Atur max_retries ke 0 pada permintaan cepat awal untuk melewati percobaan ulang otomatis dan gagal segera pada kesalahan batas laju.

Jatuh kembali dari kecepatan cepat ke standar akan menghasilkan cache prompt miss. Permintaan pada kecepatan berbeda tidak berbagi awalan yang di-cache.

Karena mengatur max_retries ke 0 juga menonaktifkan percobaan ulang untuk kesalahan transien lainnya (kelebihan beban, kesalahan server internal), contoh di bawah mengeluarkan kembali permintaan asli dengan percobaan ulang default untuk kasus-kasus tersebut.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Pertimbangan

  • Caching prompt: Beralih antara kecepatan cepat dan standar membatalkan cache prompt. Permintaan pada kecepatan berbeda tidak berbagi awalan yang di-cache.
  • Model yang didukung: Mode cepat saat ini didukung hanya pada Opus 4.6. Mengirim speed: "fast" dengan model yang tidak didukung mengembalikan kesalahan.
  • TTFT: Manfaat mode cepat berfokus pada token keluaran per detik (OTPS), bukan waktu ke token pertama (TTFT).
  • Batch API: Mode cepat tidak tersedia dengan Batch API.
  • Priority Tier: Mode cepat tidak tersedia dengan Priority Tier.

Langkah berikutnya

Harga

Lihat informasi harga mode cepat yang terperinci.

Batas laju

Periksa tingkat batas laju untuk mode cepat.

Parameter usaha

Kontrol penggunaan token dengan parameter usaha.

Was this page helpful?

  • Model yang didukung
  • Cara kerja mode cepat
  • Penggunaan dasar
  • Harga
  • Batas laju
  • Memeriksa kecepatan mana yang digunakan
  • Percobaan ulang dan fallback
  • Percobaan ulang otomatis
  • Jatuh kembali ke kecepatan standar
  • Pertimbangan
  • Langkah berikutnya