• Messages
  • Managed Agents
  • Admin

Search...
⌘K
Langkah pertama
Pengenalan ClaudeMulai cepat
Membangun dengan Claude
Ikhtisar fiturMenggunakan Messages APIAlasan berhenti dan fallbackPenolakan dan fallbackKredit fallback
Kemampuan model
Pemikiran diperpanjangPemikiran adaptifUpayaAnggaran tugas (beta)Mode cepat (pratinjau riset)Output terstrukturSitasiStreaming MessagesPemrosesan batchHasil pencarianStreaming penolakanDukungan multibahasaEmbeddings
Alat
IkhtisarCara kerja penggunaan alatTutorial: Membangun agen pengguna alatMendefinisikan alatMenangani panggilan alatPenggunaan alat paralelTool Runner (SDK)Penggunaan alat ketatPenggunaan alat dengan caching promptAlat serverPemecahan masalahAlat pencarian webAlat pengambilan webAlat eksekusi kodeAlat penasihatAlat memoriAlat BashAlat penggunaan komputerAlat editor teks
Infrastruktur alat
Referensi alatMengelola konteks alatKombinasi alatPencarian alatPemanggilan alat terprogramStreaming alat terperinci
Manajemen konteks
Jendela konteksPemadatanPengeditan konteksCaching promptPesan sistem di tengah percakapanMembangun mode orkestrasiDiagnostik cache (beta)Penghitungan token
Bekerja dengan file
Files APIDukungan PDFGambar dan visi
Skills
IkhtisarMulai cepatPraktik terbaikSkills untuk enterpriseSkills di API
MCP
Server MCP jarak jauhKonektor MCP
Claude di platform cloud
Amazon BedrockAmazon Bedrock (lama)Claude Platform di AWSMicrosoft FoundryVertex AI

Log in
Mode cepat (pratinjau riset)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Messages/Kemampuan model

Mode cepat (pratinjau riset)

Kecepatan output yang lebih tinggi untuk model Claude Opus yang didukung, menghasilkan pembuatan token yang jauh lebih cepat untuk alur kerja yang sensitif terhadap latensi dan alur kerja agentik.

Mode cepat menyediakan pembuatan token output yang jauh lebih cepat untuk Claude Opus 4.8, Claude Opus 4.7, dan Claude Opus 4.6 dengan harga premium. Atur speed: "fast" dalam permintaan API Anda untuk mengaktifkannya. Mode cepat menghasilkan hingga 2,5x lebih tinggi token output per detik dari model yang sama.



Mode cepat berada dalam pratinjau riset. Hubungi manajer akun Anda untuk meminta akses. Jika Anda tidak memiliki manajer akun, bergabunglah dengan daftar tunggu untuk mode cepat.



Fitur ini memenuhi syarat untuk Zero Data Retention (ZDR). Ketika organisasi Anda memiliki pengaturan ZDR, data yang dikirim melalui fitur ini tidak disimpan setelah respons API dikembalikan.

Model yang didukung

Mode cepat didukung pada model-model berikut:

  • Claude Opus 4.8 (claude-opus-4-8)
  • Claude Opus 4.7 (claude-opus-4-7)
  • Claude Opus 4.6 (claude-opus-4-6)


Mode cepat untuk Claude Opus 4.8 diluncurkan sebagai pratinjau riset hanya di Claude API, termasuk Claude Managed Agents. Mode ini tidak tersedia di platform pihak ketiga, termasuk Vertex AI, Amazon Bedrock, dan Microsoft Foundry.



Mode cepat untuk Claude Opus 4.6 tidak digunakan lagi (deprecated) sejak peluncuran Claude Opus 4.8 dan akan dihapus sekitar 30 hari setelahnya. Setelah dihapus, permintaan ke claude-opus-4-6 dengan speed: "fast" akan kembali ke kecepatan standar dengan harga standar, bukan mengembalikan error. Migrasikan ke mode cepat untuk Claude Opus 4.8 atau Claude Opus 4.7 untuk mempertahankan peningkatan kecepatan.

Cara kerja mode cepat

Mode cepat menjalankan model yang sama dengan konfigurasi inferensi yang lebih cepat. Tidak ada perubahan pada kecerdasan atau kemampuan.

  • Hingga 2,5x lebih tinggi token output per detik dibandingkan dengan kecepatan standar
  • Manfaat kecepatan difokuskan pada "output tokens per second" (token output per detik), atau OTPS, bukan "time to first token" (waktu hingga token pertama), atau TTFT
  • Bobot dan perilaku model yang sama (bukan model yang berbeda)

Penggunaan dasar

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Harga

Mode cepat dihargai dengan pengali per model pada tarif standar di seluruh jendela konteks penuh, termasuk permintaan dengan lebih dari 200k token input. Tabel berikut menunjukkan harga mode cepat untuk setiap model yang didukung:

ModelInputOutput
Claude Opus 4.6 / Claude Opus 4.7$30 / MTok$150 / MTok
Claude Opus 4.8$10 / MTok$50 / MTok

Harga mode cepat digabungkan dengan pengubah harga lainnya:

  • Pengali caching prompt diterapkan di atas harga mode cepat
  • Pengali residensi data diterapkan di atas harga mode cepat

Untuk detail harga lengkap, lihat halaman harga.

Batas laju

Mode cepat memiliki batas laju khusus yang terpisah dari batas laju Opus standar. Ketika batas laju mode cepat Anda terlampaui, API mengembalikan error 429 dengan header retry-after yang menunjukkan kapan kapasitas akan tersedia.

Respons menyertakan header yang menunjukkan status batas laju mode cepat Anda:

HeaderDeskripsi
anthropic-fast-input-tokens-limitToken input mode cepat maksimum per menit
anthropic-fast-input-tokens-remainingToken input mode cepat yang tersisa
anthropic-fast-input-tokens-resetWaktu ketika batas token input mode cepat direset
anthropic-fast-output-tokens-limitToken output mode cepat maksimum per menit
anthropic-fast-output-tokens-remainingToken output mode cepat yang tersisa
anthropic-fast-output-tokens-resetWaktu ketika batas token output mode cepat direset

Untuk batas laju spesifik per tingkat, lihat halaman batas laju.

Memeriksa kecepatan mana yang digunakan

Objek usage dalam respons menyertakan field speed yang menunjukkan kecepatan mana yang digunakan, baik "fast" atau "standard":

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"
Output
{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

Untuk melacak penggunaan dan biaya mode cepat di seluruh organisasi Anda, lihat Usage and Cost API.

Percobaan ulang dan fallback

Percobaan ulang otomatis

Ketika batas laju mode cepat terlampaui, API mengembalikan error 429 dengan header retry-after. SDK Anthropic secara otomatis mencoba ulang permintaan ini hingga 2 kali secara default (dapat dikonfigurasi melalui max_retries), menunggu selama penundaan yang ditentukan server sebelum setiap percobaan ulang. Karena mode cepat menggunakan pengisian ulang token secara berkelanjutan, penundaan retry-after biasanya singkat dan permintaan berhasil setelah kapasitas tersedia.

Kembali ke kecepatan standar

Jika Anda lebih memilih untuk kembali ke kecepatan standar daripada menunggu kapasitas mode cepat, tangkap error batas laju dan coba ulang tanpa speed: "fast". Atur max_retries ke 0 pada permintaan cepat awal untuk melewati percobaan ulang otomatis dan langsung gagal pada error batas laju.



Kembali dari kecepatan cepat ke kecepatan standar akan menghasilkan cache miss pada cache prompt. Permintaan pada kecepatan yang berbeda tidak berbagi prefiks yang di-cache.

Karena mengatur max_retries ke 0 juga menonaktifkan percobaan ulang untuk error sementara lainnya (overloaded, internal server error), contoh di bawah ini mengirim ulang permintaan asli dengan percobaan ulang default untuk kasus-kasus tersebut.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Pertimbangan

  • Caching prompt: Beralih antara kecepatan cepat dan standar membatalkan cache prompt. Permintaan pada kecepatan yang berbeda tidak berbagi prefiks yang di-cache.
  • Model yang didukung: Mode cepat didukung pada Claude Opus 4.8, Claude Opus 4.7, dan Claude Opus 4.6. Mengirim speed: "fast" dengan model yang tidak didukung akan mengembalikan error.
  • TTFT: Manfaat mode cepat difokuskan pada token output per detik (OTPS), bukan waktu hingga token pertama (TTFT).
  • Batch API: Mode cepat tidak tersedia dengan Batch API.
  • Priority Tier: Mode cepat tidak tersedia dengan Priority Tier.
  • Claude Platform di AWS: Mode cepat saat ini tidak tersedia di Claude Platform di AWS.

Langkah selanjutnya

Harga

Lihat informasi harga mode cepat secara detail.

Batas laju

Periksa tingkat batas laju untuk mode cepat.

Parameter effort

Kontrol penggunaan token dengan parameter effort.

Was this page helpful?

  • Model yang didukung
  • Cara kerja mode cepat
  • Penggunaan dasar
  • Harga
  • Batas laju
  • Memeriksa kecepatan mana yang digunakan
  • Percobaan ulang dan fallback
  • Percobaan ulang otomatis
  • Kembali ke kecepatan standar
  • Pertimbangan
  • Langkah selanjutnya