Loading...
    • Panduan Pengembang
    • Referensi API
    • MCP
    • Sumber daya
    • Catatan Rilis
    Search...
    ⌘K
    Langkah pertama
    Pengenalan ClaudeMulai cepat
    Model & harga
    Ikhtisar modelMemilih modelYang baru di Claude 4.6Panduan migrasiPenghentian modelHarga
    Bangun dengan Claude
    Ikhtisar fiturMenggunakan Messages APIMenangani alasan berhentiPraktik terbaik prompting
    Kemampuan model
    Extended thinkingAdaptive thinkingEffortMode cepat (pratinjau penelitian)Output terstrukturKutipanStreaming MessagesPemrosesan batchDukungan PDFHasil pencarianDukungan multibahasaEmbeddingsVisi
    Alat
    IkhtisarCara mengimplementasikan penggunaan alatAlat pencarian webAlat pengambilan webAlat eksekusi kodeAlat memoriAlat BashAlat penggunaan komputerAlat editor teks
    Infrastruktur alat
    Pencarian alatPemanggilan alat terprogramStreaming alat berbutir halus
    Manajemen konteks
    Jendela konteksPemadatanPengeditan konteksPrompt cachingPenghitungan token
    File & aset
    Files API
    Agent Skills
    IkhtisarMulai cepatPraktik terbaikSkills untuk enterpriseMenggunakan Skills dengan API
    Agent SDK
    IkhtisarMulai cepatTypeScript SDKTypeScript V2 (pratinjau)Python SDKPanduan Migrasi
    MCP di API
    Konektor MCPServer MCP jarak jauh
    Claude di platform pihak ketiga
    Amazon BedrockMicrosoft FoundryVertex AI
    Prompt engineering
    IkhtisarPembuat promptGunakan template promptPenyempurna promptJadilah jelas dan langsungGunakan contoh (multishot prompting)Biarkan Claude berpikir (CoT)Gunakan tag XMLBerikan Claude peran (system prompts)Rantai prompt kompleksTips konteks panjangTips extended thinking
    Uji & evaluasi
    Tentukan kriteria kesuksesanKembangkan kasus ujiMenggunakan Alat EvaluasiMengurangi latensi
    Perkuat guardrails
    Kurangi halusinasiTingkatkan konsistensi outputMitigasi jailbreaksStreaming penolakanKurangi kebocoran promptJaga Claude tetap dalam karakter
    Administrasi dan pemantauan
    Ikhtisar Admin APIResidensi dataRuang kerjaUsage and Cost APIClaude Code Analytics APIZero Data Retention
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Kemampuan model

    Mode cepat (pratinjau penelitian)

    Kecepatan output lebih tinggi untuk Claude Opus 4.6, memberikan pembuatan token yang jauh lebih cepat untuk alur kerja yang sensitif terhadap latensi dan agentic.

    Mode cepat menyediakan pembuatan token output yang jauh lebih cepat untuk Claude Opus 4.6. Dengan mengatur speed: "fast" dalam permintaan API Anda, Anda mendapatkan hingga 2,5x token output per detik yang lebih tinggi dari model yang sama dengan harga premium.

    Mode cepat saat ini dalam pratinjau penelitian. Bergabunglah dengan daftar tunggu untuk meminta akses. Ketersediaan terbatas saat kami mengumpulkan umpan balik.

    Model yang didukung

    Mode cepat didukung pada model berikut:

    • Claude Opus 4.6 (claude-opus-4-6)

    Cara kerja mode cepat

    Mode cepat menjalankan model yang sama dengan konfigurasi inferensi yang lebih cepat. Tidak ada perubahan pada kecerdasan atau kemampuan.

    • Hingga 2,5x token output per detik yang lebih tinggi dibandingkan dengan kecepatan standar
    • Manfaat kecepatan berfokus pada token output per detik (OTPS), bukan waktu ke token pertama (TTFT)
    • Bobot model dan perilaku yang sama (bukan model yang berbeda)

    Penggunaan dasar

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 4096,
            "speed": "fast",
            "messages": [{
                "role": "user",
                "content": "Refactor this module to use dependency injection"
            }]
        }'

    Harga

    Mode cepat dihargai pada 6x tarif Opus standar untuk prompt ≤200K token, dan 12x tarif Opus standar untuk prompt > 200K token. Tabel berikut menunjukkan harga untuk Claude Opus 4.6 dengan mode cepat:

    Jendela konteksInputOutput
    ≤ 200K token input$30 / MTok$150 / MTok
    > 200K token input$60 / MTok$225 / MTok

    Harga mode cepat ditumpuk dengan pengubah harga lainnya:

    • Pengganda prompt caching berlaku di atas harga mode cepat
    • Residensi data pengganda berlaku di atas harga mode cepat

    Untuk detail harga lengkap, lihat halaman harga.

    Batas laju

    Mode cepat memiliki batas laju khusus yang terpisah dari batas laju Opus standar. Tidak seperti kecepatan standar, yang memiliki batas terpisah untuk ≤200K dan >200K token input, mode cepat menggunakan batas laju tunggal yang mencakup rentang konteks penuh. Ketika batas laju mode cepat Anda terlampaui, API mengembalikan kesalahan 429 dengan header retry-after yang menunjukkan kapan kapasitas akan tersedia.

    Respons mencakup header yang menunjukkan status batas laju mode cepat Anda:

    HeaderDeskripsi
    anthropic-fast-input-tokens-limitToken input mode cepat maksimum per menit
    anthropic-fast-input-tokens-remainingToken input mode cepat yang tersisa
    anthropic-fast-input-tokens-resetWaktu ketika batas token input mode cepat direset
    anthropic-fast-output-tokens-limitToken output mode cepat maksimum per menit
    anthropic-fast-output-tokens-remainingToken output mode cepat yang tersisa
    anthropic-fast-output-tokens-resetWaktu ketika batas token output mode cepat direset

    Untuk batas laju khusus tingkat, lihat halaman batas laju.

    Memeriksa kecepatan mana yang digunakan

    Objek usage respons mencakup bidang speed yang menunjukkan kecepatan mana yang digunakan, baik "fast" atau "standard":

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 1024,
            "speed": "fast",
            "messages": [{"role": "user", "content": "Hello"}]
        }'
    
    {
      "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
      "type": "message",
      "role": "assistant",
      ...
      "usage": {
        "input_tokens": 523,
        "output_tokens": 1842,
        "speed": "fast"
      }
    }

    Untuk melacak penggunaan mode cepat dan biaya di seluruh organisasi Anda, lihat API Penggunaan dan Biaya.

    Percobaan ulang dan fallback

    Percobaan ulang otomatis

    Ketika batas laju mode cepat terlampaui, API mengembalikan kesalahan 429 dengan header retry-after. SDK Anthropic secara otomatis mencoba ulang permintaan ini hingga 2 kali secara default (dapat dikonfigurasi melalui max_retries), menunggu penundaan yang ditentukan server sebelum setiap percobaan ulang. Karena mode cepat menggunakan pengisian ulang token berkelanjutan, penundaan retry-after biasanya singkat dan permintaan berhasil setelah kapasitas tersedia.

    Jatuh kembali ke kecepatan standar

    Jika Anda lebih suka jatuh kembali ke kecepatan standar daripada menunggu kapasitas mode cepat, tangkap kesalahan batas laju dan coba ulang tanpa speed: "fast". Atur max_retries ke 0 pada permintaan cepat awal untuk melewati percobaan ulang otomatis dan gagal segera pada kesalahan batas laju.

    Jatuh kembali dari cepat ke kecepatan standar akan menghasilkan prompt cache miss. Permintaan pada kecepatan berbeda tidak berbagi awalan yang di-cache.

    Karena mengatur max_retries ke 0 juga menonaktifkan percobaan ulang untuk kesalahan transien lainnya (kelebihan beban, kesalahan server internal), contoh di bawah mengeluarkan kembali permintaan asli dengan percobaan ulang default untuk kasus-kasus tersebut.

    import anthropic
    
    client = anthropic.Anthropic()
    
    
    def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
        try:
            return client.beta.messages.create(**params, max_retries=max_retries)
        except anthropic.RateLimitError:
            if params.get("speed") == "fast":
                del params["speed"]
                return create_message_with_fast_fallback(**params)
            raise
        except (
            anthropic.InternalServerError,
            anthropic.OverloadedError,
            anthropic.APIConnectionError,
        ):
            if max_attempts > 1:
                return create_message_with_fast_fallback(
                    max_attempts=max_attempts - 1, **params
                )
            raise
    
    
    message = create_message_with_fast_fallback(
        model="claude-opus-4-6",
        max_tokens=1024,
        messages=[{"role": "user", "content": "Hello"}],
        betas=["fast-mode-2026-02-01"],
        speed="fast",
        max_retries=0,
    )

    Pertimbangan

    • Prompt caching: Beralih antara kecepatan cepat dan standar membatalkan cache prompt. Permintaan pada kecepatan berbeda tidak berbagi awalan yang di-cache.
    • Model yang didukung: Mode cepat saat ini didukung hanya pada Opus 4.6. Mengirim speed: "fast" dengan model yang tidak didukung mengembalikan kesalahan.
    • TTFT: Manfaat mode cepat berfokus pada token output per detik (OTPS), bukan waktu ke token pertama (TTFT).
    • Batch API: Mode cepat tidak tersedia dengan Batch API.
    • Priority Tier: Mode cepat tidak tersedia dengan Priority Tier.

    Langkah berikutnya

    Harga

    Lihat informasi harga mode cepat yang terperinci.

    Batas laju

    Periksa tingkat batas laju untuk mode cepat.

    Parameter effort

    Kontrol penggunaan token dengan parameter effort.

    Was this page helpful?

    • Model yang didukung
    • Cara kerja mode cepat
    • Penggunaan dasar
    • Harga
    • Batas laju
    • Memeriksa kecepatan mana yang digunakan
    • Percobaan ulang dan fallback
    • Percobaan ulang otomatis
    • Jatuh kembali ke kecepatan standar
    • Pertimbangan
    • Langkah berikutnya