MessagesKemampuan model

Pemikiran adaptif

Biarkan Claude secara dinamis menentukan kapan dan seberapa banyak menggunakan pemikiran diperpanjang dengan mode pemikiran adaptif.

Fitur ini memenuhi syarat untuk Zero Data Retention (ZDR). Ketika organisasi Anda memiliki pengaturan ZDR, data yang dikirim melalui fitur ini tidak disimpan setelah respons API dikembalikan.

Pemikiran adaptif adalah cara yang direkomendasikan untuk menggunakan pemikiran diperpanjang dengan Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5, dan Claude Sonnet 4.6. Pada Claude Fable 5 dan Claude Mythos 5, pemikiran selalu diaktifkan dan tidak dapat dinonaktifkan; pemikiran adaptif adalah satu-satunya mode pemikiran. Pada Claude Mythos Preview, pemikiran adaptif adalah mode default dan diterapkan secara otomatis setiap kali thinking tidak disetel. Alih-alih menetapkan anggaran token pemikiran secara manual, pemikiran adaptif memungkinkan Claude secara dinamis menentukan kapan dan seberapa banyak menggunakan pemikiran diperpanjang berdasarkan kompleksitas setiap permintaan. Pada Claude Opus 4.8 dan Claude Opus 4.7, pemikiran adaptif adalah satu-satunya mode pemikiran yang didukung; thinking: {type: "enabled", budget_tokens: N} manual tidak lagi diterima. Pada Claude Sonnet 5, pemikiran adaptif aktif secara default; kirim thinking: {type: "disabled"} untuk menonaktifkannya, dan {type: "enabled", budget_tokens: N} manual ditolak dengan error 400.

Pemikiran adaptif dapat menghasilkan performa yang lebih baik daripada pemikiran diperpanjang dengan budget_tokens tetap untuk banyak beban kerja, terutama tugas bimodal dan alur kerja agentik jangka panjang. Tidak diperlukan header beta.

Jika beban kerja Anda memerlukan latensi yang dapat diprediksi atau kontrol yang presisi atas biaya pemikiran, pemikiran diperpanjang dengan budget_tokens masih berfungsi pada Claude Opus 4.6 dan Claude Sonnet 4.6 tetapi sudah tidak digunakan lagi (deprecated) dan tidak lagi direkomendasikan. Lihat peringatan di bawah.

Model yang didukung

Pemikiran adaptif didukung pada model-model berikut:

Claude Fable 5 (claude-fable-5) dan Claude Mythos 5 (claude-mythos-5), pemikiran adaptif selalu aktif; thinking: {type: "disabled"} tidak didukung
Claude Mythos Preview (claude-mythos-preview), pemikiran adaptif adalah default; thinking: {type: "disabled"} tidak didukung
Claude Opus 4.8 (claude-opus-4-8), pemikiran adaptif adalah satu-satunya mode pemikiran yang didukung. Pemikiran nonaktif kecuali Anda secara eksplisit menetapkan thinking: {type: "adaptive"} dalam permintaan Anda; thinking: {type: "enabled"} manual ditolak dengan error 400.
Claude Opus 4.7 (claude-opus-4-7), pemikiran adaptif adalah satu-satunya mode pemikiran yang didukung. Pemikiran nonaktif kecuali Anda secara eksplisit menetapkan thinking: {type: "adaptive"} dalam permintaan Anda; thinking: {type: "enabled"} manual ditolak dengan error 400.
Claude Opus 4.6 (claude-opus-4-6)
Claude Sonnet 5 (claude-sonnet-5), pemikiran adaptif aktif secara default; {type: "enabled"} manual ditolak dengan error 400.
Claude Sonnet 4.6 (claude-sonnet-4-6)

thinking.type: "enabled" dan budget_tokens sudah tidak digunakan lagi (deprecated) pada Opus 4.6 dan Sonnet 4.6 dan akan dihapus dalam rilis model mendatang. Gunakan thinking.type: "adaptive" dengan parameter effort sebagai gantinya. Konfigurasi budget_tokens yang ada masih berfungsi tetapi tidak lagi direkomendasikan; rencanakan untuk bermigrasi.

Model yang lebih lama (Sonnet 4.5, Opus 4.5, dll.) tidak mendukung pemikiran adaptif dan memerlukan thinking.type: "enabled" dengan budget_tokens.

Cara kerja pemikiran adaptif

Dalam mode adaptif, pemikiran bersifat opsional bagi model. Claude mengevaluasi kompleksitas setiap permintaan dan menentukan apakah dan seberapa banyak menggunakan pemikiran diperpanjang. Pada tingkat effort default (high), Claude hampir selalu berpikir. Pada tingkat effort yang lebih rendah, Claude mungkin melewatkan pemikiran untuk masalah yang lebih sederhana.

Pemikiran adaptif juga secara otomatis mengaktifkan interleaved thinking (pemikiran berselang). Ini berarti Claude dapat berpikir di antara pemanggilan alat, menjadikannya sangat efektif untuk alur kerja agentik.

Cara menggunakan pemikiran adaptif

Setel thinking.type ke "adaptive" dalam permintaan API Anda:

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[
        {
            "role": "user",
            "content": "Explain why the sum of two even numbers is always even.",
        }
    ],
)

for block in response.content:
    if block.type == "thinking":
        print(f"\nThinking: {block.thinking}")
    elif block.type == "text":
        print(f"\nResponse: {block.text}")

Pemikiran adaptif dengan parameter effort

Anda dapat menggabungkan pemikiran adaptif dengan parameter effort untuk memandu seberapa banyak pemikiran yang dilakukan Claude. Tingkat effort berfungsi sebagai panduan lunak untuk alokasi pemikiran Claude:

Tingkat effort	Perilaku pemikiran
`max`	Claude selalu berpikir tanpa batasan pada kedalaman pemikiran. Tersedia pada Claude Fable 5, Claude Mythos 5, Claude Mythos Preview, Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5, dan Claude Sonnet 4.6.
`xhigh`	Claude selalu berpikir secara mendalam dengan eksplorasi yang diperluas. Tersedia pada Claude Fable 5, Claude Mythos 5, Claude Sonnet 5, Claude Opus 4.8, dan Claude Opus 4.7.
`high` (default)	Claude hampir selalu berpikir. Memberikan penalaran mendalam pada tugas-tugas kompleks.
`medium`	Claude menggunakan pemikiran moderat. Mungkin melewatkan pemikiran untuk kueri yang sangat sederhana.
`low`	Claude meminimalkan pemikiran. Melewatkan pemikiran untuk tugas sederhana di mana kecepatan paling penting.

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    output_config={"effort": "medium"},
    messages=[{"role": "user", "content": "What is the capital of France?"}],
)

print(response.content[0].text)

Streaming dengan pemikiran adaptif

Pemikiran adaptif bekerja secara mulus dengan streaming. Blok pemikiran di-stream melalui event thinking_delta sama seperti mode pemikiran manual:

client = anthropic.Anthropic()

with client.messages.stream(
    model="claude-opus-4-8",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[
        {
            "role": "user",
            "content": "What is the greatest common divisor of 1071 and 462?",
        }
    ],
) as stream:
    for event in stream:
        if event.type == "content_block_start":
            print(f"\nStarting {event.content_block.type} block...")
        elif event.type == "content_block_delta":
            if event.delta.type == "thinking_delta":
                print(event.delta.thinking, end="", flush=True)
            elif event.delta.type == "text_delta":
                print(event.delta.text, end="", flush=True)

Pemikiran adaptif vs manual vs dinonaktifkan

Mode	Konfigurasi	Ketersediaan	Kapan digunakan
Adaptif	`thinking: {type: "adaptive"}`	Claude Fable 5 (selalu aktif), Claude Mythos 5 (selalu aktif), Claude Mythos Preview (default), Claude Opus 4.8 (satu-satunya mode), Opus 4.7 (satu-satunya mode), Opus 4.6, Sonnet 5, Sonnet 4.6	Claude menentukan kapan dan seberapa banyak menggunakan pemikiran diperpanjang. Gunakan `effort` untuk memandu.
Manual	`thinking: {type: "enabled", budget_tokens: N}`	Semua model kecuali Claude Fable 5, Claude Mythos 5, Claude Sonnet 5, Claude Opus 4.8, dan Claude Opus 4.7 (ditolak dengan error 400). Tidak digunakan lagi (deprecated) pada Opus 4.6 dan Sonnet 4.6 (pertimbangkan mode adaptif sebagai gantinya).	Ketika Anda memerlukan kontrol presisi atas pengeluaran token pemikiran.
Dinonaktifkan	Hilangkan parameter `thinking` atau kirim `{type: "disabled"}`	Semua model kecuali Claude Fable 5, Claude Mythos 5, dan Claude Mythos Preview. Pada Claude Sonnet 5, kirim `{type: "disabled"}` secara eksplisit (menghilangkan `thinking` akan default ke adaptif).	Ketika Anda tidak memerlukan pemikiran diperpanjang dan menginginkan latensi terendah.

Pemikiran adaptif tersedia pada Claude Fable 5, Claude Mythos 5, Claude Mythos Preview, Claude Opus 4.8, Claude Opus 4.7, Opus 4.6, Sonnet 5, dan Sonnet 4.6. Pada Claude Fable 5 dan Claude Mythos 5, pemikiran adaptif selalu aktif: diterapkan setiap kali thinking tidak disetel dan tidak dapat dinonaktifkan. Pada Mythos Preview, pemikiran adaptif adalah default dan diterapkan secara otomatis setiap kali thinking tidak disetel. Pada Claude Opus 4.8, pemikiran adaptif adalah satu-satunya mode yang didukung; pemikiran nonaktif kecuali Anda secara eksplisit menetapkan thinking: {type: "adaptive"}, dan type: "enabled" manual dengan budget_tokens ditolak dengan error 400. Pada Claude Opus 4.7, pemikiran adaptif adalah satu-satunya mode yang didukung dan type: "enabled" dengan budget_tokens ditolak. Pada Claude Sonnet 5, pemikiran adaptif aktif secara default; type: "enabled" manual ditolak dengan error 400, dan {type: "disabled"} menonaktifkan pemikiran. Model yang lebih lama hanya mendukung type: "enabled" dengan budget_tokens. Pada Opus 4.6 dan Sonnet 4.6, type: "enabled" dengan budget_tokens masih berfungsi tetapi sudah tidak digunakan lagi (deprecated).

Ketersediaan interleaved thinking berdasarkan mode:

Mode adaptif: Interleaved thinking diaktifkan secara otomatis pada Claude Fable 5, Claude Mythos 5, Claude Mythos Preview, Claude Opus 4.8, Claude Opus 4.7, Opus 4.6, Sonnet 5, dan Sonnet 4.6. Pada Claude Fable 5, Claude Mythos 5, Mythos Preview, Claude Opus 4.8, dan Opus 4.7, penalaran antar-alat selalu berada di dalam blok pemikiran.
Mode manual pada Sonnet 4.6: Interleaved thinking bekerja melalui header beta interleaved-thinking-2025-05-14.
Mode manual pada Opus 4.6: Interleaved thinking tidak tersedia. Jika alur kerja agentik Anda memerlukan pemikiran di antara pemanggilan alat pada Opus 4.6, gunakan mode adaptif.

Pertimbangan penting

Perubahan validasi

Saat menggunakan pemikiran adaptif, giliran asisten sebelumnya tidak perlu dimulai dengan blok pemikiran. Ini lebih fleksibel daripada mode manual, di mana API mengharuskan giliran dengan pemikiran aktif dimulai dengan blok pemikiran.

Caching prompt

Permintaan berturut-turut yang menggunakan pemikiran adaptive mempertahankan breakpoint cache prompt. Namun, beralih antara mode pemikiran adaptive dan enabled/disabled akan merusak breakpoint cache untuk pesan. Prompt sistem dan definisi alat tetap di-cache terlepas dari perubahan mode.

Menyetel perilaku pemikiran

Perilaku pemicu pemikiran adaptif dapat diarahkan melalui prompt. Jika Claude berpikir lebih sering atau lebih jarang dari yang Anda inginkan, Anda dapat menambahkan panduan ke prompt sistem Anda:

Extended thinking adds latency and should only be used when it
will meaningfully improve answer quality, typically for problems
that require multi-step reasoning. When in doubt, respond directly.

Untuk mendorong pemikiran sebagai gantinya, gunakan frasa seperti:

This task involves multi-step reasoning. Think carefully before responding.

Efektivitas pengarahan dapat sensitif terhadap susunan kata yang tepat. Jika satu frasa tidak menghasilkan perilaku yang Anda inginkan, coba varian yang lebih langsung.

Anda juga dapat mengarahkan pemikiran berdasarkan per-pesan dari giliran pengguna. Menambahkan "Please think hard before responding." ke pesan pengguna mendorong Claude untuk berpikir pada giliran tersebut; "Answer directly without deliberating." menekannya. Ini bekerja secara independen dari prompt sistem dan berguna ketika hanya beberapa permintaan dalam percakapan yang memerlukan penalaran diperpanjang.

Mengarahkan Claude untuk berpikir lebih jarang dapat mengurangi kualitas pada tugas yang mendapat manfaat dari penalaran. Ukur dampaknya pada beban kerja spesifik Anda sebelum menerapkan penyetelan berbasis prompt ke produksi. Pertimbangkan untuk menguji dengan tingkat effort yang lebih rendah terlebih dahulu.

Kontrol biaya

Gunakan max_tokens sebagai batas keras pada total output (pemikiran + teks respons). Parameter effort memberikan panduan lunak tambahan tentang seberapa banyak pemikiran yang dialokasikan Claude. Bersama-sama, keduanya memberi Anda kontrol efektif atas biaya.

Pada tingkat effort high dan max, Claude mungkin berpikir lebih ekstensif dan lebih mungkin menghabiskan anggaran max_tokens. Jika Anda mengamati stop_reason: "max_tokens" dalam respons, pertimbangkan untuk meningkatkan max_tokens untuk memberi model lebih banyak ruang, atau menurunkan tingkat effort.

Bekerja dengan blok pemikiran

Konsep-konsep berikut berlaku untuk semua model yang mendukung pemikiran diperpanjang, terlepas dari apakah Anda menggunakan mode adaptif atau manual.

Pemikiran yang diringkas

Dengan "extended thinking" (pemikiran diperpanjang) diaktifkan, Messages API untuk model Claude 4 mengembalikan ringkasan dari proses pemikiran lengkap Claude. Pemikiran yang diringkas memberikan manfaat kecerdasan penuh dari pemikiran diperpanjang, sekaligus mencegah penyalahgunaan. Ini adalah perilaku default pada model Claude 4 ketika field display pada konfigurasi thinking tidak disetel atau disetel ke "summarized". Pada Claude Fable 5, Claude Mythos 5, Claude Sonnet 5, Claude Opus 4.8, Claude Opus 4.7, dan Claude Mythos Preview, display secara default disetel ke "omitted", sehingga Anda harus menyetel display: "summarized" secara eksplisit untuk menerima pemikiran yang diringkas.

Berikut adalah beberapa pertimbangan penting untuk pemikiran yang diringkas:

Anda dikenakan biaya untuk token pemikiran penuh yang dihasilkan oleh permintaan asli, bukan token ringkasan.
Jumlah token output yang ditagih tidak akan sama dengan jumlah token yang Anda lihat dalam respons.
Pada model Claude 4, beberapa baris pertama dari output pemikiran lebih verbose, memberikan penalaran terperinci yang sangat membantu untuk keperluan rekayasa prompt. Claude Mythos Preview meringkas sejak token pertama, sehingga blok pemikirannya tidak menampilkan pembukaan verbose ini.
Karena Anthropic terus berupaya meningkatkan fitur pemikiran diperpanjang, perilaku peringkasan dapat berubah sewaktu-waktu.
Peringkasan mempertahankan ide-ide kunci dari proses pemikiran Claude dengan latensi tambahan yang minimal, memungkinkan pengalaman pengguna yang dapat di-stream.
Peringkasan diproses oleh model yang berbeda dari model yang Anda targetkan dalam permintaan Anda. Model pemikiran tidak melihat output yang diringkas.

Dalam kasus langka di mana Anda memerlukan akses ke output pemikiran penuh untuk model Claude 4, hubungi tim penjualan Anthropic.

Mengontrol tampilan pemikiran

Field display pada konfigurasi thinking mengontrol bagaimana konten thinking dikembalikan dalam respons API. Field ini menerima dua nilai:

"summarized": Blok thinking berisi teks thinking yang diringkas. Lihat Summarized thinking untuk detailnya. Ini adalah default pada Claude Opus 4.6, Claude Sonnet 4.6, dan model Claude 4 sebelumnya.
"omitted": Blok thinking dikembalikan dengan field thinking kosong. Field signature tetap membawa thinking lengkap yang terenkripsi untuk kontinuitas multi-turn (lihat Enkripsi thinking). Ini adalah default pada Claude Fable 5, Claude Mythos 5, Claude Sonnet 5, Claude Opus 4.8, Claude Opus 4.7, dan Claude Mythos Preview.

Mengatur display: "omitted" berguna ketika aplikasi Anda tidak menampilkan konten thinking kepada pengguna. Manfaat utamanya adalah time-to-first-text-token yang lebih cepat saat streaming: Server melewati streaming token thinking sepenuhnya dan hanya mengirimkan signature, sehingga respons teks akhir mulai di-stream lebih cepat.

Berikut adalah beberapa pertimbangan penting untuk omitted thinking:

Anda tetap dikenakan biaya untuk token thinking penuh. Menghilangkan thinking mengurangi latensi, bukan biaya.
Jika Anda mengirimkan kembali blok thinking dalam percakapan multi-turn, kirimkan tanpa perubahan. Server mendekripsi signature untuk merekonstruksi thinking asli untuk konstruksi prompt (lihat Mempertahankan blok thinking). Teks apa pun yang Anda tempatkan di field thinking dari blok omitted yang dikirim bolak-balik akan diabaikan.
display tidak valid dengan thinking.type: "disabled" (tidak ada yang perlu ditampilkan).
Saat menggunakan thinking.type: "adaptive" dan model melewati thinking untuk permintaan sederhana, tidak ada blok thinking yang dihasilkan terlepas dari nilai display.

Field signature identik baik display bernilai "summarized" maupun "omitted". Mengganti nilai display di antara giliran dalam sebuah percakapan didukung.

Pengaturan display hanya mengontrol visibilitas. Di bawah setiap pengaturan, pemikiran tetap terjadi dan ditagih dengan cara yang sama.

Default untuk thinking.display bergantung pada model:

Claude Fable 5, Claude Mythos 5, Claude Sonnet 5, Claude Opus 4.8, Claude Opus 4.7, dan Claude Mythos Preview: default-nya adalah "omitted". Blok pemikiran masih muncul dalam stream respons, tetapi field thinking-nya kosong kecuali Anda secara eksplisit memilih untuk mengaktifkannya. Ini adalah perubahan diam-diam dari Claude Opus 4.6, di mana default-nya adalah "summarized".
Claude Opus 4.6: default-nya adalah "summarized". Ringkasan yang dapat dibaca muncul tanpa perlu memilih untuk mengaktifkannya.

Untuk menerima teks pemikiran yang diringkas pada model di mana default-nya adalah "omitted", setel thinking.display ke "summarized" secara eksplisit:

thinking = {
    "type": "adaptive",
    "display": "summarized",
}

Untuk contoh kode dan perilaku streaming dengan display: "omitted", lihat Mengontrol tampilan pemikiran di halaman pemikiran diperpanjang. Contoh-contoh di sana menggunakan type: "enabled"; dengan pemikiran adaptif, gunakan:

thinking = {"type": "adaptive", "display": "omitted"}

Enkripsi pemikiran

Konten pemikiran lengkap dienkripsi dan dikembalikan dalam field signature. Field ini digunakan untuk memverifikasi bahwa blok pemikiran dihasilkan oleh Claude ketika dikirim kembali ke API.

Mengirim kembali blok pemikiran hanya benar-benar diperlukan ketika menggunakan alat dengan pemikiran diperpanjang. Jika tidak, Anda dapat menghilangkan blok pemikiran dari giliran sebelumnya. Jika Anda mengirimkannya kembali, apakah API menyimpan atau menghapusnya bergantung pada model: Opus 4.5+ dan Sonnet 4.6+ menyimpannya dalam konteks secara default; model Opus/Sonnet sebelumnya dan semua model Haiku menghapusnya. Lihat pengeditan konteks untuk mengonfigurasi hal ini.

Jika mengirim kembali blok pemikiran, kirimkan semuanya kembali persis seperti yang Anda terima demi konsistensi dan untuk menghindari potensi masalah.

Berikut adalah beberapa pertimbangan penting tentang enkripsi pemikiran:

Saat melakukan streaming respons, signature ditambahkan melalui signature_delta di dalam event content_block_delta tepat sebelum event content_block_stop.
Nilai signature secara signifikan lebih panjang pada model Claude 4 dibandingkan model sebelumnya.
Field signature adalah field opaque dan tidak boleh diinterpretasikan atau di-parse.
Nilai signature kompatibel di berbagai platform (Claude API, Amazon Bedrock, dan Google Cloud). Nilai yang dihasilkan di satu platform akan kompatibel dengan platform lainnya.

Output pemikiran pada Claude Fable 5 dan Claude Mythos 5

Pada Claude Fable 5 dan Claude Mythos 5, rantai pemikiran mentah tidak pernah dikembalikan. Blok pemikiran yang Anda terima adalah blok thinking biasa, bukan redacted_thinking. Pengaturan thinking.display bekerja sama seperti pada model lain:

"summarized" mengembalikan ringkasan penalaran yang dapat dibaca.
"omitted" (default pada model-model ini) masih menyertakan blok thinking dalam respons, tetapi field thinking-nya adalah string kosong.

Untuk bentuk respons blok pemikiran, lihat referensi Messages API.

Saat melanjutkan percakapan pada model yang sama, kirim kembali setiap blok pemikiran ke API persis seperti yang diterima, termasuk blok yang field thinking-nya kosong. Jangan mengedit atau merekonstruksinya. Membaca teks ringkasan untuk ditampilkan tidak masalah: API menolak blok yang kontennya telah dimodifikasi, bukan blok yang telah Anda baca.

Saat Anda beralih model, misalnya setelah fallback penolakan classifier, hapus blok thinking dan redacted_thinking dari giliran asisten sebelumnya. Blok pemikiran terikat pada model yang menghasilkannya. Model lain secara diam-diam mengabaikannya alih-alih menolak permintaan, tetapi blok yang diabaikan tetap menambah token input.

Dua pengecualian, dibahas dalam Kredit fallback:

Percobaan ulang kredit fallback harus mengirim ulang body permintaan yang ditolak tanpa perubahan.
Blok fallback dari fallback di tengah output tetap berada di tempat kemunculannya.

Untuk mendapatkan visibilitas ke dalam penalaran model, baca blok thinking yang dijelaskan di bagian ini alih-alih meminta penalaran dalam teks respons. Pada Claude Fable 5, permintaan yang mencoba memancing penalaran internal model sebagai bagian dari teks respons dapat ditolak dengan stop_details.category: "reasoning_extraction". Lihat Kategori penolakan untuk referensi field dan panduan penanganan.

Harga

Untuk informasi harga lengkap termasuk tarif dasar, penulisan cache, cache hit, dan token output, lihat halaman harga.

Proses pemikiran dikenakan biaya untuk:

Token yang digunakan selama pemikiran (token output)
Blok pemikiran dari giliran asisten sebelumnya yang disimpan dalam konteks: hanya giliran terakhir pada model Opus/Sonnet yang lebih lama dan semua model Haiku; semua giliran secara default pada Opus 4.5+ dan Sonnet 4.6+ (token input)
Token output teks standar

Ketika pemikiran diperpanjang diaktifkan, prompt sistem khusus secara otomatis disertakan untuk mendukung fitur ini.

Saat menggunakan pemikiran yang diringkas:

Token input: Token dalam permintaan asli Anda (tidak termasuk token pemikiran dari giliran sebelumnya)
Token output (ditagih): Token pemikiran asli yang dihasilkan Claude secara internal
Token output (terlihat): Token pemikiran yang diringkas yang Anda lihat dalam respons
Tanpa biaya: Token yang digunakan untuk menghasilkan ringkasan

Saat menggunakan display: "omitted":

Token input: Token dalam permintaan asli Anda (sama seperti yang diringkas)
Token output (ditagih): Token pemikiran asli yang dihasilkan Claude secara internal (sama seperti yang diringkas)
Token output (terlihat): Nol token pemikiran (field thinking kosong)

Jumlah token output yang ditagih tidak akan sama dengan jumlah token yang terlihat dalam respons. Anda ditagih untuk seluruh proses pemikiran, bukan konten pemikiran yang terlihat dalam respons.

Untuk melihat berapa banyak token output yang ditagih yang digunakan untuk penalaran internal, baca usage.output_tokens_details.thinking_tokens dalam respons. Nilai ini mencerminkan penalaran mentah yang dihasilkan model (bukan teks ringkasan yang dikembalikan dalam body) dan selalu kurang dari atau sama dengan output_tokens. Kurangi nilai ini dari output_tokens untuk memperkirakan bagian output yang bukan penalaran.

{
  "usage": {
    "input_tokens": 25,
    "output_tokens": 348,
    "output_tokens_details": {
      "thinking_tokens": 312
    }
  }
}

output_tokens tetap menjadi total inklusif dan otoritatif yang digunakan untuk penagihan. output_tokens_details adalah rincian read-only untuk keperluan observabilitas.

Topik tambahan

Halaman pemikiran diperpanjang membahas beberapa topik secara lebih detail dengan contoh kode spesifik mode:

Penggunaan alat dengan pemikiran: Aturan yang sama berlaku untuk pemikiran adaptif: pertahankan blok pemikiran di antara pemanggilan alat dan perhatikan batasan tool_choice saat pemikiran aktif.
Caching prompt: Dengan pemikiran adaptif, permintaan berturut-turut yang menggunakan mode pemikiran yang sama mempertahankan breakpoint cache. Beralih antara mode adaptive dan enabled/disabled merusak breakpoint cache untuk pesan (prompt sistem dan definisi alat tetap di-cache).
Jendela konteks: Bagaimana token pemikiran berinteraksi dengan max_tokens dan batas jendela konteks.

Langkah selanjutnya

Pemikiran diperpanjang

Pelajari lebih lanjut tentang pemikiran diperpanjang, termasuk mode manual, penggunaan alat, dan caching prompt.

Parameter effort

Kontrol seberapa menyeluruh Claude merespons dengan parameter effort.

Was this page helpful?

MessagesKemampuan model

Pemikiran adaptif

Biarkan Claude secara dinamis menentukan kapan dan seberapa banyak menggunakan pemikiran diperpanjang dengan mode pemikiran adaptif.

Fitur ini memenuhi syarat untuk Zero Data Retention (ZDR). Ketika organisasi Anda memiliki pengaturan ZDR, data yang dikirim melalui fitur ini tidak disimpan setelah respons API dikembalikan.

Model yang didukung

Pemikiran adaptif didukung pada model-model berikut:

Claude Fable 5 (claude-fable-5) dan Claude Mythos 5 (claude-mythos-5), pemikiran adaptif selalu aktif; thinking: {type: "disabled"} tidak didukung
Claude Mythos Preview (claude-mythos-preview), pemikiran adaptif adalah default; thinking: {type: "disabled"} tidak didukung
Claude Opus 4.8 (claude-opus-4-8), pemikiran adaptif adalah satu-satunya mode pemikiran yang didukung. Pemikiran nonaktif kecuali Anda secara eksplisit menetapkan thinking: {type: "adaptive"} dalam permintaan Anda; thinking: {type: "enabled"} manual ditolak dengan error 400.
Claude Opus 4.7 (claude-opus-4-7), pemikiran adaptif adalah satu-satunya mode pemikiran yang didukung. Pemikiran nonaktif kecuali Anda secara eksplisit menetapkan thinking: {type: "adaptive"} dalam permintaan Anda; thinking: {type: "enabled"} manual ditolak dengan error 400.
Claude Opus 4.6 (claude-opus-4-6)
Claude Sonnet 5 (claude-sonnet-5), pemikiran adaptif aktif secara default; {type: "enabled"} manual ditolak dengan error 400.
Claude Sonnet 4.6 (claude-sonnet-4-6)

Model yang lebih lama (Sonnet 4.5, Opus 4.5, dll.) tidak mendukung pemikiran adaptif dan memerlukan thinking.type: "enabled" dengan budget_tokens.

Cara kerja pemikiran adaptif

Cara menggunakan pemikiran adaptif

Setel thinking.type ke "adaptive" dalam permintaan API Anda:

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[
        {
            "role": "user",
            "content": "Explain why the sum of two even numbers is always even.",
        }
    ],
)

for block in response.content:
    if block.type == "thinking":
        print(f"\nThinking: {block.thinking}")
    elif block.type == "text":
        print(f"\nResponse: {block.text}")

Pemikiran adaptif dengan parameter effort

Tingkat effort	Perilaku pemikiran
`max`	Claude selalu berpikir tanpa batasan pada kedalaman pemikiran. Tersedia pada Claude Fable 5, Claude Mythos 5, Claude Mythos Preview, Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5, dan Claude Sonnet 4.6.
`xhigh`	Claude selalu berpikir secara mendalam dengan eksplorasi yang diperluas. Tersedia pada Claude Fable 5, Claude Mythos 5, Claude Sonnet 5, Claude Opus 4.8, dan Claude Opus 4.7.
`high` (default)	Claude hampir selalu berpikir. Memberikan penalaran mendalam pada tugas-tugas kompleks.
`medium`	Claude menggunakan pemikiran moderat. Mungkin melewatkan pemikiran untuk kueri yang sangat sederhana.
`low`	Claude meminimalkan pemikiran. Melewatkan pemikiran untuk tugas sederhana di mana kecepatan paling penting.

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    output_config={"effort": "medium"},
    messages=[{"role": "user", "content": "What is the capital of France?"}],
)

print(response.content[0].text)

Streaming dengan pemikiran adaptif

Pemikiran adaptif bekerja secara mulus dengan streaming. Blok pemikiran di-stream melalui event thinking_delta sama seperti mode pemikiran manual:

client = anthropic.Anthropic()

with client.messages.stream(
    model="claude-opus-4-8",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[
        {
            "role": "user",
            "content": "What is the greatest common divisor of 1071 and 462?",
        }
    ],
) as stream:
    for event in stream:
        if event.type == "content_block_start":
            print(f"\nStarting {event.content_block.type} block...")
        elif event.type == "content_block_delta":
            if event.delta.type == "thinking_delta":
                print(event.delta.thinking, end="", flush=True)
            elif event.delta.type == "text_delta":
                print(event.delta.text, end="", flush=True)

Pemikiran adaptif vs manual vs dinonaktifkan

Mode	Konfigurasi	Ketersediaan	Kapan digunakan
Adaptif	`thinking: {type: "adaptive"}`	Claude Fable 5 (selalu aktif), Claude Mythos 5 (selalu aktif), Claude Mythos Preview (default), Claude Opus 4.8 (satu-satunya mode), Opus 4.7 (satu-satunya mode), Opus 4.6, Sonnet 5, Sonnet 4.6	Claude menentukan kapan dan seberapa banyak menggunakan pemikiran diperpanjang. Gunakan `effort` untuk memandu.
Manual	`thinking: {type: "enabled", budget_tokens: N}`	Semua model kecuali Claude Fable 5, Claude Mythos 5, Claude Sonnet 5, Claude Opus 4.8, dan Claude Opus 4.7 (ditolak dengan error 400). Tidak digunakan lagi (deprecated) pada Opus 4.6 dan Sonnet 4.6 (pertimbangkan mode adaptif sebagai gantinya).	Ketika Anda memerlukan kontrol presisi atas pengeluaran token pemikiran.
Dinonaktifkan	Hilangkan parameter `thinking` atau kirim `{type: "disabled"}`	Semua model kecuali Claude Fable 5, Claude Mythos 5, dan Claude Mythos Preview. Pada Claude Sonnet 5, kirim `{type: "disabled"}` secara eksplisit (menghilangkan `thinking` akan default ke adaptif).	Ketika Anda tidak memerlukan pemikiran diperpanjang dan menginginkan latensi terendah.

Ketersediaan interleaved thinking berdasarkan mode:

Mode adaptif: Interleaved thinking diaktifkan secara otomatis pada Claude Fable 5, Claude Mythos 5, Claude Mythos Preview, Claude Opus 4.8, Claude Opus 4.7, Opus 4.6, Sonnet 5, dan Sonnet 4.6. Pada Claude Fable 5, Claude Mythos 5, Mythos Preview, Claude Opus 4.8, dan Opus 4.7, penalaran antar-alat selalu berada di dalam blok pemikiran.
Mode manual pada Sonnet 4.6: Interleaved thinking bekerja melalui header beta interleaved-thinking-2025-05-14.
Mode manual pada Opus 4.6: Interleaved thinking tidak tersedia. Jika alur kerja agentik Anda memerlukan pemikiran di antara pemanggilan alat pada Opus 4.6, gunakan mode adaptif.

Pertimbangan penting

Perubahan validasi

Caching prompt

Menyetel perilaku pemikiran

Perilaku pemicu pemikiran adaptif dapat diarahkan melalui prompt. Jika Claude berpikir lebih sering atau lebih jarang dari yang Anda inginkan, Anda dapat menambahkan panduan ke prompt sistem Anda:

Extended thinking adds latency and should only be used when it
will meaningfully improve answer quality, typically for problems
that require multi-step reasoning. When in doubt, respond directly.

Untuk mendorong pemikiran sebagai gantinya, gunakan frasa seperti:

This task involves multi-step reasoning. Think carefully before responding.

Efektivitas pengarahan dapat sensitif terhadap susunan kata yang tepat. Jika satu frasa tidak menghasilkan perilaku yang Anda inginkan, coba varian yang lebih langsung.

Kontrol biaya

Bekerja dengan blok pemikiran

Konsep-konsep berikut berlaku untuk semua model yang mendukung pemikiran diperpanjang, terlepas dari apakah Anda menggunakan mode adaptif atau manual.

Pemikiran yang diringkas

Berikut adalah beberapa pertimbangan penting untuk pemikiran yang diringkas:

Anda dikenakan biaya untuk token pemikiran penuh yang dihasilkan oleh permintaan asli, bukan token ringkasan.
Jumlah token output yang ditagih tidak akan sama dengan jumlah token yang Anda lihat dalam respons.
Pada model Claude 4, beberapa baris pertama dari output pemikiran lebih verbose, memberikan penalaran terperinci yang sangat membantu untuk keperluan rekayasa prompt. Claude Mythos Preview meringkas sejak token pertama, sehingga blok pemikirannya tidak menampilkan pembukaan verbose ini.
Karena Anthropic terus berupaya meningkatkan fitur pemikiran diperpanjang, perilaku peringkasan dapat berubah sewaktu-waktu.
Peringkasan mempertahankan ide-ide kunci dari proses pemikiran Claude dengan latensi tambahan yang minimal, memungkinkan pengalaman pengguna yang dapat di-stream.
Peringkasan diproses oleh model yang berbeda dari model yang Anda targetkan dalam permintaan Anda. Model pemikiran tidak melihat output yang diringkas.

Dalam kasus langka di mana Anda memerlukan akses ke output pemikiran penuh untuk model Claude 4, hubungi tim penjualan Anthropic.

Mengontrol tampilan pemikiran

Field display pada konfigurasi thinking mengontrol bagaimana konten thinking dikembalikan dalam respons API. Field ini menerima dua nilai:

"summarized": Blok thinking berisi teks thinking yang diringkas. Lihat Summarized thinking untuk detailnya. Ini adalah default pada Claude Opus 4.6, Claude Sonnet 4.6, dan model Claude 4 sebelumnya.
"omitted": Blok thinking dikembalikan dengan field thinking kosong. Field signature tetap membawa thinking lengkap yang terenkripsi untuk kontinuitas multi-turn (lihat Enkripsi thinking). Ini adalah default pada Claude Fable 5, Claude Mythos 5, Claude Sonnet 5, Claude Opus 4.8, Claude Opus 4.7, dan Claude Mythos Preview.

Berikut adalah beberapa pertimbangan penting untuk omitted thinking:

Anda tetap dikenakan biaya untuk token thinking penuh. Menghilangkan thinking mengurangi latensi, bukan biaya.
Jika Anda mengirimkan kembali blok thinking dalam percakapan multi-turn, kirimkan tanpa perubahan. Server mendekripsi signature untuk merekonstruksi thinking asli untuk konstruksi prompt (lihat Mempertahankan blok thinking). Teks apa pun yang Anda tempatkan di field thinking dari blok omitted yang dikirim bolak-balik akan diabaikan.
display tidak valid dengan thinking.type: "disabled" (tidak ada yang perlu ditampilkan).
Saat menggunakan thinking.type: "adaptive" dan model melewati thinking untuk permintaan sederhana, tidak ada blok thinking yang dihasilkan terlepas dari nilai display.

Field signature identik baik display bernilai "summarized" maupun "omitted". Mengganti nilai display di antara giliran dalam sebuah percakapan didukung.

Pengaturan display hanya mengontrol visibilitas. Di bawah setiap pengaturan, pemikiran tetap terjadi dan ditagih dengan cara yang sama.

Default untuk thinking.display bergantung pada model:

Claude Fable 5, Claude Mythos 5, Claude Sonnet 5, Claude Opus 4.8, Claude Opus 4.7, dan Claude Mythos Preview: default-nya adalah "omitted". Blok pemikiran masih muncul dalam stream respons, tetapi field thinking-nya kosong kecuali Anda secara eksplisit memilih untuk mengaktifkannya. Ini adalah perubahan diam-diam dari Claude Opus 4.6, di mana default-nya adalah "summarized".
Claude Opus 4.6: default-nya adalah "summarized". Ringkasan yang dapat dibaca muncul tanpa perlu memilih untuk mengaktifkannya.

Untuk menerima teks pemikiran yang diringkas pada model di mana default-nya adalah "omitted", setel thinking.display ke "summarized" secara eksplisit:

thinking = {
    "type": "adaptive",
    "display": "summarized",
}

thinking = {"type": "adaptive", "display": "omitted"}

Enkripsi pemikiran

Konten pemikiran lengkap dienkripsi dan dikembalikan dalam field signature. Field ini digunakan untuk memverifikasi bahwa blok pemikiran dihasilkan oleh Claude ketika dikirim kembali ke API.

Jika mengirim kembali blok pemikiran, kirimkan semuanya kembali persis seperti yang Anda terima demi konsistensi dan untuk menghindari potensi masalah.

Berikut adalah beberapa pertimbangan penting tentang enkripsi pemikiran:

Saat melakukan streaming respons, signature ditambahkan melalui signature_delta di dalam event content_block_delta tepat sebelum event content_block_stop.
Nilai signature secara signifikan lebih panjang pada model Claude 4 dibandingkan model sebelumnya.
Field signature adalah field opaque dan tidak boleh diinterpretasikan atau di-parse.
Nilai signature kompatibel di berbagai platform (Claude API, Amazon Bedrock, dan Google Cloud). Nilai yang dihasilkan di satu platform akan kompatibel dengan platform lainnya.

Output pemikiran pada Claude Fable 5 dan Claude Mythos 5

"summarized" mengembalikan ringkasan penalaran yang dapat dibaca.
"omitted" (default pada model-model ini) masih menyertakan blok thinking dalam respons, tetapi field thinking-nya adalah string kosong.

Untuk bentuk respons blok pemikiran, lihat referensi Messages API.

Dua pengecualian, dibahas dalam Kredit fallback:

Percobaan ulang kredit fallback harus mengirim ulang body permintaan yang ditolak tanpa perubahan.
Blok fallback dari fallback di tengah output tetap berada di tempat kemunculannya.

Harga

Untuk informasi harga lengkap termasuk tarif dasar, penulisan cache, cache hit, dan token output, lihat halaman harga.

Proses pemikiran dikenakan biaya untuk:

Token yang digunakan selama pemikiran (token output)
Blok pemikiran dari giliran asisten sebelumnya yang disimpan dalam konteks: hanya giliran terakhir pada model Opus/Sonnet yang lebih lama dan semua model Haiku; semua giliran secara default pada Opus 4.5+ dan Sonnet 4.6+ (token input)
Token output teks standar

Ketika pemikiran diperpanjang diaktifkan, prompt sistem khusus secara otomatis disertakan untuk mendukung fitur ini.

Saat menggunakan pemikiran yang diringkas:

Token input: Token dalam permintaan asli Anda (tidak termasuk token pemikiran dari giliran sebelumnya)
Token output (ditagih): Token pemikiran asli yang dihasilkan Claude secara internal
Token output (terlihat): Token pemikiran yang diringkas yang Anda lihat dalam respons
Tanpa biaya: Token yang digunakan untuk menghasilkan ringkasan

Saat menggunakan display: "omitted":

Token input: Token dalam permintaan asli Anda (sama seperti yang diringkas)
Token output (ditagih): Token pemikiran asli yang dihasilkan Claude secara internal (sama seperti yang diringkas)
Token output (terlihat): Nol token pemikiran (field thinking kosong)

Jumlah token output yang ditagih tidak akan sama dengan jumlah token yang terlihat dalam respons. Anda ditagih untuk seluruh proses pemikiran, bukan konten pemikiran yang terlihat dalam respons.

{
  "usage": {
    "input_tokens": 25,
    "output_tokens": 348,
    "output_tokens_details": {
      "thinking_tokens": 312
    }
  }
}

output_tokens tetap menjadi total inklusif dan otoritatif yang digunakan untuk penagihan. output_tokens_details adalah rincian read-only untuk keperluan observabilitas.

Topik tambahan

Halaman pemikiran diperpanjang membahas beberapa topik secara lebih detail dengan contoh kode spesifik mode:

Penggunaan alat dengan pemikiran: Aturan yang sama berlaku untuk pemikiran adaptif: pertahankan blok pemikiran di antara pemanggilan alat dan perhatikan batasan tool_choice saat pemikiran aktif.
Caching prompt: Dengan pemikiran adaptif, permintaan berturut-turut yang menggunakan mode pemikiran yang sama mempertahankan breakpoint cache. Beralih antara mode adaptive dan enabled/disabled merusak breakpoint cache untuk pesan (prompt sistem dan definisi alat tetap di-cache).
Jendela konteks: Bagaimana token pemikiran berinteraksi dengan max_tokens dan batas jendela konteks.

Langkah selanjutnya

Pemikiran diperpanjang

Pelajari lebih lanjut tentang pemikiran diperpanjang, termasuk mode manual, penggunaan alat, dan caching prompt.

Parameter effort

Kontrol seberapa menyeluruh Claude merespons dengan parameter effort.

Was this page helpful?

Model yang didukung

Cara kerja pemikiran adaptif

Cara menggunakan pemikiran adaptif

Pemikiran adaptif dengan parameter effort

Streaming dengan pemikiran adaptif

Pemikiran adaptif vs manual vs dinonaktifkan

Pertimbangan penting

Perubahan validasi

Caching prompt

Menyetel perilaku pemikiran

Kontrol biaya

Bekerja dengan blok pemikiran

Pemikiran yang diringkas

Mengontrol tampilan pemikiran

Enkripsi pemikiran

Output pemikiran pada Claude Fable 5 dan Claude Mythos 5

Harga

Topik tambahan

Langkah selanjutnya

Model yang didukung

Cara kerja pemikiran adaptif

Cara menggunakan pemikiran adaptif

Pemikiran adaptif dengan parameter effort

Streaming dengan pemikiran adaptif

Pemikiran adaptif vs manual vs dinonaktifkan

Pertimbangan penting

Perubahan validasi

Caching prompt

Menyetel perilaku pemikiran

Kontrol biaya

Bekerja dengan blok pemikiran

Pemikiran yang diringkas

Mengontrol tampilan pemikiran

Enkripsi pemikiran

Output pemikiran pada Claude Fable 5 dan Claude Mythos 5

Harga

Topik tambahan

Langkah selanjutnya

Model yang didukung

Cara kerja pemikiran adaptif

Cara menggunakan pemikiran adaptif

Pemikiran adaptif dengan parameter effort

Streaming dengan pemikiran adaptif

Pemikiran adaptif vs manual vs dinonaktifkan

Pertimbangan penting

Perubahan validasi

Caching prompt

Menyetel perilaku pemikiran

Kontrol biaya

Bekerja dengan blok pemikiran

Pemikiran yang diringkas

Mengontrol tampilan pemikiran

Enkripsi pemikiran

Output pemikiran pada Claude Fable 5 dan Claude Mythos 5

Harga

Topik tambahan

Langkah selanjutnya

Model yang didukung

Cara kerja pemikiran adaptif

Cara menggunakan pemikiran adaptif

Pemikiran adaptif dengan parameter effort

Streaming dengan pemikiran adaptif

Pemikiran adaptif vs manual vs dinonaktifkan

Pertimbangan penting

Perubahan validasi

Caching prompt

Menyetel perilaku pemikiran

Kontrol biaya

Bekerja dengan blok pemikiran

Pemikiran yang diringkas

Mengontrol tampilan pemikiran

Enkripsi pemikiran

Output pemikiran pada Claude Fable 5 dan Claude Mythos 5

Harga

Topik tambahan

Langkah selanjutnya