Fitur ini memenuhi syarat untuk Zero Data Retention (ZDR). Ketika organisasi Anda memiliki pengaturan ZDR, data yang dikirim melalui fitur ini tidak disimpan setelah respons API dikembalikan.
Seiring bertambahnya percakapan, Anda pada akhirnya akan mendekati batas jendela konteks. Untuk percakapan yang berjalan lama dan alur kerja agentik, pemadatan sisi server adalah strategi utama untuk manajemen konteks.
"Context window" (jendela konteks) mengacu pada semua teks yang dapat direferensikan oleh model bahasa saat menghasilkan respons, termasuk respons itu sendiri. Ini berbeda dari korpus data besar tempat model bahasa dilatih, dan sebaliknya mewakili "memori kerja" untuk model. Jendela konteks yang lebih besar memungkinkan model menangani prompt yang lebih kompleks dan panjang, tetapi lebih banyak konteks tidak otomatis berarti lebih baik. Seiring bertambahnya jumlah token, akurasi dan kemampuan mengingat menurun, fenomena yang dikenal sebagai context rot. Hal ini membuat kurasi apa yang ada dalam konteks sama pentingnya dengan seberapa banyak ruang yang tersedia.
Untuk informasi lebih lanjut tentang mengapa konteks panjang mengalami penurunan dan cara merekayasa solusinya, lihat Effective context engineering.
Diagram berikut mengilustrasikan perilaku jendela konteks standar untuk permintaan API1:
1Antarmuka chat seperti claude.ai juga dapat mengelola jendela konteks secara bergulir dengan basis "first in, first out".
Semua yang ada dalam permintaan dihitung terhadap jendela konteks: prompt sistem, setiap pesan dalam messages (termasuk hasil alat, gambar, dan dokumen), serta definisi alat Anda. Output yang dihasilkan Claude untuk giliran tersebut, termasuk pemikiran diperpanjangnya, juga dihitung. Setiap respons melaporkan apa yang dikonsumsi permintaan dalam field usage-nya. Jika Anda menggunakan caching prompt, jumlah input dibagi ke dalam input_tokens, cache_read_input_tokens, dan cache_creation_input_tokens, dan ketiganya dihitung terhadap jendela konteks. Untuk memperkirakan permintaan sebelum Anda mengirimkannya, gunakan API penghitungan token.
Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5, dan Claude Sonnet 4.6 memiliki jendela konteks 1M token pada Claude API, Amazon Bedrock, Google Cloud, dan Microsoft Foundry. Claude Mythos Preview juga memiliki jendela konteks 1M token.
Claude Fable 5 dan Claude Mythos 5 (claude-fable-5 dan claude-mythos-5) memiliki jendela konteks 1M token, dan satu permintaan ke model-model ini dapat menghasilkan hingga 128k token output (max_tokens). Model Claude lainnya, termasuk Claude Sonnet 4.5, memiliki jendela konteks 200k token.
Untuk setiap model dengan jendela konteks 1M token, 1M adalah default: Anda tidak memerlukan header beta, dan permintaan konteks panjang ditagih dengan harga standar.
Satu permintaan dapat menyertakan hingga 600 gambar atau halaman PDF (100 untuk model dengan jendela konteks 200k token). Jika Anda mengirim banyak gambar atau dokumen besar, Anda mungkin mencapai batas ukuran permintaan sebelum batas token.
Lihat tabel perbandingan model untuk daftar ukuran jendela konteks berdasarkan model.
Dengan pemikiran diperpanjang, semua token input dan output, termasuk token pemikiran, dihitung terhadap batas jendela konteks, dengan beberapa nuansa dalam situasi multi-giliran.
Token anggaran pemikiran adalah subset dari parameter max_tokens Anda, ditagih sebagai token output, dan dihitung terhadap batas laju. Dengan pemikiran adaptif, Claude menentukan alokasi pemikirannya secara dinamis, sehingga penggunaan token pemikiran bervariasi dari satu permintaan ke permintaan lainnya.
Apakah blok pemikiran dari giliran asisten sebelumnya tetap berada dalam jendela konteks bergantung pada model. Pada Claude Opus 4.5 dan model Opus yang lebih baru, Claude Sonnet 4.6 dan model Sonnet yang lebih baru, Claude Fable 5, Claude Mythos 5, dan Claude Mythos Preview, API mempertahankan blok pemikiran sebelumnya secara default, dan blok tersebut dihitung terhadap jendela konteks seperti token input lainnya. Pada model Opus dan Sonnet yang lebih lama serta semua model Haiku, API secara otomatis menghapus blok pemikiran sebelumnya dari riwayat percakapan saat Anda mengirimkannya kembali, yang mempertahankan kapasitas token untuk konten percakapan. Untuk default per model, lihat preservasi blok pemikiran berdasarkan model. Untuk mengganti default ke arah mana pun, gunakan penghapusan blok pemikiran.
Diagram berikut menunjukkan bagaimana token dikelola saat pemikiran diperpanjang diaktifkan pada model yang menghapus blok pemikiran sebelumnya:
Anda dapat membaca lebih lanjut tentang jendela konteks dan pemikiran diperpanjang dalam panduan Pemikiran diperpanjang.
Diagram berikut mengilustrasikan bagaimana token dikelola saat Anda menggabungkan pemikiran diperpanjang dengan penggunaan alat pada model yang menghapus blok pemikiran sebelumnya:
Arsitektur giliran pertama
Penanganan hasil alat (giliran 2)
tool_result. Anda harus mengembalikan blok pemikiran diperpanjang bersama hasil alat yang sesuai. Ini adalah satu-satunya kasus di mana Anda harus mengembalikan blok pemikiran.user berikutnya, kecuali pemikiran berselang diaktifkan).Giliran pengguna baru (giliran 3)
user berikutnya.user baru di luar siklus penggunaan alat, Claude menghasilkan blok pemikiran diperpanjang baru dan melanjutkan dari sana.assistant saat ini.Sebagian besar model Claude saat ini mendukung pemikiran berselang, yang memungkinkan Claude berpikir di antara panggilan alat, termasuk setelah menerima hasil alat. Ini otomatis pada model dengan pemikiran adaptif. Claude Opus 4.5, Claude Sonnet 4.5, dan model Claude 4 yang lebih lama memerlukan header beta interleaved-thinking-2025-05-14.
Untuk informasi lebih lanjut tentang menggunakan alat dengan pemikiran diperpanjang, lihat Pemikiran diperpanjang dengan penggunaan alat.
Untuk mengurangi konteks yang dikonsumsi oleh definisi alat itu sendiri, lihat Mengelola konteks alat, atau tunda definisi alat dengan alat pencarian alat.
Claude Sonnet 5, Claude Sonnet 4.6, Claude Sonnet 4.5, dan Claude Haiku 4.5 memiliki kesadaran konteks: model-model ini melacak sisa jendela konteks mereka ("anggaran token" mereka) sepanjang percakapan. Ini memungkinkan model mengelola tugas yang berjalan lama berdasarkan ruang yang tersisa alih-alih menebak berapa banyak token yang tersisa. Kesadaran konteks bersifat otomatis: tidak ada yang perlu Anda aktifkan, dan Anda tidak pernah mengirim tag yang ditampilkan di bagian ini sendiri. API yang menyuntikkannya.
Dalam prompt sistem setiap permintaan, API memberi Claude total jendela konteksnya:
<budget:token_budget>200000</budget:token_budget>Anggaran tersebut sesuai dengan jendela konteks yang tersedia untuk permintaan Anda: 1M token untuk Claude Sonnet 5 dan Claude Sonnet 4.6, dan 200k token untuk Claude Sonnet 4.5 dan Claude Haiku 4.5. Contoh di bagian ini menunjukkan model dengan jendela konteks 200k token.
Setelah setiap panggilan alat, API memberi Claude pembaruan tentang kapasitas yang tersisa:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Token gambar disertakan dalam anggaran ini.
Model yang lebih baru tidak menerima tag yang disuntikkan ini. Pada Claude Opus 4.7 dan yang lebih baru, Claude Fable 5, dan Claude Mythos 5, Anda dapat memberi model anggaran eksplisit dengan anggaran tugas, yang masih dalam tahap beta.
Untuk agen yang mencakup beberapa sesi, rancang artefak state Anda sehingga pemulihan konteks cepat saat sesi baru dimulai. Pola multi-sesi alat memori menjelaskan pendekatan konkret. Lihat juga Effective harnesses for long-running agents.
Untuk panduan prompting tentang menggunakan kesadaran konteks, lihat Praktik terbaik prompting.
Jika percakapan Anda secara rutin mendekati batas jendela konteks, gunakan pemadatan sisi server. Pemadatan secara otomatis meringkas bagian awal percakapan di server, sehingga percakapan dapat berlanjut melewati batas jendela konteks. Fitur ini tersedia dalam beta untuk Claude Fable 5, Claude Mythos 5, Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5, dan Claude Sonnet 4.6.
Untuk kebutuhan yang lebih khusus, pengeditan konteks menawarkan strategi tambahan:
Prefiks prompt yang di-cache tetap menempati jendela konteks: caching prompt mengubah apa yang Anda bayar untuk token tersebut, bukan apakah token tersebut dihitung.
Jika input saja sudah melebihi jendela konteks model, API mengembalikan invalid_request_error 400 ("prompt is too long") pada setiap model.
Pada model Claude 4.5 dan yang lebih baru, jika token input ditambah max_tokens melebihi ukuran jendela konteks, API menerima permintaan tersebut. Jika generasi kemudian mencapai batas jendela konteks, generasi berhenti dengan stop_reason: "model_context_window_exceeded". Pada model yang lebih lama, API mengembalikan error validasi sebagai gantinya. Untuk mengaktifkan perilaku model_context_window_exceeded pada model tersebut, gunakan header beta model-context-window-exceeded-2025-08-26. Lihat Alasan berhenti dan fallback untuk detailnya.
Untuk tetap berada dalam batas jendela konteks, gunakan API penghitungan token untuk memperkirakan penggunaan token sebelum mengirim pesan ke Claude.
Pemadatan konteks sisi server untuk mengelola percakapan panjang yang mendekati batas jendela konteks.
Kelola konteks percakapan secara otomatis seiring pertumbuhannya dengan pengeditan konteks.
Lihat tabel perbandingan model untuk daftar ukuran jendela konteks dan harga token input/output berdasarkan model.
Berikan Claude penalaran yang ditingkatkan untuk tugas kompleks dan kontrol bagaimana konten pemikiran dikembalikan.
Was this page helpful?