Fitur ini memenuhi syarat untuk Zero Data Retention (ZDR). Ketika organisasi Anda memiliki pengaturan ZDR, data yang dikirim melalui fitur ini tidak disimpan setelah respons API dikembalikan.
Seiring percakapan berkembang, Anda pada akhirnya akan mendekati batas jendela konteks. Panduan ini menjelaskan cara kerja jendela konteks dan memperkenalkan strategi untuk mengelolanya secara efektif.
Untuk percakapan yang berjalan lama dan alur kerja agentik, server-side compaction adalah strategi utama untuk manajemen konteks. Untuk kebutuhan yang lebih khusus, context editing menawarkan strategi tambahan seperti pembersihan hasil alat dan pembersihan blok pemikiran.
"Context window" (jendela konteks) mengacu pada semua teks yang dapat direferensikan oleh model bahasa saat menghasilkan respons, termasuk respons itu sendiri. Ini berbeda dari korpus data besar tempat model bahasa dilatih, dan sebaliknya mewakili "memori kerja" untuk model. Jendela konteks yang lebih besar memungkinkan model menangani prompt yang lebih kompleks dan panjang, tetapi lebih banyak konteks tidak secara otomatis lebih baik. Seiring jumlah token bertambah, akurasi dan kemampuan mengingat menurun, fenomena yang dikenal sebagai context rot. Hal ini membuat kurasi apa yang ada dalam konteks sama pentingnya dengan seberapa banyak ruang yang tersedia.
Claude mencapai hasil terbaik di kelasnya pada benchmark pengambilan konteks panjang seperti MRCR dan GraphWalks, tetapi peningkatan ini bergantung pada apa yang ada dalam konteks, bukan hanya seberapa banyak yang muat.
Untuk pembahasan mendalam tentang mengapa konteks panjang mengalami penurunan dan cara merekayasa solusinya, lihat Effective context engineering.
Diagram di bawah ini mengilustrasikan perilaku jendela konteks standar untuk permintaan API1:
1Untuk antarmuka chat, seperti claude.ai, jendela konteks juga dapat diatur dengan sistem bergulir "first in, first out" (masuk pertama, keluar pertama).
Saat menggunakan pemikiran diperpanjang, semua token input dan output, termasuk token yang digunakan untuk berpikir, dihitung terhadap batas jendela konteks, dengan beberapa nuansa dalam situasi multi-giliran.
Token anggaran pemikiran adalah subset dari parameter max_tokens Anda, ditagih sebagai token output, dan dihitung terhadap batas laju. Dengan adaptive thinking, Claude secara dinamis menentukan alokasi pemikirannya, sehingga penggunaan token pemikiran aktual dapat bervariasi per permintaan.
Namun, blok pemikiran sebelumnya secara otomatis dihapus dari perhitungan jendela konteks oleh API Claude dan bukan bagian dari riwayat percakapan yang "dilihat" model untuk giliran berikutnya, sehingga mempertahankan kapasitas token untuk konten percakapan yang sebenarnya.
Diagram di bawah ini menunjukkan manajemen token khusus saat pemikiran diperpanjang diaktifkan:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking.Arsitektur ini efisien dalam penggunaan token dan memungkinkan penalaran ekstensif tanpa pemborosan token, karena blok pemikiran dapat memiliki panjang yang substansial.
Anda dapat membaca lebih lanjut tentang jendela konteks dan pemikiran diperpanjang di panduan pemikiran diperpanjang.
Diagram di bawah ini mengilustrasikan manajemen token jendela konteks saat menggabungkan pemikiran diperpanjang dengan penggunaan alat:
Arsitektur giliran pertama
Penanganan hasil alat (giliran 2)
tool_result. Blok pemikiran diperpanjang harus dikembalikan bersama dengan hasil alat yang sesuai. Ini adalah satu-satunya kasus di mana Anda harus mengembalikan blok pemikiran.user berikutnya, kecuali interleaved thinking diaktifkan).Giliran pengguna baru (giliran 3)
user berikutnya.user baru di luar siklus penggunaan alat, Claude menghasilkan blok pemikiran diperpanjang baru dan melanjutkan dari sana.assistant saat ini dihitung sebagai bagian dari jendela konteks.context_window = input_tokens + current_turn_tokens.Model Claude 4 mendukung interleaved thinking, yang memungkinkan Claude berpikir di antara panggilan alat dan membuat penalaran yang lebih canggih setelah menerima hasil alat.
Untuk informasi lebih lanjut tentang menggunakan alat dengan pemikiran diperpanjang, lihat panduan pemikiran diperpanjang.
Pemilihan alat Claude dirancang untuk tetap andal dengan dokumen input yang besar — memilih alat yang tepat (atau dengan benar menahan diri) ketika percakapan mencakup 100K+ token konteks non-alat. Untuk mengurangi konteks yang dikonsumsi oleh alat itu sendiri, lihat Mengelola konteks alat, atau tunda definisi alat dengan tool search tool.
Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, dan Claude Sonnet 4.6 memiliki jendela konteks 1 juta token di API Claude, Amazon Bedrock, dan Vertex AI. Di Microsoft Foundry, Claude Opus 4.8 memiliki jendela konteks 200k token. Model Claude lainnya, termasuk Claude Sonnet 4.5 dan Sonnet 4 (tidak digunakan lagi), memiliki jendela konteks 200k token.
Claude Fable 5 dan Claude Mythos 5 (claude-fable-5 dan claude-mythos-5) memiliki jendela konteks 1 juta token di API Claude. Maksimum 1 juta juga merupakan default, dan satu permintaan dapat menghasilkan hingga 128k token output (max_tokens).
Satu permintaan dapat menyertakan hingga 600 gambar atau halaman PDF (100 untuk model dengan jendela konteks 200k token). Saat mengirim banyak gambar atau dokumen besar, Anda mungkin mendekati batas ukuran permintaan sebelum batas token.
Claude Sonnet 4.6, Claude Sonnet 4.5, dan Claude Haiku 4.5 memiliki fitur context awareness (kesadaran konteks). Kemampuan ini memungkinkan model-model ini melacak sisa jendela konteks mereka (yaitu, "anggaran token") sepanjang percakapan. Ini memungkinkan Claude menjalankan tugas dan mengelola konteks dengan lebih efektif dengan memahami berapa banyak ruang yang tersedia untuk bekerja. Claude dilatih untuk menggunakan konteks ini secara presisi, bertahan dalam tugas hingga akhir alih-alih menebak berapa banyak token yang tersisa. Bagi sebuah model, tidak memiliki kesadaran konteks seperti berkompetisi dalam acara memasak tanpa jam. Model yang sadar konteks mengubah hal ini dengan secara eksplisit menerima informasi tentang sisa konteks, sehingga mereka dapat memanfaatkan token yang tersedia secara maksimal.
Cara kerjanya:
Di awal percakapan, Claude menerima informasi tentang total jendela konteksnya:
<budget:token_budget>1000000</budget:token_budget>Anggaran diatur ke 1 juta token (200k untuk model dengan jendela konteks yang lebih kecil).
Setelah setiap panggilan alat, Claude menerima pembaruan tentang kapasitas yang tersisa:
<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>Kesadaran ini membantu Claude menentukan berapa banyak kapasitas yang tersisa untuk bekerja dan memungkinkan eksekusi yang lebih efektif pada tugas yang berjalan lama. Token gambar termasuk dalam anggaran ini.
Manfaat:
Kesadaran konteks sangat berharga untuk:
Untuk agen yang mencakup beberapa sesi, rancang artefak status Anda sehingga pemulihan konteks cepat saat sesi baru dimulai. Pola multi-sesi memory tool menjelaskan pendekatan konkret. Lihat juga Effective harnesses for long-running agents.
Untuk panduan prompting tentang memanfaatkan kesadaran konteks, lihat panduan praktik terbaik prompting.
Jika percakapan Anda secara rutin mendekati batas jendela konteks, server-side compaction adalah pendekatan yang direkomendasikan. Compaction menyediakan peringkasan sisi server yang secara otomatis memadatkan bagian awal percakapan, memungkinkan percakapan yang berjalan lama melampaui batas konteks dengan upaya integrasi minimal. Fitur ini tersedia dalam versi beta untuk Claude Fable 5, Claude Mythos 5, Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, dan Claude Sonnet 4.6.
Untuk kebutuhan yang lebih khusus, context editing menawarkan strategi tambahan:
Pada model Claude 4.5 dan yang lebih baru, jika token input ditambah max_tokens melebihi ukuran jendela konteks, API menerima permintaan tersebut. Jika pembuatan kemudian mencapai batas jendela konteks, pembuatan berhenti dengan stop_reason: "model_context_window_exceeded". Pada model sebelumnya, API mengembalikan error validasi sebagai gantinya; aktifkan perilaku model_context_window_exceeded dengan header beta model-context-window-exceeded-2025-08-26. Lihat Menangani stop reason untuk detailnya.
Untuk tetap berada dalam batas jendela konteks, gunakan API penghitungan token untuk memperkirakan penggunaan token sebelum mengirim pesan ke Claude.
Lihat tabel perbandingan model untuk daftar ukuran jendela konteks berdasarkan model.
Strategi yang direkomendasikan untuk mengelola konteks dalam percakapan yang berjalan lama.
Strategi yang lebih terperinci seperti pembersihan hasil alat dan pembersihan blok pemikiran.
Lihat tabel perbandingan model untuk daftar ukuran jendela konteks dan harga token input / output berdasarkan model.
Pelajari lebih lanjut tentang cara kerja pemikiran diperpanjang dan cara mengimplementasikannya bersama fitur lain seperti penggunaan alat dan caching prompt.
Was this page helpful?