This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
Seiring percakapan berkembang, Anda pada akhirnya akan mendekati batas jendela konteks. Panduan ini menjelaskan cara kerja jendela konteks dan memperkenalkan strategi untuk mengelolanya secara efektif.
Untuk percakapan jangka panjang dan alur kerja agentic, kompaksi sisi server adalah strategi utama untuk manajemen konteks. Untuk kebutuhan yang lebih khusus, pengeditan konteks menawarkan strategi tambahan seperti pembersihan hasil alat dan pembersihan blok pemikiran.
"Jendela konteks" mengacu pada semua teks yang dapat direferensikan model bahasa saat menghasilkan respons, termasuk respons itu sendiri. Ini berbeda dari corpus data besar tempat model bahasa dilatih, dan sebaliknya mewakili "memori kerja" untuk model. Jendela konteks yang lebih besar memungkinkan model menangani prompt yang lebih kompleks dan panjang, tetapi lebih banyak konteks tidak secara otomatis lebih baik. Seiring jumlah token bertambah, akurasi dan recall menurun, fenomena yang dikenal sebagai context rot. Ini membuat kurasi apa yang ada dalam konteks sama pentingnya dengan berapa banyak ruang yang tersedia.
Claude mencapai hasil canggih pada benchmark pengambilan konteks panjang seperti MRCR dan GraphWalks, tetapi keuntungan ini bergantung pada apa yang ada dalam konteks, bukan hanya berapa banyak yang muat.
Untuk pendalaman tentang mengapa konteks panjang menurun dan cara merekayasa di sekitarnya, lihat Effective context engineering.
Diagram di bawah mengilustrasikan perilaku jendela konteks standar untuk permintaan API1:
1Untuk antarmuka obrolan, seperti untuk claude.ai, jendela konteks juga dapat diatur pada sistem "first in, first out" yang bergulir.
Saat menggunakan pemikiran yang diperluas, semua token input dan output, termasuk token yang digunakan untuk pemikiran, dihitung terhadap batas jendela konteks, dengan beberapa nuansa dalam situasi multi-giliran.
Token anggaran pemikiran adalah subset dari parameter max_tokens Anda, ditagih sebagai token output, dan dihitung terhadap batas laju. Dengan pemikiran adaptif, Claude secara dinamis memutuskan alokasi pemikirannya, jadi penggunaan token pemikiran aktual mungkin berbeda per permintaan.
Namun, blok pemikiran sebelumnya secara otomatis dilepas dari perhitungan jendela konteks oleh Claude API dan bukan bagian dari riwayat percakapan yang "dilihat" model untuk giliran berikutnya, melestarikan kapasitas token untuk konten percakapan aktual.
Diagram di bawah mendemonstrasikan manajemen token khusus saat pemikiran yang diperluas diaktifkan:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking.Arsitektur ini efisien token dan memungkinkan penalaran ekstensif tanpa pemborosan token, karena blok pemikiran dapat memiliki panjang yang substansial.
Anda dapat membaca lebih lanjut tentang jendela konteks dan pemikiran yang diperluas dalam panduan pemikiran yang diperluas.
Diagram di bawah mengilustrasikan manajemen token jendela konteks saat menggabungkan pemikiran yang diperluas dengan penggunaan alat:
Arsitektur giliran pertama
Penanganan hasil alat (giliran 2)
tool_result. Blok pemikiran yang diperluas harus dikembalikan dengan hasil alat yang sesuai. Ini adalah satu-satunya kasus di mana Anda harus mengembalikan blok pemikiran.user berikutnya).Langkah Ketiga
User berikutnya.User baru di luar siklus penggunaan alat, Claude menghasilkan blok pemikiran yang diperluas baru dan melanjutkan dari sana.Assistant saat ini dihitung sebagai bagian dari jendela konteks.context_window = input_tokens + current_turn_tokens.Model Claude 4 mendukung pemikiran yang disisipi, yang memungkinkan Claude untuk berpikir di antara panggilan alat dan melakukan penalaran yang lebih canggih setelah menerima hasil alat.
Claude Sonnet 3.7 tidak mendukung pemikiran yang disisipi, jadi tidak ada penyisipan pemikiran yang diperluas dan panggilan alat tanpa giliran pengguna non-tool_result di antaranya.
Untuk informasi lebih lanjut tentang menggunakan alat dengan pemikiran yang diperluas, lihat panduan pemikiran yang diperluas.
Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, dan Claude Sonnet 4.6 memiliki jendela konteks 1M-token. Model Claude lainnya, termasuk Claude Sonnet 4.5 dan Sonnet 4 (deprecated), memiliki jendela konteks 200k-token.
Satu permintaan dapat mencakup hingga 600 gambar atau halaman PDF (100 untuk model dengan jendela konteks 200k-token). Saat mengirim banyak gambar atau dokumen besar, Anda mungkin mendekati batas ukuran permintaan sebelum batas token.
Claude Sonnet 4.6, Claude Sonnet 4.5, dan Claude Haiku 4.5 menampilkan kesadaran konteks. Kemampuan ini memungkinkan model ini melacak jendela konteks yang tersisa mereka (yaitu "anggaran token") sepanjang percakapan. Ini memungkinkan Claude untuk menjalankan tugas dan mengelola konteks lebih efektif dengan memahami berapa banyak ruang yang dimilikinya untuk bekerja. Claude dilatih untuk menggunakan konteks ini dengan tepat, bertahan dalam tugas sampai akhir daripada menebak berapa banyak token yang tersisa. Bagi model, kurangnya kesadaran konteks seperti berkompetisi dalam acara memasak tanpa jam. Model Claude 4.5+ mengubah ini dengan secara eksplisit menginformasikan model tentang konteks yang tersisa, sehingga dapat memanfaatkan token yang tersedia secara maksimal.
Cara kerjanya:
Di awal percakapan, Claude menerima informasi tentang total jendela konteksnya:
<budget:token_budget>1000000</budget:token_budget>Anggaran diatur ke 1M token (200k untuk model dengan jendela konteks yang lebih kecil).
Setelah setiap panggilan alat, Claude menerima pembaruan tentang kapasitas yang tersisa:
<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>Kesadaran ini membantu Claude menentukan berapa banyak kapasitas yang tersisa untuk pekerjaan dan memungkinkan eksekusi yang lebih efektif pada tugas jangka panjang. Token gambar disertakan dalam anggaran ini.
Manfaat:
Kesadaran konteks sangat berharga untuk:
Untuk agen yang mencakup beberapa sesi, rancang artefak status Anda sehingga pemulihan konteks cepat saat sesi baru dimulai. Pola multi-sesi alat memori menjelaskan pendekatan konkret. Lihat juga Effective harnesses for long-running agents.
Untuk panduan prompting tentang memanfaatkan kesadaran konteks, lihat panduan praktik terbaik prompting.
Jika percakapan Anda secara teratur mendekati batas jendela konteks, kompaksi sisi server adalah pendekatan yang direkomendasikan. Kompaksi menyediakan peringkasan sisi server yang secara otomatis mengondensasi bagian awal percakapan, memungkinkan percakapan jangka panjang melampaui batas konteks dengan pekerjaan integrasi minimal. Saat ini tersedia dalam beta untuk Claude Opus 4.7, Claude Opus 4.6, dan Claude Sonnet 4.6.
Untuk kebutuhan yang lebih khusus, pengeditan konteks menawarkan strategi tambahan:
Model Claude yang lebih baru (dimulai dengan Claude Sonnet 3.7) mengembalikan kesalahan validasi saat token prompt dan output melebihi jendela konteks, daripada secara diam-diam memotong. Perubahan ini memberikan perilaku yang lebih dapat diprediksi tetapi memerlukan manajemen token yang lebih hati-hati.
Gunakan API penghitungan token untuk memperkirakan penggunaan token sebelum mengirim pesan ke Claude. Ini membantu Anda merencanakan dan tetap dalam batas jendela konteks.
Lihat tabel perbandingan model untuk daftar ukuran jendela konteks menurut model.
Strategi yang direkomendasikan untuk mengelola konteks dalam percakapan jangka panjang.
Strategi butir halus seperti pembersihan hasil alat dan pembersihan blok pemikiran.
Lihat tabel perbandingan model untuk daftar ukuran jendela konteks dan harga token input / output menurut model.
Pelajari lebih lanjut tentang cara kerja pemikiran yang diperluas dan cara mengimplementasikannya bersama fitur lain seperti penggunaan alat dan caching prompt.
Was this page helpful?