Was this page helpful?
Seiring percakapan berkembang, Anda pada akhirnya akan mendekati batas jendela konteks. Panduan ini menjelaskan cara kerja jendela konteks dan memperkenalkan strategi untuk mengelolanya secara efektif.
Untuk percakapan jangka panjang dan alur kerja agentic, kompresi sisi server adalah strategi utama untuk manajemen konteks. Untuk kebutuhan yang lebih khusus, pengeditan konteks menawarkan strategi tambahan seperti pembersihan hasil alat dan pembersihan blok pemikiran.
"Jendela konteks" mengacu pada semua teks yang dapat direferensikan model bahasa saat menghasilkan respons, termasuk respons itu sendiri. Ini berbeda dari corpus data besar tempat model bahasa dilatih, dan sebaliknya mewakili "memori kerja" untuk model. Jendela konteks yang lebih besar memungkinkan model menangani prompt yang lebih kompleks dan panjang. Jendela konteks yang lebih kecil dapat membatasi kemampuan model untuk mempertahankan koherensi selama percakapan yang diperpanjang.
Diagram di bawah mengilustrasikan perilaku jendela konteks standar untuk permintaan API1:
1Untuk antarmuka obrolan, seperti untuk claude.ai, jendela konteks juga dapat diatur pada sistem "masuk pertama, keluar pertama" yang bergulir.
Saat menggunakan pemikiran yang diperpanjang, semua token input dan output, termasuk token yang digunakan untuk pemikiran, dihitung terhadap batas jendela konteks, dengan beberapa nuansa dalam situasi multi-giliran.
Token anggaran pemikiran adalah subset dari parameter max_tokens Anda, ditagih sebagai token output, dan dihitung terhadap batas laju. Dengan pemikiran adaptif, Claude secara dinamis memutuskan alokasi pemikirannya, jadi penggunaan token pemikiran aktual dapat bervariasi per permintaan.
Namun, blok pemikiran sebelumnya secara otomatis dilepas dari perhitungan jendela konteks oleh API Claude dan bukan bagian dari riwayat percakapan yang "dilihat" model untuk giliran berikutnya, melestarikan kapasitas token untuk konten percakapan aktual.
Diagram di bawah mendemonstrasikan manajemen token khusus saat pemikiran yang diperpanjang diaktifkan:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking dan blok redacted_thinking.Arsitektur ini hemat token dan memungkinkan penalaran ekstensif tanpa pemborosan token, karena blok pemikiran dapat memiliki panjang yang substansial.
Anda dapat membaca lebih lanjut tentang jendela konteks dan pemikiran yang diperpanjang dalam panduan pemikiran yang diperpanjang.
Diagram di bawah mengilustrasikan manajemen token jendela konteks saat menggabungkan pemikiran yang diperpanjang dengan penggunaan alat:
Arsitektur giliran pertama
Penanganan hasil alat (giliran 2)
tool_result. Blok pemikiran yang diperpanjang harus dikembalikan dengan hasil alat yang sesuai. Ini adalah satu-satunya kasus di mana Anda harus mengembalikan blok pemikiran.user berikutnya).Langkah Ketiga
context_window = input_tokens + current_turn_tokens.Model Claude 4 mendukung pemikiran yang disisipi, yang memungkinkan Claude untuk berpikir di antara panggilan alat dan membuat penalaran yang lebih canggih setelah menerima hasil alat.
Claude Sonnet 3.7 tidak mendukung pemikiran yang disisipi, jadi tidak ada penyisipan pemikiran yang diperpanjang dan panggilan alat tanpa giliran pengguna non-tool_result di antara.
Untuk informasi lebih lanjut tentang menggunakan alat dengan pemikiran yang diperpanjang, lihat panduan pemikiran yang diperpanjang.
Claude Opus 4.6, Sonnet 4.5, dan Sonnet 4 mendukung jendela konteks token 1 juta. Jendela konteks yang diperpanjang ini memungkinkan Anda memproses dokumen yang jauh lebih besar, mempertahankan percakapan yang lebih lama, dan bekerja dengan basis kode yang lebih ekstensif.
Jendela konteks token 1M saat ini dalam beta untuk organisasi dalam tingkat penggunaan 4 dan organisasi dengan batas laju kustom. Jendela konteks token 1M hanya tersedia untuk Claude Opus 4.6, Sonnet 4.5, dan Sonnet 4.
Untuk menggunakan jendela konteks token 1M, sertakan header beta context-1m-2025-08-07 dalam permintaan API Anda:
Pertimbangan penting:
Claude Sonnet 4.5 dan Claude Haiku 4.5 menampilkan kesadaran konteks. Kemampuan ini memungkinkan model ini melacak jendela konteks yang tersisa (yaitu "anggaran token") di seluruh percakapan. Ini memungkinkan Claude untuk menjalankan tugas dan mengelola konteks lebih efektif dengan memahami berapa banyak ruang yang dimilikinya untuk bekerja. Claude dilatih untuk menggunakan konteks ini dengan tepat, bertahan dalam tugas sampai akhir daripada menebak berapa banyak token yang tersisa. Bagi model, kurangnya kesadaran konteks seperti berkompetisi dalam acara memasak tanpa jam. Model Claude 4.5 mengubah ini dengan secara eksplisit menginformasikan model tentang konteks yang tersisa, sehingga dapat memanfaatkan token yang tersedia secara maksimal.
Cara kerjanya:
Di awal percakapan, Claude menerima informasi tentang jendela konteks totalnya:
<budget:token_budget>200000</budget:token_budget>Anggaran diatur ke token 200K (standar), token 500K (claude.ai Enterprise), atau token 1M (beta, untuk organisasi yang memenuhi syarat).
Setelah setiap panggilan alat, Claude menerima pembaruan tentang kapasitas yang tersisa:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Kesadaran ini membantu Claude menentukan berapa banyak kapasitas yang tersisa untuk pekerjaan dan memungkinkan eksekusi yang lebih efektif pada tugas jangka panjang. Token gambar disertakan dalam anggaran ini.
Manfaat:
Kesadaran konteks sangat berharga untuk:
Untuk panduan prompt tentang memanfaatkan kesadaran konteks, lihat panduan praktik terbaik prompt.
Jika percakapan Anda secara teratur mendekati batas jendela konteks, kompresi sisi server adalah pendekatan yang direkomendasikan. Kompresi menyediakan peringkasan sisi server yang secara otomatis mengondensasi bagian awal percakapan, memungkinkan percakapan jangka panjang melampaui batas konteks dengan kerja integrasi minimal. Ini saat ini tersedia dalam beta untuk Claude Opus 4.6.
Untuk kebutuhan yang lebih khusus, pengeditan konteks menawarkan strategi tambahan:
Model Claude yang lebih baru (dimulai dengan Claude Sonnet 3.7) mengembalikan kesalahan validasi saat token prompt dan output melebihi jendela konteks, daripada secara diam-diam memotong. Perubahan ini memberikan perilaku yang lebih dapat diprediksi tetapi memerlukan manajemen token yang lebih hati-hati.
Gunakan API penghitungan token untuk memperkirakan penggunaan token sebelum mengirim pesan ke Claude. Ini membantu Anda merencanakan dan tetap dalam batas jendela konteks.
Lihat tabel perbandingan model untuk daftar ukuran jendela konteks menurut model.
Strategi yang direkomendasikan untuk mengelola konteks dalam percakapan jangka panjang.
Strategi berbutir halus seperti pembersihan hasil alat dan pembersihan blok pemikiran.
Lihat tabel perbandingan model untuk daftar ukuran jendela konteks dan harga token input / output menurut model.
UserUser baru di luar siklus penggunaan alat, Claude akan menghasilkan blok pemikiran yang diperpanjang baru dan melanjutkan dari sana.Assistant saat ini dihitung sebagai bagian dari jendela konteks.curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "anthropic-beta: context-1m-2025-08-07" \
-H "content-type: application/json" \
-d '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"messages": [
{"role": "user", "content": "Process this large document..."}
]
}'Pelajari lebih lanjut tentang cara kerja pemikiran yang diperpanjang dan cara mengimplementasikannya bersama fitur lain seperti penggunaan alat dan penyimpanan prompt.