"Jendela konteks" mengacu pada keseluruhan jumlah teks yang dapat dilihat kembali dan dirujuk oleh model bahasa saat menghasilkan teks baru ditambah teks baru yang dihasilkannya. Ini berbeda dari korpus data besar yang digunakan untuk melatih model bahasa, dan sebaliknya mewakili "memori kerja" untuk model. Jendela konteks yang lebih besar memungkinkan model untuk memahami dan merespons prompt yang lebih kompleks dan panjang, sementara jendela konteks yang lebih kecil dapat membatasi kemampuan model untuk menangani prompt yang lebih panjang atau mempertahankan koherensi selama percakapan yang diperpanjang.
Diagram di bawah ini mengilustrasikan perilaku jendela konteks standar untuk permintaan API1:
1Untuk antarmuka chat, seperti untuk claude.ai, jendela konteks juga dapat diatur pada sistem bergulir "masuk pertama, keluar pertama".
Saat menggunakan extended thinking, semua token input dan output, termasuk token yang digunakan untuk berpikir, dihitung terhadap batas jendela konteks, dengan beberapa nuansa dalam situasi multi-turn.
Token anggaran thinking adalah subset dari parameter max_tokens Anda, ditagih sebagai token output, dan dihitung terhadap batas rate.
Namun, blok thinking sebelumnya secara otomatis dihapus dari perhitungan jendela konteks oleh Claude API dan bukan bagian dari riwayat percakapan yang "dilihat" model untuk giliran selanjutnya, mempertahankan kapasitas token untuk konten percakapan aktual.
Diagram di bawah ini mendemonstrasikan manajemen token khusus saat extended thinking diaktifkan:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking dan blok redacted_thinking.Arsitektur ini efisien token dan memungkinkan penalaran ekstensif tanpa pemborosan token, karena blok thinking dapat sangat panjang.
Anda dapat membaca lebih lanjut tentang jendela konteks dan extended thinking dalam panduan extended thinking kami.
Diagram di bawah ini mengilustrasikan manajemen token jendela konteks saat menggabungkan extended thinking dengan penggunaan alat:
Arsitektur giliran pertama
Penanganan hasil alat (giliran 2)
tool_result. Blok extended thinking harus dikembalikan dengan hasil alat yang sesuai. Ini adalah satu-satunya kasus di mana Anda harus mengembalikan blok thinking.user berikutnya).Langkah Ketiga
User berikutnya.User baru di luar siklus penggunaan alat, Claude akan menghasilkan blok extended thinking baru dan melanjutkan dari sana.Assistant saat ini dihitung sebagai bagian dari jendela konteks.context_window = input_tokens + current_turn_tokens.Model Claude 4 mendukung interleaved thinking, yang memungkinkan Claude untuk berpikir di antara panggilan alat dan membuat penalaran yang lebih canggih setelah menerima hasil alat.
Claude Sonnet 3.7 tidak mendukung interleaved thinking, jadi tidak ada interleaving extended thinking dan panggilan alat tanpa giliran pengguna non-tool_result di antaranya.
Untuk informasi lebih lanjut tentang menggunakan alat dengan extended thinking, lihat panduan extended thinking kami.
Claude Sonnet 4 dan 4.5 mendukung jendela konteks 1 juta token. Jendela konteks yang diperpanjang ini memungkinkan Anda memproses dokumen yang jauh lebih besar, mempertahankan percakapan yang lebih panjang, dan bekerja dengan basis kode yang lebih ekstensif.
Jendela konteks 1M token saat ini dalam beta untuk organisasi di tingkat penggunaan 4 dan organisasi dengan batas rate khusus. Jendela konteks 1M token hanya tersedia untuk Claude Sonnet 4 dan Sonnet 4.5.
Untuk menggunakan jendela konteks 1M token, sertakan header beta context-1m-2025-08-07 dalam permintaan API Anda:
from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Process this large document..."}
],
betas=["context-1m-2025-08-07"]
)Pertimbangan penting:
Claude Sonnet 4.5 dan Claude Haiku 4.5 menampilkan kesadaran konteks, memungkinkan model-model ini untuk melacak jendela konteks yang tersisa (yaitu "anggaran token") sepanjang percakapan. Ini memungkinkan Claude untuk menjalankan tugas dan mengelola konteks lebih efektif dengan memahami berapa banyak ruang yang dimilikinya untuk bekerja. Claude dilatih secara native untuk menggunakan konteks ini dengan tepat untuk bertahan dalam tugas sampai akhir, daripada harus menebak berapa banyak token yang tersisa. Untuk model, kurangnya kesadaran konteks seperti berkompetisi dalam acara memasak tanpa jam. Model Claude 4.5 mengubah ini dengan secara eksplisit menginformasikan model tentang konteks yang tersisa, sehingga dapat memanfaatkan token yang tersedia secara maksimal.
Cara kerjanya:
Di awal percakapan, Claude menerima informasi tentang total jendela konteksnya:
<budget:token_budget>200000</budget:token_budget>Anggaran ditetapkan ke 200K token (standar), 500K token (Claude.ai Enterprise), atau 1M token (beta, untuk organisasi yang memenuhi syarat).
Setelah setiap panggilan alat, Claude menerima pembaruan tentang kapasitas yang tersisa:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Kesadaran ini membantu Claude menentukan berapa banyak kapasitas yang tersisa untuk bekerja dan memungkinkan eksekusi yang lebih efektif pada tugas-tugas yang berjalan lama. Token gambar disertakan dalam anggaran ini.
Manfaat:
Kesadaran konteks sangat berharga untuk:
Untuk panduan prompting tentang memanfaatkan kesadaran konteks, lihat panduan praktik terbaik Claude 4 kami.
Dalam model Claude yang lebih baru (dimulai dengan Claude Sonnet 3.7), jika jumlah token prompt dan token output melebihi jendela konteks model, sistem akan mengembalikan error validasi daripada secara diam-diam memotong konteks. Perubahan ini memberikan perilaku yang lebih dapat diprediksi tetapi memerlukan manajemen token yang lebih hati-hati.
Untuk merencanakan penggunaan token Anda dan memastikan Anda tetap dalam batas jendela konteks, Anda dapat menggunakan API penghitungan token untuk memperkirakan berapa banyak token yang akan digunakan pesan Anda sebelum mengirimkannya ke Claude.
Lihat tabel perbandingan model kami untuk daftar ukuran jendela konteks berdasarkan model.
Lihat tabel perbandingan model kami untuk daftar ukuran jendela konteks dan harga token input / output berdasarkan model.
Pelajari lebih lanjut tentang cara kerja extended thinking dan cara mengimplementasikannya bersama fitur lain seperti penggunaan alat dan prompt caching.