"Jendela konteks" mengacu pada seluruh jumlah teks yang dapat dilihat dan direferensikan oleh model bahasa saat menghasilkan teks baru ditambah teks baru yang dihasilkannya. Ini berbeda dari corpus data besar tempat model bahasa dilatih, dan sebaliknya mewakili "memori kerja" untuk model. Jendela konteks yang lebih besar memungkinkan model untuk memahami dan merespons prompt yang lebih kompleks dan panjang, sementara jendela konteks yang lebih kecil dapat membatasi kemampuan model untuk menangani prompt yang lebih panjang atau mempertahankan koherensi selama percakapan yang diperpanjang.
Diagram di bawah mengilustrasikan perilaku jendela konteks standar untuk permintaan API1:
1Untuk antarmuka obrolan, seperti untuk claude.ai, jendela konteks juga dapat diatur pada sistem "first in, first out" yang bergulir.
Saat menggunakan pemikiran yang diperpanjang, semua token input dan output, termasuk token yang digunakan untuk pemikiran, dihitung terhadap batas jendela konteks, dengan beberapa nuansa dalam situasi multi-putaran.
Token anggaran pemikiran adalah subset dari parameter max_tokens Anda, ditagih sebagai token output, dan dihitung terhadap batas laju.
Namun, blok pemikiran sebelumnya secara otomatis dilepas dari perhitungan jendela konteks oleh API Claude dan bukan bagian dari riwayat percakapan yang "dilihat" model untuk putaran berikutnya, melestarikan kapasitas token untuk konten percakapan aktual.
Diagram di bawah mendemonstrasikan manajemen token khusus saat pemikiran yang diperpanjang diaktifkan:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking dan blok redacted_thinking.Arsitektur ini hemat token dan memungkinkan penalaran ekstensif tanpa pemborosan token, karena blok pemikiran dapat memiliki panjang yang substansial.
Anda dapat membaca lebih lanjut tentang jendela konteks dan pemikiran yang diperpanjang dalam panduan pemikiran yang diperpanjang kami.
Diagram di bawah mengilustrasikan manajemen token jendela konteks saat menggabungkan pemikiran yang diperpanjang dengan penggunaan alat:
Arsitektur putaran pertama
Penanganan hasil alat (putaran 2)
tool_result. Blok pemikiran yang diperpanjang harus dikembalikan dengan hasil alat yang sesuai. Ini adalah satu-satunya kasus di mana Anda harus mengembalikan blok pemikiran.user berikutnya).Langkah Ketiga
User berikutnya.User baru di luar siklus penggunaan alat, Claude akan menghasilkan blok pemikiran yang diperpanjang baru dan melanjutkan dari sana.Assistant saat ini dihitung sebagai bagian dari jendela konteks.context_window = input_tokens + current_turn_tokens.Model Claude 4 mendukung pemikiran yang disisipi, yang memungkinkan Claude untuk berpikir di antara panggilan alat dan melakukan penalaran yang lebih canggih setelah menerima hasil alat.
Claude Sonnet 3.7 tidak mendukung pemikiran yang disisipi, jadi tidak ada penyisipan pemikiran yang diperpanjang dan panggilan alat tanpa putaran pengguna non-tool_result di antaranya.
Untuk informasi lebih lanjut tentang menggunakan alat dengan pemikiran yang diperpanjang, lihat panduan pemikiran yang diperpanjang kami.
Claude Sonnet 4 dan 4.5 mendukung jendela konteks token 1 juta. Jendela konteks yang diperpanjang ini memungkinkan Anda memproses dokumen yang jauh lebih besar, mempertahankan percakapan yang lebih panjang, dan bekerja dengan basis kode yang lebih ekstensif.
Jendela konteks token 1M saat ini dalam beta untuk organisasi di tingkat penggunaan 4 dan organisasi dengan batas laju khusus. Jendela konteks token 1M hanya tersedia untuk Claude Sonnet 4 dan Sonnet 4.5.
Untuk menggunakan jendela konteks token 1M, sertakan header beta context-1m-2025-08-07 dalam permintaan API Anda:
from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Process this large document..."}
],
betas=["context-1m-2025-08-07"]
)Pertimbangan penting:
Claude Sonnet 4.5 dan Claude Haiku 4.5 menampilkan kesadaran konteks, memungkinkan model ini untuk melacak jendela konteks sisa mereka (yaitu "anggaran token") sepanjang percakapan. Ini memungkinkan Claude untuk menjalankan tugas dan mengelola konteks lebih efektif dengan memahami berapa banyak ruang yang tersedia untuk dikerjakan. Claude secara alami dilatih untuk menggunakan konteks ini dengan tepat untuk bertahan dalam tugas hingga akhir, daripada harus menebak berapa banyak token yang tersisa. Bagi model, kurangnya kesadaran konteks seperti berkompetisi dalam acara memasak tanpa jam. Model Claude 4.5 mengubah ini dengan secara eksplisit menginformasikan model tentang konteks sisanya, sehingga dapat memanfaatkan token yang tersedia secara maksimal.
Cara kerjanya:
Di awal percakapan, Claude menerima informasi tentang jendela konteks totalnya:
<budget:token_budget>200000</budget:token_budget>Anggaran diatur ke 200K token (standar), 500K token (Claude.ai Enterprise), atau 1M token (beta, untuk organisasi yang memenuhi syarat).
Setelah setiap panggilan alat, Claude menerima pembaruan tentang kapasitas sisa:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Kesadaran ini membantu Claude menentukan berapa banyak kapasitas yang tersisa untuk pekerjaan dan memungkinkan eksekusi yang lebih efektif pada tugas yang berjalan lama. Token gambar disertakan dalam anggaran ini.
Manfaat:
Kesadaran konteks sangat berharga untuk:
Untuk panduan prompt tentang memanfaatkan kesadaran konteks, lihat panduan praktik terbaik Claude 4 kami.
Dalam model Claude yang lebih baru (mulai dari Claude Sonnet 3.7), jika jumlah token prompt dan token output melebihi jendela konteks model, sistem akan mengembalikan kesalahan validasi daripada secara diam-diam memotong konteks. Perubahan ini memberikan perilaku yang lebih dapat diprediksi tetapi memerlukan manajemen token yang lebih hati-hati.
Untuk merencanakan penggunaan token Anda dan memastikan Anda tetap dalam batas jendela konteks, Anda dapat menggunakan API penghitungan token untuk memperkirakan berapa banyak token yang akan digunakan pesan Anda sebelum mengirimnya ke Claude.
Lihat tabel perbandingan model kami untuk daftar ukuran jendela konteks menurut model.
Lihat tabel perbandingan model kami untuk daftar ukuran jendela konteks dan harga token input / output menurut model.
Pelajari lebih lanjut tentang cara kerja pemikiran yang diperpanjang dan cara mengimplementasikannya bersama fitur lain seperti penggunaan alat dan penyimpanan prompt.