• Messages
  • Managed Agents
  • Admin

Search...
⌘K
Langkah pertama
Pengenalan ClaudeMulai cepat
Membangun dengan Claude
Ikhtisar fiturMenggunakan Messages APIAlasan berhenti dan fallbackPenolakan dan fallbackKredit fallback
Kemampuan model
Pemikiran diperpanjangPemikiran adaptifUpayaAnggaran tugas (beta)Mode cepat (pratinjau riset)Output terstrukturSitasiStreaming MessagesPemrosesan batchHasil pencarianStreaming penolakanDukungan multibahasaEmbeddings
Alat
IkhtisarCara kerja penggunaan alatTutorial: Membangun agen pengguna alatMendefinisikan alatMenangani panggilan alatPenggunaan alat paralelTool Runner (SDK)Penggunaan alat ketatPenggunaan alat dengan caching promptAlat serverPemecahan masalahAlat pencarian webAlat pengambilan webAlat eksekusi kodeAlat penasihatAlat memoriAlat BashAlat penggunaan komputerAlat editor teks
Infrastruktur alat
Referensi alatMengelola konteks alatKombinasi alatPencarian alatPemanggilan alat terprogramStreaming alat terperinci
Manajemen konteks
Jendela konteksPemadatanPengeditan konteksCaching promptPesan sistem di tengah percakapanMembangun mode orkestrasiDiagnostik cache (beta)Penghitungan token
Bekerja dengan file
Files APIDukungan PDFGambar dan visi
Skills
IkhtisarMulai cepatPraktik terbaikSkills untuk enterpriseSkills di API
MCP
Server MCP jarak jauhKonektor MCP
Claude di platform cloud
Amazon BedrockAmazon Bedrock (lama)Claude Platform di AWSMicrosoft FoundryVertex AI

Log in
Jendela konteks
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Messages/Manajemen konteks

Jendela konteks



Fitur ini memenuhi syarat untuk Zero Data Retention (ZDR). Ketika organisasi Anda memiliki pengaturan ZDR, data yang dikirim melalui fitur ini tidak disimpan setelah respons API dikembalikan.

Seiring percakapan berkembang, Anda pada akhirnya akan mendekati batas jendela konteks. Panduan ini menjelaskan cara kerja jendela konteks dan memperkenalkan strategi untuk mengelolanya secara efektif.

Untuk percakapan yang berjalan lama dan alur kerja agentik, server-side compaction adalah strategi utama untuk manajemen konteks. Untuk kebutuhan yang lebih khusus, context editing menawarkan strategi tambahan seperti pembersihan hasil alat dan pembersihan blok pemikiran.

Memahami jendela konteks

"Context window" (jendela konteks) mengacu pada semua teks yang dapat direferensikan oleh model bahasa saat menghasilkan respons, termasuk respons itu sendiri. Ini berbeda dari korpus data besar tempat model bahasa dilatih, dan sebaliknya mewakili "memori kerja" untuk model. Jendela konteks yang lebih besar memungkinkan model menangani prompt yang lebih kompleks dan panjang, tetapi lebih banyak konteks tidak secara otomatis lebih baik. Seiring jumlah token bertambah, akurasi dan kemampuan mengingat menurun, fenomena yang dikenal sebagai context rot. Hal ini membuat kurasi apa yang ada dalam konteks sama pentingnya dengan seberapa banyak ruang yang tersedia.

Claude mencapai hasil terbaik di kelasnya pada benchmark pengambilan konteks panjang seperti MRCR dan GraphWalks, tetapi peningkatan ini bergantung pada apa yang ada dalam konteks, bukan hanya seberapa banyak yang muat.



Untuk pembahasan mendalam tentang mengapa konteks panjang mengalami penurunan dan cara merekayasa solusinya, lihat Effective context engineering.

Diagram di bawah ini mengilustrasikan perilaku jendela konteks standar untuk permintaan API1:

Diagram jendela konteks

1Untuk antarmuka chat, seperti claude.ai, jendela konteks juga dapat diatur dengan sistem bergulir "first in, first out" (masuk pertama, keluar pertama).

  • Akumulasi token progresif: Seiring percakapan berlanjut melalui giliran, setiap pesan pengguna dan respons asisten terakumulasi dalam jendela konteks. Giliran sebelumnya dipertahankan sepenuhnya.
  • Pola pertumbuhan linear: Penggunaan konteks tumbuh secara linear dengan setiap giliran, dengan giliran sebelumnya dipertahankan sepenuhnya.
  • Kapasitas jendela konteks: Total jendela konteks yang tersedia (hingga 1 juta token) mewakili kapasitas maksimum untuk menyimpan riwayat percakapan dan menghasilkan output baru dari Claude.
  • Alur input-output: Setiap giliran terdiri dari:
    • Fase input: Berisi semua riwayat percakapan sebelumnya ditambah pesan pengguna saat ini
    • Fase output: Menghasilkan respons teks yang menjadi bagian dari input di masa mendatang

Jendela konteks dengan pemikiran diperpanjang

Saat menggunakan pemikiran diperpanjang, semua token input dan output, termasuk token yang digunakan untuk berpikir, dihitung terhadap batas jendela konteks, dengan beberapa nuansa dalam situasi multi-giliran.

Token anggaran pemikiran adalah subset dari parameter max_tokens Anda, ditagih sebagai token output, dan dihitung terhadap batas laju. Dengan adaptive thinking, Claude secara dinamis menentukan alokasi pemikirannya, sehingga penggunaan token pemikiran aktual dapat bervariasi per permintaan.

Namun, blok pemikiran sebelumnya secara otomatis dihapus dari perhitungan jendela konteks oleh API Claude dan bukan bagian dari riwayat percakapan yang "dilihat" model untuk giliran berikutnya, sehingga mempertahankan kapasitas token untuk konten percakapan yang sebenarnya.

Diagram di bawah ini menunjukkan manajemen token khusus saat pemikiran diperpanjang diaktifkan:

Diagram jendela konteks dengan pemikiran diperpanjang

  • Penghapusan pemikiran diperpanjang: Blok pemikiran diperpanjang (ditampilkan dalam warna abu-abu gelap) dihasilkan selama fase output setiap giliran, tetapi tidak dibawa ke depan sebagai token input untuk giliran berikutnya. Anda tidak perlu menghapus blok pemikiran sendiri. API Claude secara otomatis melakukan ini untuk Anda jika Anda mengirimkannya kembali.
  • Detail implementasi teknis:
    • API secara otomatis mengecualikan blok pemikiran dari giliran sebelumnya saat Anda mengirimkannya kembali sebagai bagian dari riwayat percakapan.
    • Token pemikiran diperpanjang ditagih sebagai token output hanya sekali, selama pembuatannya.
    • Perhitungan jendela konteks efektif menjadi: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
    • Token pemikiran mencakup blok thinking.

Arsitektur ini efisien dalam penggunaan token dan memungkinkan penalaran ekstensif tanpa pemborosan token, karena blok pemikiran dapat memiliki panjang yang substansial.



Anda dapat membaca lebih lanjut tentang jendela konteks dan pemikiran diperpanjang di panduan pemikiran diperpanjang.

Jendela konteks dengan pemikiran diperpanjang dan penggunaan alat

Diagram di bawah ini mengilustrasikan manajemen token jendela konteks saat menggabungkan pemikiran diperpanjang dengan penggunaan alat:

Diagram jendela konteks dengan pemikiran diperpanjang dan penggunaan alat

  1. 1

    Arsitektur giliran pertama

    • Komponen input: Konfigurasi alat dan pesan pengguna
    • Komponen output: Pemikiran diperpanjang + respons teks + permintaan penggunaan alat
    • Perhitungan token: Semua komponen input dan output dihitung terhadap jendela konteks, dan semua komponen output ditagih sebagai token output.
  2. 2

    Penanganan hasil alat (giliran 2)

    • Komponen input: Setiap blok di giliran pertama dan tool_result. Blok pemikiran diperpanjang harus dikembalikan bersama dengan hasil alat yang sesuai. Ini adalah satu-satunya kasus di mana Anda harus mengembalikan blok pemikiran.
    • Komponen output: Setelah hasil alat dikirimkan kembali ke Claude, Claude merespons hanya dengan teks (tidak ada pemikiran diperpanjang tambahan hingga pesan user berikutnya, kecuali interleaved thinking diaktifkan).
    • Perhitungan token: Semua komponen input dan output dihitung terhadap jendela konteks, dan semua komponen output ditagih sebagai token output.
  3. 3

    Giliran pengguna baru (giliran 3)

    • Komponen input: Semua input dan output dari giliran sebelumnya dibawa ke depan dengan pengecualian blok pemikiran, yang dapat dihapus sekarang karena Claude telah menyelesaikan seluruh siklus penggunaan alat. API akan secara otomatis menghapus blok pemikiran untuk Anda jika Anda mengirimkannya kembali, atau Anda bebas menghapusnya sendiri pada tahap ini. Di sinilah Anda juga akan menambahkan giliran user berikutnya.
    • Komponen output: Karena ada giliran user baru di luar siklus penggunaan alat, Claude menghasilkan blok pemikiran diperpanjang baru dan melanjutkan dari sana.
    • Perhitungan token: Token pemikiran sebelumnya secara otomatis dihapus dari perhitungan jendela konteks. Semua blok sebelumnya lainnya masih dihitung sebagai bagian dari jendela token, dan blok pemikiran di giliran assistant saat ini dihitung sebagai bagian dari jendela konteks.
  • Pertimbangan untuk penggunaan alat dengan pemikiran diperpanjang:
    • Saat mengirimkan hasil alat, seluruh blok pemikiran yang tidak dimodifikasi yang menyertai permintaan alat spesifik tersebut (termasuk bagian signature) harus disertakan.
    • Perhitungan jendela konteks efektif untuk pemikiran diperpanjang dengan penggunaan alat menjadi: context_window = input_tokens + current_turn_tokens.
    • Sistem menggunakan tanda tangan kriptografis untuk memverifikasi keaslian blok pemikiran. Kegagalan mempertahankan blok pemikiran selama penggunaan alat dapat merusak kontinuitas penalaran Claude. Oleh karena itu, jika Anda memodifikasi blok pemikiran, API akan mengembalikan error.


Model Claude 4 mendukung interleaved thinking, yang memungkinkan Claude berpikir di antara panggilan alat dan membuat penalaran yang lebih canggih setelah menerima hasil alat.

Untuk informasi lebih lanjut tentang menggunakan alat dengan pemikiran diperpanjang, lihat panduan pemikiran diperpanjang.

Pemilihan alat Claude dirancang untuk tetap andal dengan dokumen input yang besar — memilih alat yang tepat (atau dengan benar menahan diri) ketika percakapan mencakup 100K+ token konteks non-alat. Untuk mengurangi konteks yang dikonsumsi oleh alat itu sendiri, lihat Mengelola konteks alat, atau tunda definisi alat dengan tool search tool.

Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, dan Claude Sonnet 4.6 memiliki jendela konteks 1 juta token di API Claude, Amazon Bedrock, dan Vertex AI. Di Microsoft Foundry, Claude Opus 4.8 memiliki jendela konteks 200k token. Model Claude lainnya, termasuk Claude Sonnet 4.5 dan Sonnet 4 (tidak digunakan lagi), memiliki jendela konteks 200k token.

Claude Fable 5 dan Claude Mythos 5 (claude-fable-5 dan claude-mythos-5) memiliki jendela konteks 1 juta token di API Claude. Maksimum 1 juta juga merupakan default, dan satu permintaan dapat menghasilkan hingga 128k token output (max_tokens).

Satu permintaan dapat menyertakan hingga 600 gambar atau halaman PDF (100 untuk model dengan jendela konteks 200k token). Saat mengirim banyak gambar atau dokumen besar, Anda mungkin mendekati batas ukuran permintaan sebelum batas token.

Kesadaran konteks di Claude Sonnet 4.6, Sonnet 4.5, dan Haiku 4.5

Claude Sonnet 4.6, Claude Sonnet 4.5, dan Claude Haiku 4.5 memiliki fitur context awareness (kesadaran konteks). Kemampuan ini memungkinkan model-model ini melacak sisa jendela konteks mereka (yaitu, "anggaran token") sepanjang percakapan. Ini memungkinkan Claude menjalankan tugas dan mengelola konteks dengan lebih efektif dengan memahami berapa banyak ruang yang tersedia untuk bekerja. Claude dilatih untuk menggunakan konteks ini secara presisi, bertahan dalam tugas hingga akhir alih-alih menebak berapa banyak token yang tersisa. Bagi sebuah model, tidak memiliki kesadaran konteks seperti berkompetisi dalam acara memasak tanpa jam. Model yang sadar konteks mengubah hal ini dengan secara eksplisit menerima informasi tentang sisa konteks, sehingga mereka dapat memanfaatkan token yang tersedia secara maksimal.

Cara kerjanya:

Di awal percakapan, Claude menerima informasi tentang total jendela konteksnya:

<budget:token_budget>1000000</budget:token_budget>

Anggaran diatur ke 1 juta token (200k untuk model dengan jendela konteks yang lebih kecil).

Setelah setiap panggilan alat, Claude menerima pembaruan tentang kapasitas yang tersisa:

<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>

Kesadaran ini membantu Claude menentukan berapa banyak kapasitas yang tersisa untuk bekerja dan memungkinkan eksekusi yang lebih efektif pada tugas yang berjalan lama. Token gambar termasuk dalam anggaran ini.

Manfaat:

Kesadaran konteks sangat berharga untuk:

  • Sesi agen yang berjalan lama yang memerlukan fokus berkelanjutan
  • Alur kerja multi-jendela-konteks di mana transisi status penting
  • Tugas kompleks yang memerlukan manajemen token yang cermat


Untuk agen yang mencakup beberapa sesi, rancang artefak status Anda sehingga pemulihan konteks cepat saat sesi baru dimulai. Pola multi-sesi memory tool menjelaskan pendekatan konkret. Lihat juga Effective harnesses for long-running agents.

Untuk panduan prompting tentang memanfaatkan kesadaran konteks, lihat panduan praktik terbaik prompting.

Mengelola konteks dengan compaction

Jika percakapan Anda secara rutin mendekati batas jendela konteks, server-side compaction adalah pendekatan yang direkomendasikan. Compaction menyediakan peringkasan sisi server yang secara otomatis memadatkan bagian awal percakapan, memungkinkan percakapan yang berjalan lama melampaui batas konteks dengan upaya integrasi minimal. Fitur ini tersedia dalam versi beta untuk Claude Fable 5, Claude Mythos 5, Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, dan Claude Sonnet 4.6.

Untuk kebutuhan yang lebih khusus, context editing menawarkan strategi tambahan:

  • Pembersihan hasil alat - Bersihkan hasil alat lama dalam alur kerja agentik
  • Pembersihan blok pemikiran - Kelola blok pemikiran dengan pemikiran diperpanjang

Perilaku overflow jendela konteks

Pada model Claude 4.5 dan yang lebih baru, jika token input ditambah max_tokens melebihi ukuran jendela konteks, API menerima permintaan tersebut. Jika pembuatan kemudian mencapai batas jendela konteks, pembuatan berhenti dengan stop_reason: "model_context_window_exceeded". Pada model sebelumnya, API mengembalikan error validasi sebagai gantinya; aktifkan perilaku model_context_window_exceeded dengan header beta model-context-window-exceeded-2025-08-26. Lihat Menangani stop reason untuk detailnya.

Untuk tetap berada dalam batas jendela konteks, gunakan API penghitungan token untuk memperkirakan penggunaan token sebelum mengirim pesan ke Claude.

Lihat tabel perbandingan model untuk daftar ukuran jendela konteks berdasarkan model.

Langkah selanjutnya

Compaction

Strategi yang direkomendasikan untuk mengelola konteks dalam percakapan yang berjalan lama.

Context editing

Strategi yang lebih terperinci seperti pembersihan hasil alat dan pembersihan blok pemikiran.

Tabel perbandingan model

Lihat tabel perbandingan model untuk daftar ukuran jendela konteks dan harga token input / output berdasarkan model.


Ikhtisar pemikiran diperpanjang

Pelajari lebih lanjut tentang cara kerja pemikiran diperpanjang dan cara mengimplementasikannya bersama fitur lain seperti penggunaan alat dan caching prompt.

Was this page helpful?

  • Memahami jendela konteks
  • Jendela konteks dengan pemikiran diperpanjang
  • Jendela konteks dengan pemikiran diperpanjang dan penggunaan alat
  • Kesadaran konteks di Claude Sonnet 4.6, Sonnet 4.5, dan Haiku 4.5
  • Mengelola konteks dengan compaction
  • Perilaku overflow jendela konteks
  • Langkah selanjutnya