Loading...
    • Panduan Pengembang
    • Referensi API
    • MCP
    • Sumber daya
    • Catatan rilis
    Search...
    ⌘K
    Langkah pertama
    Pengenalan ClaudeMulai cepat
    Model & harga
    Ikhtisar modelMemilih modelYang baru di Claude 4.6Panduan migrasiPenghentian modelHarga
    Bangun dengan Claude
    Ikhtisar fiturMenggunakan Messages APIMenangani alasan berhentiPraktik terbaik prompting
    Manajemen konteks
    Jendela konteksKompresiPengeditan konteks
    Kemampuan
    Caching promptPemikiran diperpanjangPemikiran adaptifUpayaStreaming pesanPemrosesan batchKutipanDukungan multibahasaPenghitungan tokenEmbeddingsVisiDukungan PDFFiles APIHasil pencarianOutput terstruktur
    Alat
    IkhtisarCara mengimplementasikan penggunaan alatStreaming alat berbutir halusAlat BashAlat eksekusi kodePemanggilan alat terprogramAlat penggunaan komputerAlat editor teksAlat pengambilan webAlat pencarian webAlat memoriAlat pencarian alat
    Keterampilan Agen
    IkhtisarMulai cepatPraktik terbaikKeterampilan untuk perusahaanMenggunakan Keterampilan dengan API
    Agent SDK
    IkhtisarMulai cepatTypeScript SDKTypeScript V2 (pratinjau)Python SDKPanduan migrasi
    MCP di API
    Konektor MCPServer MCP jarak jauh
    Claude di platform pihak ketiga
    Amazon BedrockMicrosoft FoundryVertex AI
    Rekayasa prompt
    IkhtisarGenerator promptGunakan template promptPenyempurna promptJadilah jelas dan langsungGunakan contoh (prompting multishot)Biarkan Claude berpikir (CoT)Gunakan tag XMLBerikan Claude peran (prompt sistem)Rantai prompt kompleksTips konteks panjangTips pemikiran diperpanjang
    Uji & evaluasi
    Tentukan kriteria kesuksesanKembangkan kasus ujiMenggunakan alat evaluasiMengurangi latensi
    Perkuat penjaga
    Kurangi halusinasiTingkatkan konsistensi outputMitigasi jailbreakStreaming penolakanKurangi kebocoran promptJaga Claude tetap dalam karakter
    Administrasi dan pemantauan
    Ikhtisar Admin APIResidensi dataRuang kerjaAPI penggunaan dan biayaClaude Code Analytics APIRetensi data nol
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Manajemen konteks

    Jendela konteks

    Pelajari cara mengelola jendela konteks saat percakapan berkembang, termasuk strategi kompresi dan pengeditan konteks.

    Was this page helpful?

    • Memahami jendela konteks
    • Jendela konteks dengan pemikiran yang diperpanjang
    • Jendela konteks dengan pemikiran yang diperpanjang dan penggunaan alat
    • Jendela konteks token 1M
    • Kesadaran konteks di Claude Sonnet 4.5 dan Haiku 4.5
    • Mengelola konteks dengan kompresi
    • Manajemen jendela konteks dengan model Claude yang lebih baru
    • Langkah berikutnya

    Seiring percakapan berkembang, Anda pada akhirnya akan mendekati batas jendela konteks. Panduan ini menjelaskan cara kerja jendela konteks dan memperkenalkan strategi untuk mengelolanya secara efektif.

    Untuk percakapan jangka panjang dan alur kerja agentic, kompresi sisi server adalah strategi utama untuk manajemen konteks. Untuk kebutuhan yang lebih khusus, pengeditan konteks menawarkan strategi tambahan seperti pembersihan hasil alat dan pembersihan blok pemikiran.

    Memahami jendela konteks

    "Jendela konteks" mengacu pada semua teks yang dapat direferensikan model bahasa saat menghasilkan respons, termasuk respons itu sendiri. Ini berbeda dari corpus data besar tempat model bahasa dilatih, dan sebaliknya mewakili "memori kerja" untuk model. Jendela konteks yang lebih besar memungkinkan model menangani prompt yang lebih kompleks dan panjang. Jendela konteks yang lebih kecil dapat membatasi kemampuan model untuk mempertahankan koherensi selama percakapan yang diperpanjang.

    Diagram di bawah mengilustrasikan perilaku jendela konteks standar untuk permintaan API1:

    Diagram jendela konteks

    1Untuk antarmuka obrolan, seperti untuk claude.ai, jendela konteks juga dapat diatur pada sistem "masuk pertama, keluar pertama" yang bergulir.

    • Akumulasi token progresif: Seiring percakapan maju melalui giliran, setiap pesan pengguna dan respons asisten terakumulasi dalam jendela konteks. Giliran sebelumnya dipertahankan sepenuhnya.
    • Pola pertumbuhan linier: Penggunaan konteks tumbuh secara linier dengan setiap giliran, dengan giliran sebelumnya dipertahankan sepenuhnya.
    • Kapasitas token 200K: Jendela konteks total yang tersedia (200.000 token) mewakili kapasitas maksimum untuk menyimpan riwayat percakapan dan menghasilkan output baru dari Claude.
    • Aliran input-output: Setiap giliran terdiri dari:
      • Fase input: Berisi semua riwayat percakapan sebelumnya ditambah pesan pengguna saat ini
      • Fase output: Menghasilkan respons teks yang menjadi bagian dari input masa depan

    Jendela konteks dengan pemikiran yang diperpanjang

    Saat menggunakan pemikiran yang diperpanjang, semua token input dan output, termasuk token yang digunakan untuk pemikiran, dihitung terhadap batas jendela konteks, dengan beberapa nuansa dalam situasi multi-giliran.

    Token anggaran pemikiran adalah subset dari parameter max_tokens Anda, ditagih sebagai token output, dan dihitung terhadap batas laju. Dengan pemikiran adaptif, Claude secara dinamis memutuskan alokasi pemikirannya, jadi penggunaan token pemikiran aktual dapat bervariasi per permintaan.

    Namun, blok pemikiran sebelumnya secara otomatis dilepas dari perhitungan jendela konteks oleh API Claude dan bukan bagian dari riwayat percakapan yang "dilihat" model untuk giliran berikutnya, melestarikan kapasitas token untuk konten percakapan aktual.

    Diagram di bawah mendemonstrasikan manajemen token khusus saat pemikiran yang diperpanjang diaktifkan:

    Diagram jendela konteks dengan pemikiran yang diperpanjang

    • Melepas pemikiran yang diperpanjang: Blok pemikiran yang diperpanjang (ditampilkan dalam abu-abu gelap) dihasilkan selama fase output setiap giliran, tetapi tidak dibawa maju sebagai token input untuk giliran berikutnya. Anda tidak perlu melepas blok pemikiran sendiri. API Claude secara otomatis melakukan ini untuk Anda jika Anda meneruskannya kembali.
    • Detail implementasi teknis:
      • API secara otomatis mengecualikan blok pemikiran dari giliran sebelumnya saat Anda meneruskannya kembali sebagai bagian dari riwayat percakapan.
      • Token pemikiran yang diperpanjang ditagih sebagai token output hanya sekali, selama generasinya.
      • Perhitungan jendela konteks yang efektif menjadi: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
      • Token pemikiran mencakup blok thinking dan blok redacted_thinking.

    Arsitektur ini hemat token dan memungkinkan penalaran ekstensif tanpa pemborosan token, karena blok pemikiran dapat memiliki panjang yang substansial.

    Anda dapat membaca lebih lanjut tentang jendela konteks dan pemikiran yang diperpanjang dalam panduan pemikiran yang diperpanjang.

    Jendela konteks dengan pemikiran yang diperpanjang dan penggunaan alat

    Diagram di bawah mengilustrasikan manajemen token jendela konteks saat menggabungkan pemikiran yang diperpanjang dengan penggunaan alat:

    Diagram jendela konteks dengan pemikiran yang diperpanjang dan penggunaan alat

    1. 1

      Arsitektur giliran pertama

      • Komponen input: Konfigurasi alat dan pesan pengguna
      • Komponen output: Pemikiran yang diperpanjang + respons teks + permintaan penggunaan alat
      • Perhitungan token: Semua komponen input dan output dihitung terhadap jendela konteks, dan semua komponen output ditagih sebagai token output.
    2. 2

      Penanganan hasil alat (giliran 2)

      • Komponen input: Setiap blok di giliran pertama serta tool_result. Blok pemikiran yang diperpanjang harus dikembalikan dengan hasil alat yang sesuai. Ini adalah satu-satunya kasus di mana Anda harus mengembalikan blok pemikiran.
      • Komponen output: Setelah hasil alat telah diteruskan kembali ke Claude, Claude akan merespons dengan hanya teks (tidak ada pemikiran yang diperpanjang tambahan sampai pesan user berikutnya).
      • Perhitungan token: Semua komponen input dan output dihitung terhadap jendela konteks, dan semua komponen output ditagih sebagai token output.
    3. 3

      Langkah Ketiga

      • Semua input dan output dari giliran sebelumnya dibawa maju dengan pengecualian blok pemikiran, yang dapat dijatuhkan sekarang bahwa Claude telah menyelesaikan seluruh siklus penggunaan alat. API akan secara otomatis melepas blok pemikiran untuk Anda jika Anda meneruskannya kembali, atau Anda dapat merasa bebas untuk melepasnya sendiri pada tahap ini. Ini juga di mana Anda akan menambahkan giliran berikutnya.
    • Pertimbangan untuk penggunaan alat dengan pemikiran yang diperpanjang:
      • Saat memposting hasil alat, seluruh blok pemikiran yang tidak dimodifikasi yang menyertai permintaan alat spesifik itu (termasuk bagian tanda tangan/redaksi) harus disertakan.
      • Perhitungan jendela konteks yang efektif untuk pemikiran yang diperpanjang dengan penggunaan alat menjadi: context_window = input_tokens + current_turn_tokens.
      • Sistem menggunakan tanda tangan kriptografi untuk memverifikasi keaslian blok pemikiran. Gagal mempertahankan blok pemikiran selama penggunaan alat dapat mengganggu kontinuitas penalaran Claude. Dengan demikian, jika Anda memodifikasi blok pemikiran, API akan mengembalikan kesalahan.

    Model Claude 4 mendukung pemikiran yang disisipi, yang memungkinkan Claude untuk berpikir di antara panggilan alat dan membuat penalaran yang lebih canggih setelah menerima hasil alat.

    Claude Sonnet 3.7 tidak mendukung pemikiran yang disisipi, jadi tidak ada penyisipan pemikiran yang diperpanjang dan panggilan alat tanpa giliran pengguna non-tool_result di antara.

    Untuk informasi lebih lanjut tentang menggunakan alat dengan pemikiran yang diperpanjang, lihat panduan pemikiran yang diperpanjang.

    Jendela konteks token 1M

    Claude Opus 4.6, Sonnet 4.5, dan Sonnet 4 mendukung jendela konteks token 1 juta. Jendela konteks yang diperpanjang ini memungkinkan Anda memproses dokumen yang jauh lebih besar, mempertahankan percakapan yang lebih lama, dan bekerja dengan basis kode yang lebih ekstensif.

    Jendela konteks token 1M saat ini dalam beta untuk organisasi dalam tingkat penggunaan 4 dan organisasi dengan batas laju kustom. Jendela konteks token 1M hanya tersedia untuk Claude Opus 4.6, Sonnet 4.5, dan Sonnet 4.

    Untuk menggunakan jendela konteks token 1M, sertakan header beta context-1m-2025-08-07 dalam permintaan API Anda:

    Pertimbangan penting:

    • Status beta: Ini adalah fitur beta yang dapat berubah. Fitur dan harga dapat dimodifikasi atau dihapus dalam rilis mendatang.
    • Persyaratan tingkat penggunaan: Jendela konteks token 1M tersedia untuk organisasi dalam tingkat penggunaan 4 dan organisasi dengan batas laju kustom. Organisasi tingkat lebih rendah harus maju ke tingkat penggunaan 4 untuk mengakses fitur ini.
    • Ketersediaan: Jendela konteks token 1M saat ini tersedia di Claude API, Microsoft Foundry, Amazon Bedrock, dan Google Cloud's Vertex AI.
    • Harga: Permintaan yang melebihi token 200K secara otomatis ditagih dengan tarif premium (input 2x, harga output 1,5x). Lihat dokumentasi harga untuk detail.
    • Batas laju: Permintaan konteks panjang memiliki batas laju khusus. Lihat dokumentasi batas laju untuk detail.
    • Pertimbangan multimodal: Saat memproses sejumlah besar gambar atau pdf, perhatikan bahwa file dapat bervariasi dalam penggunaan token. Saat memasangkan prompt besar dengan sejumlah besar gambar, Anda mungkin mencapai batas ukuran permintaan.

    Kesadaran konteks di Claude Sonnet 4.5 dan Haiku 4.5

    Claude Sonnet 4.5 dan Claude Haiku 4.5 menampilkan kesadaran konteks. Kemampuan ini memungkinkan model ini melacak jendela konteks yang tersisa (yaitu "anggaran token") di seluruh percakapan. Ini memungkinkan Claude untuk menjalankan tugas dan mengelola konteks lebih efektif dengan memahami berapa banyak ruang yang dimilikinya untuk bekerja. Claude dilatih untuk menggunakan konteks ini dengan tepat, bertahan dalam tugas sampai akhir daripada menebak berapa banyak token yang tersisa. Bagi model, kurangnya kesadaran konteks seperti berkompetisi dalam acara memasak tanpa jam. Model Claude 4.5 mengubah ini dengan secara eksplisit menginformasikan model tentang konteks yang tersisa, sehingga dapat memanfaatkan token yang tersedia secara maksimal.

    Cara kerjanya:

    Di awal percakapan, Claude menerima informasi tentang jendela konteks totalnya:

    <budget:token_budget>200000</budget:token_budget>

    Anggaran diatur ke token 200K (standar), token 500K (claude.ai Enterprise), atau token 1M (beta, untuk organisasi yang memenuhi syarat).

    Setelah setiap panggilan alat, Claude menerima pembaruan tentang kapasitas yang tersisa:

    <system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

    Kesadaran ini membantu Claude menentukan berapa banyak kapasitas yang tersisa untuk pekerjaan dan memungkinkan eksekusi yang lebih efektif pada tugas jangka panjang. Token gambar disertakan dalam anggaran ini.

    Manfaat:

    Kesadaran konteks sangat berharga untuk:

    • Sesi agen jangka panjang yang memerlukan fokus berkelanjutan
    • Alur kerja multi-jendela-konteks di mana transisi status penting
    • Tugas kompleks yang memerlukan manajemen token yang cermat

    Untuk panduan prompt tentang memanfaatkan kesadaran konteks, lihat panduan praktik terbaik prompt.

    Mengelola konteks dengan kompresi

    Jika percakapan Anda secara teratur mendekati batas jendela konteks, kompresi sisi server adalah pendekatan yang direkomendasikan. Kompresi menyediakan peringkasan sisi server yang secara otomatis mengondensasi bagian awal percakapan, memungkinkan percakapan jangka panjang melampaui batas konteks dengan kerja integrasi minimal. Ini saat ini tersedia dalam beta untuk Claude Opus 4.6.

    Untuk kebutuhan yang lebih khusus, pengeditan konteks menawarkan strategi tambahan:

    • Pembersihan hasil alat - Hapus hasil alat lama dalam alur kerja agentic
    • Pembersihan blok pemikiran - Kelola blok pemikiran dengan pemikiran yang diperpanjang

    Manajemen jendela konteks dengan model Claude yang lebih baru

    Model Claude yang lebih baru (dimulai dengan Claude Sonnet 3.7) mengembalikan kesalahan validasi saat token prompt dan output melebihi jendela konteks, daripada secara diam-diam memotong. Perubahan ini memberikan perilaku yang lebih dapat diprediksi tetapi memerlukan manajemen token yang lebih hati-hati.

    Gunakan API penghitungan token untuk memperkirakan penggunaan token sebelum mengirim pesan ke Claude. Ini membantu Anda merencanakan dan tetap dalam batas jendela konteks.

    Lihat tabel perbandingan model untuk daftar ukuran jendela konteks menurut model.

    Langkah berikutnya

    Kompresi

    Strategi yang direkomendasikan untuk mengelola konteks dalam percakapan jangka panjang.

    Pengeditan konteks

    Strategi berbutir halus seperti pembersihan hasil alat dan pembersihan blok pemikiran.

    Tabel perbandingan model

    Lihat tabel perbandingan model untuk daftar ukuran jendela konteks dan harga token input / output menurut model.

    Komponen input:
    User
  1. Komponen output: Karena ada giliran User baru di luar siklus penggunaan alat, Claude akan menghasilkan blok pemikiran yang diperpanjang baru dan melanjutkan dari sana.
  2. Perhitungan token: Token pemikiran sebelumnya secara otomatis dilepas dari perhitungan jendela konteks. Semua blok sebelumnya lainnya masih dihitung sebagai bagian dari jendela token, dan blok pemikiran di giliran Assistant saat ini dihitung sebagai bagian dari jendela konteks.
  3. curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: context-1m-2025-08-07" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {"role": "user", "content": "Process this large document..."}
        ]
      }'
    Gambaran umum pemikiran yang diperpanjang

    Pelajari lebih lanjut tentang cara kerja pemikiran yang diperpanjang dan cara mengimplementasikannya bersama fitur lain seperti penggunaan alat dan penyimpanan prompt.