Definisi alat dan blok tool_result yang terakumulasi mengonsumsi jendela konteks Anda. Agen yang berjalan lama dengan banyak alat atau banyak putaran dapat menghabiskan konteks yang tersedia sebelum tugas selesai. Empat pendekatan mengatasi ini di berbagai titik dalam pipeline.
Setiap pendekatan menargetkan sumber tekanan konteks yang berbeda. Pilih yang sesuai dengan kemana token Anda pergi.
| Pendekatan | Apa yang dikurangi | Kapan cocok | Pelajari lebih lanjut |
|---|---|---|---|
| Pencarian alat | Definisi alat dimuat di awal | Set alat besar (20+ alat) di mana sebagian besar alat tidak diperlukan setiap putaran | Alat pencarian alat |
| Pemanggilan alat terprogram | Roundtrip tool_result | Rantai pemanggilan alat yang dapat dieksekusi sebagai satu skrip | Pemanggilan alat terprogram |
| Penyimpanan prompt | Biaya token dari definisi alat yang diulang | Set alat stabil di seluruh banyak permintaan | Penggunaan alat dengan penyimpanan prompt |
| Pengeditan konteks | Blok tool_result lama dalam riwayat | Percakapan panjang di mana hasil awal tidak lagi relevan | Pengeditan konteks |
Pencarian alat membuat definisi alat tetap keluar dari jendela konteks sampai Claude memintanya. Alih-alih mengirim 50 skema alat di awal, Anda mengirim satu alat tool_search dan membiarkan Claude menemukan sisanya sesuai permintaan. Ini menukar sejumlah kecil latensi (satu putaran ekstra untuk mencari alat) dengan pengurangan besar dalam penggunaan konteks dasar.
Pemanggilan alat terprogram meruntuhkan urutan pemanggilan alat menjadi satu blok kode yang Claude tulis dan sandbox eksekusi kode Anthropic jalankan. Alih-alih lima roundtrip tool_use dan tool_result, Claude mengeluarkan satu skrip yang memanggil semua lima fungsi dari dalam sandbox. Hasil perantara tidak pernah memasuki riwayat percakapan.
Penyimpanan prompt tidak mengurangi jumlah token dalam konteks, tetapi mengurangi apa yang Anda bayar untuk mereka pada permintaan berikutnya. Jika definisi alat Anda stabil, simpan cache sekali dan gunakan kembali awalan cache di seluruh ribuan permintaan. Ini adalah pilihan yang tepat ketika set alat besar tetapi tetap.
Pengeditan konteks menghapus blok tool_result lama dari riwayat percakapan setelah mereka telah melayani tujuan mereka. Loop agen yang panjang mungkin menghasilkan ratusan hasil perantara yang berguna pada saat itu tetapi sekarang adalah beban mati. Pengeditan konteks memungkinkan Anda memangkasnya tanpa memulai ulang percakapan.
Pendekatan-pendekatan ini dapat digabungkan. Agen yang berjalan lama mungkin menggunakan pencarian alat untuk membuat set alat tetap ramping, penyimpanan prompt untuk mengamortisasi biaya definisi yang tersisa, dan pengeditan konteks untuk memangkas hasil yang sudah usang saat percakapan berkembang. Masing-masing menyelesaikan bagian berbeda dari masalah, jadi tidak ada konflik dalam menggunakannya bersama.
Titik awal yang masuk akal untuk agen volume tinggi:
Muat definisi alat sesuai permintaan alih-alih di awal.
Runtuhkan rantai pemanggilan alat menjadi satu skrip yang dapat dieksekusi.
Simpan cache definisi alat di seluruh permintaan untuk mengurangi biaya token.
Pangkas hasil alat yang sudah usang dari percakapan yang berjalan lama.
Was this page helpful?