Claude Opus 4.8 dibangun untuk pengodean agentik yang kompleks dan pekerjaan enterprise. Model ini dibangun di atas Claude Opus 4.7. Halaman ini merangkum semua yang baru pada saat peluncuran, termasuk "fast mode" (mode cepat, pratinjau riset di Claude API) dan panjang prompt minimum yang dapat di-cache yang lebih rendah, yaitu 1.024 token.
| Model | ID model API | Deskripsi |
|---|---|---|
| Claude Opus 4.8 | claude-opus-4-8 | Untuk pengodean agentik yang kompleks dan pekerjaan enterprise |
Claude Opus 4.8 mendukung jendela konteks 1 juta token secara default di Claude API, Amazon Bedrock, Google Cloud, dan Microsoft Foundry, 128k token output maksimum, adaptive thinking, dan kumpulan alat serta fitur platform yang sama dengan Claude Opus 4.7.
Untuk harga dan spesifikasi lengkap, lihat ikhtisar model.
Claude Opus 4.8 menerima pesan role: "system" segera setelah giliran pengguna dalam array messages (tunduk pada aturan penempatan). Ini memungkinkan Anda menambahkan instruksi yang diperbarui di kemudian hari dalam percakapan yang berjalan lama tanpa menyatakan ulang prompt sistem secara lengkap. Memperbarui instruksi dengan cara ini mempertahankan hit prompt cache pada giliran sebelumnya dan mengurangi biaya input pada loop agentik. Tidak diperlukan header beta. Lihat Pesan sistem di tengah percakapan untuk detail penggunaan.
Objek stop_details pada respons penolakan (tersedia sejak Claude Opus 4.7) kini didokumentasikan secara publik. Ketika Claude menolak untuk menyelesaikan permintaan, objek ini menjelaskan kategori penolakan, sebagai tambahan dari stop reason refusal yang sudah ada. Aplikasi Anda dapat menggunakannya untuk membedakan berbagai kelas permintaan yang ditolak dan mengarahkan pengguna ke langkah berikutnya yang tepat. Tidak diperlukan header beta. Lihat Penolakan dan fallback untuk daftar kategori dan Stop reason dan fallback untuk panduan penanganan.
Default parameter effort pada Claude Opus 4.8 adalah high di semua permukaan, termasuk Claude API dan Claude Code. Jika Anda mengatur effort secara eksplisit saat ini, pengaturan Anda tidak berubah. Lihat Effort untuk panduan per level.
Fast mode kini tersedia untuk Claude Opus 4.8 sebagai pratinjau riset di Claude API. Atur speed: "fast" dengan header beta fast-mode-2026-02-01 untuk mendapatkan hingga 2,5x lebih banyak token output per detik dari model yang sama dengan harga premium. Lihat Fast mode untuk akses, model yang didukung, dan harga.
Panjang prompt minimum yang dapat di-cache pada Claude Opus 4.8 adalah 1.024 token, turun dari 2.048 token pada Claude Opus 4.7. Prompt yang terlalu pendek untuk di-cache pada Claude Opus 4.7 kini dapat membuat entri cache tanpa perubahan kode. Lihat Caching prompt untuk minimum per model.
Batasan ini tidak berubah dari Claude Opus 4.7, sehingga kode yang sudah berjalan di Claude Opus 4.7 tidak memerlukan perubahan. Batasan ini hanya berlaku untuk Messages API. Claude Managed Agents tidak terpengaruh.
Mengatur temperature, top_p, atau top_k ke nilai non-default akan mengembalikan error 400 pada Claude Opus 4.8, sama seperti pada Claude Opus 4.7. Hilangkan parameter ini dan gunakan prompting untuk memandu perilaku model.
Seperti Claude Opus 4.7, Claude Opus 4.8 tidak mendukung anggaran pemikiran diperpanjang. Mengatur thinking: {type: "enabled", budget_tokens: N} akan mengembalikan error 400.
Diff berikut memperbarui permintaan yang ditulis untuk Claude Opus 4.6 atau sebelumnya agar dapat berjalan di Claude Opus 4.8. Baris yang dihapus (-) mengatur ID model lama dan anggaran thinking manual yang ditolak oleh Claude Opus 4.8. Baris yang ditambahkan (+) mengatur ID model baru, beralih ke adaptive thinking, dan mengontrol kedalaman thinking dengan parameter effort, yang diteruskan dalam field output_config tingkat atas. Model menentukan kapan dan seberapa banyak berpikir pada setiap giliran. Jika Anda menghapus field thinking sepenuhnya, permintaan berjalan tanpa thinking:
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
- model="claude-opus-4-6",
+ model="claude-opus-4-8",
max_tokens=16000,
- thinking={"type": "enabled", "budget_tokens": 10000},
+ thinking={"type": "adaptive"},
+ output_config={"effort": "high"},
messages=[
{
"role": "user",
"content": "Explain why the sum of two even numbers is always even.",
}
],
)Dibandingkan dengan Claude Opus 4.7, Claude Opus 4.8 menargetkan peningkatan perilaku dalam:
Dengan adaptive thinking diaktifkan, Claude Opus 4.8 memicu penalaran hanya ketika model menentukan bahwa giliran tersebut membutuhkannya. Pada pencarian sederhana dan langkah agentik singkat, model merespons secara langsung. Pada masalah multi-langkah yang kompleks, model bernalar sebelum menjawab. Ini mengurangi token thinking yang terbuang pada beban kerja bimodal dibandingkan dengan Claude Opus 4.7 pada level effort yang sama. Seperti pada Claude Opus 4.7, thinking dinonaktifkan kecuali Anda secara eksplisit mengatur thinking: {type: "adaptive"} dalam permintaan Anda.
Ini bukan perubahan yang merusak API tetapi mungkin memerlukan pembaruan prompt. Lihat Migrasi ke Claude Opus 4.8 untuk panduan lengkap.
medium memungkinkan sedikit lebih banyak thinking, high sedikit lebih sedikit, dan xhigh jauh lebih banyak. Jika Anda telah menyetel level effort terhadap Claude Opus 4.7, tetapkan ulang baseline biaya dan latensi pada level tersebut sebelum menyesuaikannya.Untuk instruksi migrasi langkah demi langkah dan daftar periksa migrasi lengkap, lihat Migrasi ke Claude Opus 4.8. Jika Anda melakukan upgrade dari Claude Opus 4.6 atau sebelumnya, terapkan juga langkah migrasi Claude Opus 4.7. Langkah-langkah tersebut mencakup perubahan yang merusak yang tidak dicakup oleh upgrade Claude Opus 4.8 saja. Jika Anda menggunakan Claude Code atau Agent SDK, skill Claude API dapat menerapkan langkah-langkah migrasi ini ke basis kode Anda secara otomatis.
Panduan untuk migrasi ke model Claude terbaru dari versi Claude sebelumnya.
Kontrol berapa banyak token yang digunakan Claude saat merespons dengan parameter effort, menyeimbangkan antara kelengkapan respons dan efisiensi token.
Biarkan Claude secara dinamis menentukan kapan dan seberapa banyak menggunakan pemikiran diperpanjang dengan mode adaptive thinking.
Bagaimana pesan sistem di tengah percakapan mempertahankan cache hit.
Pelajari apa arti setiap nilai stop_reason dan cara menangani pemotongan, penggunaan alat, giliran yang dijeda, dan penolakan dalam aplikasi Anda.
Dapatkan hingga 2,5x lebih banyak token output per detik dari model Claude Opus.
Was this page helpful?