Perkuat penjaga

Mitigasi jailbreak dan injeksi prompt

Pelajari cara memperkuat perlindungan terhadap jailbreak dan injeksi prompt dengan strategi validasi input, rekayasa prompt, dan pemantauan berkelanjutan.

Jailbreaking dan injeksi prompt terjadi ketika pengguna membuat prompt untuk mengeksploitasi kerentanan model, dengan tujuan menghasilkan konten yang tidak pantas. Meskipun Claude secara inheren tahan terhadap serangan semacam itu, berikut adalah langkah-langkah tambahan untuk memperkuat perlindungan Anda, khususnya terhadap penggunaan yang melanggar Syarat Layanan atau Kebijakan Penggunaan kami.

Claude jauh lebih tahan terhadap jailbreaking dibandingkan LLM utama lainnya, berkat metode pelatihan canggih seperti Constitutional AI.

Layar keamanan: Gunakan model ringan seperti Claude Haiku 3 untuk pra-pemeriksaan input pengguna. (Catatan: prefilling sudah usang dan tidak didukung di Claude Opus 4.6 dan Sonnet 4.5.)
Validasi input: Filter prompt untuk pola jailbreaking. Anda bahkan dapat menggunakan LLM untuk membuat layar validasi yang digeneralisasi dengan memberikan bahasa jailbreaking yang diketahui sebagai contoh.
Rekayasa prompt: Buat prompt yang menekankan batas-batas etika dan hukum.

Sesuaikan respons dan pertimbangkan pembatasan laju atau pelarangan pengguna yang berulang kali terlibat dalam perilaku kasar yang mencoba melewati perlindungan Claude. Misalnya, jika pengguna tertentu memicu jenis penolakan yang sama berkali-kali (misalnya, "output diblokir oleh kebijakan penyaringan konten"), beri tahu pengguna bahwa tindakan mereka melanggar kebijakan penggunaan yang relevan dan ambil tindakan yang sesuai.

Pemantauan berkelanjutan: Secara teratur analisis output untuk tanda-tanda jailbreaking. Gunakan pemantauan ini untuk secara iteratif menyempurnakan prompt dan strategi validasi Anda.

Lanjutan: Rantai perlindungan

Gabungkan strategi untuk perlindungan yang kuat. Berikut adalah contoh tingkat perusahaan dengan penggunaan alat:

Dengan melapisi strategi-strategi ini, Anda membuat pertahanan yang kuat terhadap jailbreaking dan injeksi prompt, memastikan aplikasi berbasis Claude Anda mempertahankan standar keamanan dan kepatuhan tertinggi.

Was this page helpful?

Contoh: Layar keamanan untuk moderasi konten

Contoh: Prompt sistem etis untuk chatbot perusahaan

Lanjutan: Rantai perlindungan

Contoh: Perlindungan berlapis untuk chatbot penasihat keuangan

Contoh: Layar keamanan untuk moderasi konten

Contoh: Prompt sistem etis untuk chatbot perusahaan

Lanjutan: Rantai perlindungan

Contoh: Perlindungan berlapis untuk chatbot penasihat keuangan