ジェイルブレイクとプロンプトインジェクションは、ユーザーがモデルの脆弱性を悪用するプロンプトを作成し、不適切なコンテンツを生成させようとする場合に発生します。Claudeはこのような攻撃に対して本質的に耐性がありますが、特に利用規約や利用ポリシーに違反する使用に対して、ガードレールを強化するための追加の手順を以下に示します。
有害性スクリーニング: Claude Haiku 3のような軽量モデルを使用して、ユーザー入力を事前にスクリーニングします。(注:プリフィルは非推奨であり、Claude Opus 4.6およびSonnet 4.5ではサポートされていません。)
入力バリデーション: ジェイルブレイクパターンのプロンプトをフィルタリングします。既知のジェイルブレイク言語を例として提供することで、LLMを使用して汎用的なバリデーションスクリーンを作成することもできます。
プロンプトエンジニアリング: 倫理的および法的な境界を強調するプロンプトを作成します。
Claudeのガードレールを回避しようとする悪用行為を繰り返すユーザーに対しては、回答を調整し、スロットリングやアカウント停止を検討してください。例えば、特定のユーザーが同じ種類の拒否を複数回トリガーした場合(例:「コンテンツフィルタリングポリシーにより出力がブロックされました」)、そのユーザーの行為が関連する利用ポリシーに違反していることを通知し、適切な措置を講じてください。
堅牢な保護のために戦略を組み合わせます。以下はツール使用を含むエンタープライズグレードの例です:
これらの戦略を重層的に組み合わせることで、ジェイルブレイクやプロンプトインジェクションに対する堅牢な防御を構築し、Claudeを活用したアプリケーションが最高水準の安全性とコンプライアンスを維持できるようにします。
Was this page helpful?