ジェイルブレイクとプロンプトインジェクションは、ユーザーがプロンプトを作成してモデルの脆弱性を悪用し、不適切なコンテンツを生成しようとする場合に発生します。Claudeは本来的にそのような攻撃に対して耐性がありますが、特に当社の利用規約または使用ポリシーに違反する使用に対して、ガードレールを強化するための追加的な手順を以下に示します。
有害性スクリーン: Claude Haiku 4.5のような軽量モデルを使用してユーザー入力を事前スクリーニングします。構造化出力を使用して、応答を単純な分類に制限します。
入力検証: ジェイルブレイクパターンのプロンプトをフィルタリングします。既知のジェイルブレイク言語を例として提供することで、LLMを使用して一般化された検証スクリーンを作成することもできます。
プロンプトエンジニアリング: 倫理的および法的境界を強調するプロンプトを作成します。
応答を調整し、Claudeのガードレールを回避しようとする虐待的な行動に繰り返し従事するユーザーをスロットリングまたはバンすることを検討してください。たとえば、特定のユーザーが同じ種類の拒否を複数回トリガーする場合(例:「出力はコンテンツフィルタリングポリシーによってブロックされました」)、ユーザーに彼らのアクションが関連する使用ポリシーに違反していることを伝え、それに応じて対応を取ってください。
堅牢な保護のための戦略を組み合わせます。ツール使用を含むエンタープライズグレードの例を以下に示します:
これらの戦略を重ねることで、ジェイルブレイクとプロンプトインジェクションに対する堅牢な防御を作成し、Claudeを搭載したアプリケーションが最高水準のセキュリティとコンプライアンスを維持することを保証します。
Was this page helpful?