Loading...
  • ビルド
  • 管理
  • モデルと料金
  • クライアントSDK
  • APIリファレンス
Search...
⌘K
Log in
ジェイルブレイクの軽減
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
ビルド/ガードレールの強化

ジェイルブレイクとプロンプトインジェクションの軽減

ユーザーが作成したプロンプトを悪用してモデルの脆弱性を利用し、不適切なコンテンツを生成しようとするジェイルブレイクとプロンプトインジェクション攻撃から保護する方法を学びます。

ジェイルブレイクとプロンプトインジェクションは、ユーザーがプロンプトを作成してモデルの脆弱性を悪用し、不適切なコンテンツを生成しようとする場合に発生します。Claudeは本来的にそのような攻撃に対して耐性がありますが、特に当社の利用規約または使用ポリシーに違反する使用に対して、ガードレールを強化するための追加的な手順を以下に示します。

  • 有害性スクリーン: Claude Haiku 4.5のような軽量モデルを使用してユーザー入力を事前スクリーニングします。構造化出力を使用して、応答を単純な分類に制限します。

  • 入力検証: ジェイルブレイクパターンのプロンプトをフィルタリングします。既知のジェイルブレイク言語を例として提供することで、LLMを使用して一般化された検証スクリーンを作成することもできます。

  • プロンプトエンジニアリング: 倫理的および法的境界を強調するプロンプトを作成します。

応答を調整し、Claudeのガードレールを回避しようとする虐待的な行動に繰り返し従事するユーザーをスロットリングまたはバンすることを検討してください。たとえば、特定のユーザーが同じ種類の拒否を複数回トリガーする場合(例:「出力はコンテンツフィルタリングポリシーによってブロックされました」)、ユーザーに彼らのアクションが関連する使用ポリシーに違反していることを伝え、それに応じて対応を取ってください。

  • 継続的な監視: 定期的に出力をジェイルブレイクの兆候について分析します。 この監視を使用して、プロンプトと検証戦略を反復的に改善します。

高度な方法:ガードレールの連鎖

堅牢な保護のための戦略を組み合わせます。ツール使用を含むエンタープライズグレードの例を以下に示します:

これらの戦略を重ねることで、ジェイルブレイクとプロンプトインジェクションに対する堅牢な防御を作成し、Claudeを搭載したアプリケーションが最高水準のセキュリティとコンプライアンスを維持することを保証します。

Was this page helpful?

  • harmlessness_screenツール内のプロンプト