Loading...
    • 開発者ガイド
    • API リファレンス
    • MCP
    • リソース
    • リリースノート
    Search...
    ⌘K
    はじめに
    Claude の紹介クイックスタート
    モデルと料金
    モデル概要モデルの選び方Claude 4.6 の新機能移行ガイドモデルの廃止料金
    Claude で構築する
    機能概要Messages API の使用停止理由の処理プロンプトのベストプラクティス
    コンテキスト管理
    コンテキストウィンドウコンパクションコンテキスト編集
    機能
    プロンプトキャッシング拡張思考適応型思考エフォートメッセージのストリーミングバッチ処理引用多言語サポートトークンカウントエンベディングビジョンPDF サポートFiles API検索結果構造化出力
    ツール
    概要ツール使用の実装方法きめ細かいツールストリーミングBash ツールコード実行ツールプログラムによるツール呼び出しコンピュータ使用ツールテキストエディタツールWeb フェッチツールWeb 検索ツールメモリツールツール検索ツール
    Agent Skills
    概要クイックスタートベストプラクティスエンタープライズ向け SkillsAPI での Skills の使用
    Agent SDK
    概要クイックスタートTypeScript SDKTypeScript V2(プレビュー)Python SDK移行ガイド
    API での MCP
    MCP コネクタリモート MCP サーバー
    サードパーティプラットフォームの Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    プロンプトエンジニアリング
    概要プロンプトジェネレータープロンプトテンプレートの使用プロンプト改善ツール明確かつ直接的に例を使う(マルチショットプロンプティング)Claude に考えさせる(CoT)XML タグを使うClaude に役割を与える(システムプロンプト)複雑なプロンプトを連鎖させる長文コンテキストのヒント拡張思考のヒント
    テストと評価
    成功基準の定義テストケースの開発評価ツールの使用レイテンシの削減
    ガードレールの強化
    ハルシネーションの削減出力の一貫性を高めるジェイルブレイクの軽減ストリーミング拒否プロンプト漏洩の防止Claude をキャラクターに保つ
    管理とモニタリング
    Admin API 概要データレジデンシーワークスペースUsage and Cost APIClaude Code Analytics APIゼロデータリテンション
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    ガードレールの強化

    ジェイルブレイクとプロンプトインジェクションの軽減

    ジェイルブレイクとプロンプトインジェクション攻撃からClaudeを利用したアプリケーションを保護するための戦略を学びます。

    ジェイルブレイクとプロンプトインジェクションは、ユーザーがモデルの脆弱性を悪用するプロンプトを作成し、不適切なコンテンツを生成させようとする場合に発生します。Claudeはこのような攻撃に対して本質的に耐性がありますが、特に利用規約や利用ポリシーに違反する使用に対して、ガードレールを強化するための追加の手順を以下に示します。

    Claudeは、Constitutional AIなどの高度なトレーニング手法により、他の主要なLLMよりもジェイルブレイクに対してはるかに高い耐性を持っています。
    • 有害性スクリーニング: Claude Haiku 3のような軽量モデルを使用して、ユーザー入力を事前にスクリーニングします。(注:プリフィルは非推奨であり、Claude Opus 4.6およびSonnet 4.5ではサポートされていません。)

    • 入力バリデーション: ジェイルブレイクパターンのプロンプトをフィルタリングします。既知のジェイルブレイク言語を例として提供することで、LLMを使用して汎用的なバリデーションスクリーンを作成することもできます。

    • プロンプトエンジニアリング: 倫理的および法的な境界を強調するプロンプトを作成します。

    Claudeのガードレールを回避しようとする悪用行為を繰り返すユーザーに対しては、回答を調整し、スロットリングやアカウント停止を検討してください。例えば、特定のユーザーが同じ種類の拒否を複数回トリガーした場合(例:「コンテンツフィルタリングポリシーにより出力がブロックされました」)、そのユーザーの行為が関連する利用ポリシーに違反していることを通知し、適切な措置を講じてください。

    • 継続的な監視: ジェイルブレイクの兆候がないか出力を定期的に分析します。 この監視を活用して、プロンプトとバリデーション戦略を反復的に改善してください。

    上級:セーフガードの連鎖

    堅牢な保護のために戦略を組み合わせます。以下はツール使用を含むエンタープライズグレードの例です:

    これらの戦略を重層的に組み合わせることで、ジェイルブレイクやプロンプトインジェクションに対する堅牢な防御を構築し、Claudeを活用したアプリケーションが最高水準の安全性とコンプライアンスを維持できるようにします。

    Was this page helpful?

    • harmlessness_screenツール内のプロンプト