Loading...
  • Erstellen
  • Admin
  • Modelle & Preise
  • Client-SDKs
  • API-Referenz
Search...
⌘K
Log in
Jailbreaks abmildern
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Erstellen/Leitplanken stärken

Jailbreaks und Prompt-Injektionen abschwächen

Erfahren Sie, wie Sie Ihre Anwendungen vor Jailbreaks und Prompt-Injektionen schützen können, während Sie Claude verwenden.

Was this page helpful?

  • Erweitert: Schutzmaßnahmen verketten
  • Bot-System-Prompt
  • Prompt innerhalb des Tools harmlessness_screen

Jailbreaking und Prompt-Injektionen treten auf, wenn Benutzer Prompts erstellen, um Modellschwachstellen auszunutzen und unangemessene Inhalte zu generieren. Obwohl Claude von Natur aus widerstandsfähig gegen solche Angriffe ist, finden Sie hier zusätzliche Schritte, um Ihre Schutzmaßnahmen zu stärken, besonders gegen Verwendungen, die gegen unsere Nutzungsbedingungen oder Nutzungsrichtlinie verstoßen.

  • Harmlosigkeitsfilter: Verwenden Sie ein leichtes Modell wie Claude Haiku 4.5, um Benutzereingaben vorab zu überprüfen. Verwenden Sie strukturierte Ausgaben, um die Antwort auf eine einfache Klassifizierung zu beschränken.

  • Eingabevalidierung: Filtern Sie Prompts nach Jailbreaking-Mustern. Sie können sogar ein LLM verwenden, um einen verallgemeinerten Validierungsfilter zu erstellen, indem Sie bekannte Jailbreaking-Sprache als Beispiele bereitstellen.

  • Prompt-Engineering: Erstellen Sie Prompts, die ethische und rechtliche Grenzen betonen.

Passen Sie Antworten an und erwägen Sie, Benutzer zu drosseln oder zu sperren, die wiederholt missbräuchliches Verhalten zeigen und versuchen, Claudes Schutzmaßnahmen zu umgehen. Wenn beispielsweise ein bestimmter Benutzer mehrmals die gleiche Art von Ablehnung auslöst (z. B. „Ausgabe durch Content-Filterrichtlinie blockiert"), teilen Sie dem Benutzer mit, dass seine Aktionen gegen die relevanten Nutzungsrichtlinien verstoßen, und ergreifen Sie entsprechende Maßnahmen.

  • Kontinuierliche Überwachung: Analysieren Sie Ausgaben regelmäßig auf Jailbreaking-Zeichen. Verwenden Sie diese Überwachung, um Ihre Prompts und Validierungsstrategien iterativ zu verfeinern.

Erweitert: Schutzmaßnahmen verketten

Kombinieren Sie Strategien für robusten Schutz. Hier ist ein Enterprise-Beispiel mit Tool-Nutzung:

Durch die Schichtung dieser Strategien schaffen Sie eine robuste Verteidigung gegen Jailbreaking und Prompt-Injektionen und stellen sicher, dass Ihre Claude-gestützten Anwendungen die höchsten Standards für Sicherheit und Compliance einhalten.