Jailbreaking und Prompt-Injektionen treten auf, wenn Benutzer Prompts erstellen, um Modellschwachstellen auszunutzen und unangemessene Inhalte zu generieren. Obwohl Claude von Natur aus widerstandsfähig gegen solche Angriffe ist, finden Sie hier zusätzliche Schritte, um Ihre Schutzmaßnahmen zu stärken, besonders gegen Verwendungen, die entweder gegen unsere Nutzungsbedingungen oder Nutzungsrichtlinie verstoßen.
Harmlosigkeitsfilter: Verwenden Sie ein leichtes Modell wie Claude Haiku 3, um Benutzereingaben vorab zu überprüfen. (Hinweis: Prefilling ist veraltet und wird auf Claude Opus 4.6 und Sonnet 4.5 nicht unterstützt.)
Eingabevalidierung: Filtern Sie Prompts nach Jailbreaking-Mustern. Sie können sogar ein LLM verwenden, um einen verallgemeinerten Validierungsfilter zu erstellen, indem Sie bekannte Jailbreaking-Sprache als Beispiele bereitstellen.
Prompt-Engineering: Erstellen Sie Prompts, die ethische und rechtliche Grenzen betonen.
Passen Sie Antworten an und erwägen Sie, Benutzer zu drosseln oder zu sperren, die wiederholt missbräuchliches Verhalten zeigen, um Claudes Schutzmaßnahmen zu umgehen. Wenn beispielsweise ein bestimmter Benutzer mehrmals die gleiche Art von Ablehnung auslöst (z. B. "Ausgabe durch Content-Filterrichtlinie blockiert"), teilen Sie dem Benutzer mit, dass seine Aktionen gegen die relevanten Nutzungsrichtlinien verstoßen, und ergreifen Sie entsprechende Maßnahmen.
Kombinieren Sie Strategien für robusten Schutz. Hier ist ein Enterprise-Beispiel mit Tool-Nutzung:
Durch die Schichtung dieser Strategien schaffen Sie eine robuste Verteidigung gegen Jailbreaking und Prompt-Injektionen und stellen sicher, dass Ihre Claude-gestützten Anwendungen die höchsten Standards für Sicherheit und Compliance einhalten.
Was this page helpful?