Schutzmaßnahmen verstärken

Jailbreaks und Prompt-Injektionen abschwächen

Erfahren Sie, wie Sie Ihre Anwendungen vor Jailbreaks und Prompt-Injektionen schützen können, während Sie Claude verwenden.

Jailbreaking und Prompt-Injektionen treten auf, wenn Benutzer Prompts erstellen, um Modellschwachstellen auszunutzen und unangemessene Inhalte zu generieren. Obwohl Claude von Natur aus widerstandsfähig gegen solche Angriffe ist, finden Sie hier zusätzliche Schritte, um Ihre Schutzmaßnahmen zu stärken, besonders gegen Verwendungen, die entweder gegen unsere Nutzungsbedingungen oder Nutzungsrichtlinie verstoßen.

Claude ist viel widerstandsfähiger gegen Jailbreaking als andere große LLMs, dank fortschrittlicher Trainingsmethoden wie Constitutional AI.

Harmlosigkeitsfilter: Verwenden Sie ein leichtes Modell wie Claude Haiku 3, um Benutzereingaben vorab zu überprüfen. (Hinweis: Prefilling ist veraltet und wird auf Claude Opus 4.6 und Sonnet 4.5 nicht unterstützt.)
Eingabevalidierung: Filtern Sie Prompts nach Jailbreaking-Mustern. Sie können sogar ein LLM verwenden, um einen verallgemeinerten Validierungsfilter zu erstellen, indem Sie bekannte Jailbreaking-Sprache als Beispiele bereitstellen.
Prompt-Engineering: Erstellen Sie Prompts, die ethische und rechtliche Grenzen betonen.

Passen Sie Antworten an und erwägen Sie, Benutzer zu drosseln oder zu sperren, die wiederholt missbräuchliches Verhalten zeigen, um Claudes Schutzmaßnahmen zu umgehen. Wenn beispielsweise ein bestimmter Benutzer mehrmals die gleiche Art von Ablehnung auslöst (z. B. "Ausgabe durch Content-Filterrichtlinie blockiert"), teilen Sie dem Benutzer mit, dass seine Aktionen gegen die relevanten Nutzungsrichtlinien verstoßen, und ergreifen Sie entsprechende Maßnahmen.

Kontinuierliche Überwachung: Analysieren Sie regelmäßig Ausgaben auf Jailbreaking-Zeichen. Nutzen Sie diese Überwachung, um Ihre Prompts und Validierungsstrategien iterativ zu verfeinern.

Erweitert: Schutzmaßnahmen verketten

Kombinieren Sie Strategien für robusten Schutz. Hier ist ein Enterprise-Beispiel mit Tool-Nutzung:

Durch die Schichtung dieser Strategien schaffen Sie eine robuste Verteidigung gegen Jailbreaking und Prompt-Injektionen und stellen sicher, dass Ihre Claude-gestützten Anwendungen die höchsten Standards für Sicherheit und Compliance einhalten.

Was this page helpful?

Beispiel: Harmlosigkeitsfilter für Content-Moderation

Beispiel: Ethischer System-Prompt für einen Enterprise-Chatbot

Erweitert: Schutzmaßnahmen verketten

Beispiel: Mehrschichtiger Schutz für einen Finanzberater-Chatbot

Beispiel: Harmlosigkeitsfilter für Content-Moderation

Beispiel: Ethischer System-Prompt für einen Enterprise-Chatbot

Erweitert: Schutzmaßnahmen verketten

Beispiel: Mehrschichtiger Schutz für einen Finanzberater-Chatbot