Loading...
    • Erstellen
    • Admin
    • Modelle & Preise
    • Client SDKs
    • API-Referenz
    Search...
    ⌘K
    Erste Schritte
    Einführung in ClaudeSchnellstart
    Entwickeln mit Claude
    FunktionsübersichtVerwendung der Messages APIStoppgründe behandeln
    Modellfähigkeiten
    Erweitertes DenkenAdaptives DenkenAufwandSchnellmodus (Beta: Forschungsvorschau)Strukturierte AusgabenZitateStreaming-NachrichtenStapelverarbeitungSuchergebnisseStreaming-AblehnungenMehrsprachige UnterstützungEmbeddings
    Tools
    ÜbersichtWie Tool-Nutzung funktioniertWeb-SuchtoolWeb-AbruftoolCode-AusführungstoolSpeichertoolBash-ToolComputer-Use-ToolTexteditor-Tool
    Tool-Infrastruktur
    Tool-SucheProgrammatisches Tool-AufrufenFeingranulares Tool-Streaming
    Kontextverwaltung
    KontextfensterKomprimierungKontextbearbeitungPrompt-CachingToken-Zählung
    Mit Dateien arbeiten
    Files APIPDF-UnterstützungBilder und Vision
    Skills
    ÜbersichtSchnellstartBest PracticesSkills für UnternehmenSkills in der API
    MCP
    Remote-MCP-ServerMCP-Connector
    Prompt-Engineering
    ÜbersichtBest Practices für PromptsConsole-Prompting-Tools
    Testen und Evaluieren
    Erfolg definieren und Evaluierungen erstellenDas Evaluierungstool in der Console verwendenLatenz reduzieren
    Leitplanken stärken
    Halluzinationen reduzierenAusgabekonsistenz erhöhenJailbreaks abmildernPrompt-Lecks reduzieren
    Ressourcen
    Glossar
    Versionshinweise
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Leitplanken stärken

    Jailbreaks und Prompt-Injektionen abschwächen

    Erfahren Sie, wie Sie Ihre Anwendungen vor Jailbreaks und Prompt-Injektionen schützen können, während Sie Claude verwenden.

    Was this page helpful?

    • Erweitert: Schutzmaßnahmen verketten
    • Bot-System-Prompt
    • Prompt innerhalb des harmlessness_screen-Tools

    Jailbreaking und Prompt-Injektionen treten auf, wenn Benutzer Prompts erstellen, um Modellschwachstellen auszunutzen und unangemessene Inhalte zu generieren. Obwohl Claude von Natur aus widerstandsfähig gegen solche Angriffe ist, finden Sie hier zusätzliche Schritte, um Ihre Schutzmaßnahmen zu stärken, besonders gegen Verwendungen, die entweder gegen unsere Nutzungsbedingungen oder Nutzungsrichtlinie verstoßen.

    Claude ist viel widerstandsfähiger gegen Jailbreaking als andere große LLMs, dank fortschrittlicher Trainingsmethoden wie Constitutional AI.
    • Harmlosigkeitsfilter: Verwenden Sie ein leichtes Modell wie Claude Haiku 3, um Benutzereingaben vorab zu überprüfen. (Hinweis: Prefilling ist veraltet und wird auf Claude Opus 4.6 und Sonnet 4.5 nicht unterstützt.)

    • Eingabevalidierung: Filtern Sie Prompts nach Jailbreaking-Mustern. Sie können sogar ein LLM verwenden, um einen verallgemeinerten Validierungsfilter zu erstellen, indem Sie bekannte Jailbreaking-Sprache als Beispiele bereitstellen.

    • Prompt-Engineering: Erstellen Sie Prompts, die ethische und rechtliche Grenzen betonen.

    Passen Sie Antworten an und erwägen Sie, Benutzer zu drosseln oder zu sperren, die wiederholt missbräuchliches Verhalten zeigen, um Claudes Schutzmaßnahmen zu umgehen. Wenn beispielsweise ein bestimmter Benutzer mehrmals die gleiche Art von Ablehnung auslöst (z. B. "Ausgabe durch Content-Filterrichtlinie blockiert"), teilen Sie dem Benutzer mit, dass seine Aktionen gegen die relevanten Nutzungsrichtlinien verstoßen, und ergreifen Sie entsprechende Maßnahmen.

    • Kontinuierliche Überwachung: Analysieren Sie regelmäßig Ausgaben auf Jailbreaking-Zeichen. Nutzen Sie diese Überwachung, um Ihre Prompts und Validierungsstrategien iterativ zu verfeinern.

    Erweitert: Schutzmaßnahmen verketten

    Kombinieren Sie Strategien für robusten Schutz. Hier ist ein Enterprise-Beispiel mit Tool-Nutzung:

    Durch die Schichtung dieser Strategien schaffen Sie eine robuste Verteidigung gegen Jailbreaking und Prompt-Injektionen und stellen sicher, dass Ihre Claude-gestützten Anwendungen die höchsten Standards für Sicherheit und Compliance einhalten.