Loading...
    • 构建
    • 管理
    • 模型和定价
    • 客户端 SDK
    • API 参考
    Search...
    ⌘K
    第一步
    Claude 简介快速开始
    使用 Claude 构建
    功能概览使用 Messages APIClaude API 技能处理停止原因
    模型能力
    扩展思考自适应思考工作量任务预算(测试版)快速模式(测试版:研究预览)结构化输出引用流式消息批量处理搜索结果流式拒绝多语言支持嵌入
    工具
    概览工具使用原理网络搜索工具网络获取工具代码执行工具顾问工具内存工具Bash 工具计算机使用工具文本编辑器工具
    工具基础设施
    工具参考工具搜索程序化工具调用细粒度工具流式传输
    上下文管理
    上下文窗口压缩上下文编辑提示缓存Token 计数
    处理文件
    Files APIPDF 支持图像和视觉
    技能
    概览快速开始最佳实践企业技能API 中的技能
    MCP
    远程 MCP 服务器MCP 连接器
    提示工程
    概览提示最佳实践Console 提示工具
    测试和评估
    定义成功并构建评估在 Console 中使用评估工具降低延迟
    加强防护栏
    减少幻觉提高输出一致性缓解越狱减少提示泄露
    资源
    术语表
    发布说明
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    加强防护栏

    缓解越狱和提示词注入

    了解如何通过多层防护策略来缓解Claude的越狱和提示词注入攻击

    越狱和提示词注入发生在用户精心设计提示词来利用模型漏洞,旨在生成不当内容的情况下。虽然Claude本身对此类攻击具有很强的抵抗力,但以下是加强防护的额外步骤,特别是针对违反我们的服务条款或使用政策的使用。

    • 有害内容筛选:使用轻量级模型(如Claude Haiku 4.5)对用户输入进行预筛选。使用结构化输出将响应限制为简单的分类。

    • 输入验证:过滤提示词中的越狱模式。您甚至可以通过提供已知的越狱语言作为示例,使用LLM创建一个通用的验证筛选器。

    • 提示词工程:设计强调伦理和法律边界的提示词。

    调整响应,并考虑对重复进行滥用行为试图规避Claude防护的用户进行限流或封禁。例如,如果某个特定用户多次触发相同类型的拒绝(例如"输出被内容过滤政策阻止"),告知用户他们的行为违反了相关使用政策并采取相应措施。

    • 持续监控:定期分析输出中的越狱迹象。 使用此监控来迭代改进您的提示词和验证策略。

    高级:链式防护

    结合策略以实现强大的保护。以下是包含工具使用的企业级示例:

    通过分层这些策略,您可以创建针对越狱和提示词注入的强大防御,确保您的Claude驱动的应用程序维持最高的安全和合规标准。

    Was this page helpful?

    • harmlessness_screen工具内的提示