Loading...
    • 开发者指南
    • API 参考
    • MCP
    • 资源
    • 更新日志
    Search...
    ⌘K
    入门
    Claude 简介快速开始
    模型与定价
    模型概览选择模型Claude 4.6 新特性迁移指南模型弃用定价
    使用 Claude 构建
    功能概览使用 Messages API处理停止原因提示词最佳实践
    上下文管理
    上下文窗口压缩上下文编辑
    能力
    提示缓存扩展思考自适应思考推理力度流式消息批量处理引用多语言支持Token 计数嵌入视觉PDF 支持Files API搜索结果结构化输出
    工具
    概览如何实现工具使用细粒度工具流式传输Bash 工具代码执行工具程序化工具调用计算机使用工具文本编辑器工具网页抓取工具网页搜索工具记忆工具工具搜索工具
    Agent Skills
    概览快速开始最佳实践企业级 Skills通过 API 使用 Skills
    Agent SDK
    概览快速开始TypeScript SDKTypeScript V2(预览版)Python SDK迁移指南
    API 中的 MCP
    MCP 连接器远程 MCP 服务器
    第三方平台上的 Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    提示工程
    概览提示词生成器使用提示词模板提示词优化器清晰直接使用示例(多样本提示)让 Claude 思考(思维链)使用 XML 标签赋予 Claude 角色(系统提示词)链式复杂提示长上下文技巧扩展思考技巧
    测试与评估
    定义成功标准开发测试用例使用评估工具降低延迟
    加强安全护栏
    减少幻觉提高输出一致性防范越狱攻击流式拒绝减少提示词泄露保持 Claude 角色设定
    管理与监控
    Admin API 概览数据驻留工作空间用量与成本 APIClaude Code Analytics API零数据留存
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    加强安全护栏

    防范越狱攻击和提示注入

    了解如何防范越狱攻击和提示注入,保护您的 Claude 应用程序。

    越狱攻击和提示注入是指用户精心构造提示来利用模型漏洞,试图生成不当内容。虽然 Claude 本身对此类攻击具有较强的抵御能力,但以下是一些额外的措施来加强您的防护机制,特别是针对违反我们服务条款或使用政策的使用行为。

    得益于 Constitutional AI 等先进训练方法,Claude 比其他主流 LLM 具有更强的越狱攻击抵御能力。
    • 无害性筛查:使用 Claude Haiku 3 等轻量级模型对用户输入进行预筛查。(注意:预填充已弃用,在 Claude Opus 4.6 和 Sonnet 4.5 上不受支持。)

    • 输入验证:过滤提示中的越狱攻击模式。您甚至可以使用 LLM 通过提供已知的越狱攻击语言作为示例来创建通用的验证筛查。

    • 提示工程:精心设计强调道德和法律边界的提示。

    调整回复并考虑对反复尝试绕过 Claude 防护机制的滥用行为用户进行限流或封禁。例如,如果某个用户多次触发同类拒绝(例如"输出被内容过滤策略阻止"),请告知该用户其行为违反了相关使用政策,并采取相应措施。

    • 持续监控:定期分析输出以发现越狱攻击迹象。 利用此监控来迭代优化您的提示和验证策略。

    进阶:链式安全防护

    结合多种策略实现强大的保护。以下是一个使用工具调用的企业级示例:

    通过分层运用这些策略,您可以构建强大的越狱攻击和提示注入防御体系,确保您基于 Claude 的应用程序保持最高的安全和合规标准。

    Was this page helpful?

    • harmlessness_screen 工具中的提示