Loading...
    • 开发者指南
    • API 参考
    • MCP
    • 资源
    • 发布说明
    Search...
    ⌘K
    快速开始
    Claude 简介快速入门
    模型与定价
    模型概览选择模型Claude 4.5 新功能迁移到 Claude 4.5模型弃用定价
    使用 Claude 构建
    功能概览使用 Messages API上下文窗口提示词最佳实践
    能力
    提示词缓存上下文编辑扩展思考工作量流式消息批量处理引用多语言支持Token 计数嵌入视觉PDF 支持Files API搜索结果结构化输出
    工具
    概览如何实现工具使用细粒度工具流式传输Bash 工具代码执行工具程序化工具调用计算机使用工具文本编辑器工具Web 获取工具Web 搜索工具内存工具工具搜索工具
    Agent Skills
    概览快速入门最佳实践在 API 中使用 Skills
    Agent SDK
    概览快速入门TypeScript SDKTypeScript V2(预览版)Python SDK迁移指南
    API 中的 MCP
    MCP 连接器远程 MCP 服务器
    第三方平台上的 Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    提示词工程
    概览提示词生成器使用提示词模板提示词改进器清晰直接使用示例(多轮提示)让 Claude 思考(CoT)使用 XML 标签给 Claude 一个角色(系统提示词)预填充 Claude 的响应链接复杂提示词长上下文提示扩展思考提示
    测试与评估
    定义成功标准开发测试用例使用评估工具降低延迟
    加强防护栏
    减少幻觉提高输出一致性缓解越狱流式拒绝减少提示词泄露保持 Claude 的角色
    管理和监控
    Admin API 概览使用和成本 APIClaude Code Analytics API
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    加强防护栏

    缓解越狱和提示注入

    越狱和提示注入发生在用户精心设计提示以利用模型漏洞,旨在生成不适当内容的情况。虽然Claude本身对此类攻击具有弹性,但以下是加强您的防护措施的额外步骤,特别是针对违反我们的服务条款或使用政策的使用。

    由于采用了宪法AI等先进训练方法,Claude比其他主要LLM更能抵抗越狱。
    • 无害性筛选:使用轻量级模型(如Claude Haiku 3)对用户输入进行预筛选。

    • 输入验证:过滤含有越狱模式的提示。您甚至可以通过提供已知的越狱语言作为示例,使用LLM创建通用验证筛选。

    • 提示工程:精心设计强调道德和法律边界的提示。

    调整回应并考虑限制或禁止反复尝试绕过Claude防护措施的滥用行为的用户。例如,如果特定用户多次触发同类拒绝(如"输出被内容过滤政策阻止"),告知用户他们的行为违反了相关使用政策,并采取相应行动。

    • 持续监控:定期分析输出以发现越狱迹象。 利用这种监控来迭代完善您的提示和验证策略。

    高级:链式保障

    结合策略以提供强大保护。以下是一个使用工具的企业级示例:

    通过分层这些策略,您可以创建针对越狱和提示注入的强大防御,确保您的Claude驱动的应用程序保持最高的安全性和合规性标准。

    • harmlessness_screen工具内的提示