本指南面向需要在组织内管理 Agent Skills 的企业管理员和架构师。内容涵盖如何大规模审查、评估、部署和管理 Skills。有关编写指导,请参阅最佳实践。有关架构详情,请参阅 Skills 概述。
在企业中部署 Skills 需要回答两个不同的问题:
在批准部署之前,对照以下风险指标评估每个 Skill:
| 风险指标 | 需要关注的内容 | 关注级别 |
|---|---|---|
| 代码执行 | Skill 目录中的脚本(*.py、*.sh、*.js) | 高:脚本以完整环境访问权限运行 |
| 指令操纵 | 指示忽略安全规则、向用户隐藏操作或有条件地改变 Claude 行为的指令 | 高:可能绕过安全控制 |
| MCP 服务器引用 | 引用 MCP 工具的指令(ServerName:tool_name) | 高:将访问权限扩展到 Skill 本身之外 |
| 网络访问模式 | URL、API 端点、fetch、curl 或 requests 调用 | 高:潜在的数据泄露向量 |
| 硬编码凭据 | Skill 文件或脚本中的 API 密钥、令牌或密码 | 高:密钥暴露在 Git 历史记录和上下文窗口中 |
| 文件系统访问范围 | Skill 目录之外的路径、宽泛的 glob 模式、路径遍历(../) | 中:可能访问非预期数据 |
| 工具调用 | 指示 Claude 使用 bash、文件操作或其他工具的指令 | 中:审查执行了哪些操作 |
在部署来自第三方或内部贡献者的任何 Skill 之前,请完成以下步骤:
http、requests.get、urllib、curl、fetch)。切勿在未经完整审计的情况下部署来自不受信任来源的 Skills。恶意 Skill 可以指示 Claude 执行任意代码、访问敏感文件或向外部传输数据。对待 Skill 安装应与在生产系统上安装软件同等严格。
如果 Skills 触发不正确、与其他 Skills 冲突或提供了糟糕的指令,可能会降低 Agent 性能。在任何生产部署之前都需要进行评估。
在部署任何 Skill 之前,为以下维度建立审批关卡:
| 维度 | 衡量内容 | 失败示例 |
|---|---|---|
| 触发准确性 | Skill 是否对正确的查询激活,并对不相关的查询保持非激活状态? | Skill 在每次提到电子表格时都会触发,即使用户只是想讨论数据 |
| 隔离行为 | Skill 单独运行时是否正常工作? | Skill 引用了其目录中不存在的文件 |
| 共存性 | 添加此 Skill 是否会降低其他 Skills 的性能? | 新 Skill 的描述过于宽泛,抢占了现有 Skills 的触发条件 |
| 指令遵循 | Claude 是否准确遵循 Skill 的指令? | Claude 跳过验证步骤或使用了错误的库 |
| 输出质量 | Skill 是否产生正确、有用的结果? | 生成的报告存在格式错误或数据缺失 |
要求 Skill 作者提交评估套件,每个 Skill 包含 3-5 个代表性查询,涵盖 Skill 应触发、不应触发以及模糊边界情况。要求在您的组织使用的各个模型(Haiku、Sonnet、Opus)上进行测试,因为 Skill 的有效性因模型而异。
有关构建评估的详细指导,请参阅最佳实践中的评估与迭代。有关通用评估方法,请参阅开发测试用例。
评估结果表明何时需要采取行动:
规划
识别重复性、容易出错或需要专业知识的工作流程。将这些工作流程映射到组织角色,并确定哪些是 Skills 的候选对象。
创建与审查
测试
要求在隔离环境(单独 Skill)和与现有 Skills 并存的情况下(共存测试)进行评估。在批准生产部署之前,验证触发准确性、输出质量以及整个活跃 Skill 集中是否存在回归。
部署
通过 Skills API 上传以实现工作区范围的访问。有关上传和版本管理,请参阅通过 API 使用 Skills。在内部注册表中记录 Skill 的目的、所有者和版本。
监控
跟踪使用模式并收集用户反馈。定期重新运行评估,以检测随着工作流程和模型演进而产生的漂移或回归。Skills API 目前不提供使用分析功能。实施应用程序级日志记录以跟踪请求中包含了哪些 Skills。
迭代或弃用
在推广新版本之前,要求通过完整的评估套件。当工作流程发生变化或评估分数下降时更新 Skills。当评估持续失败或工作流程退役时弃用 Skills。
作为一般准则,限制同时加载的 Skills 数量以保持可靠的召回准确性。每个 Skill 的元数据(名称和描述)在系统提示中竞争注意力。当活跃的 Skills 过多时,Claude 可能无法选择正确的 Skill 或完全错过相关的 Skills。在添加 Skills 时使用评估套件衡量召回准确性,并在性能下降时停止添加。
请注意,API 请求每次请求最多支持 8 个 Skills(请参阅通过 API 使用 Skills)。如果某个角色需要的 Skills 超过单次请求支持的数量,请考虑将较窄的 Skills 合并为更广泛的 Skills,或根据任务类型将请求路由到不同的 Skill 集。
鼓励团队从针对特定工作流程的 Skills 开始,而不是宽泛的多用途 Skills。随着组织内模式的出现,将相关 Skills 合并为基于角色的捆绑包。
使用评估来决定何时合并。只有当合并后的 Skill 的评估确认其性能与所替换的各个 Skills 相当时,才将较窄的 Skills 合并为更广泛的 Skills。
示例演进:
formatting-sales-reports、querying-pipeline-data、updating-crm-recordssales-operations(当评估确认性能相当时)在整个组织中使用一致的命名约定。最佳实践中的命名约定部分提供了格式指导。
为每个 Skill 维护内部注册表,包含:
按组织角色对 Skills 进行分组,以保持每个用户的活跃 Skill 集专注:
每个基于角色的捆绑包应仅包含与该角色日常工作流程相关的 Skills。
将 Skill 目录存储在 Git 中,以实现历史跟踪、通过拉取请求进行代码审查以及回滚能力。每个 Skill 目录(包含 SKILL.md 和任何捆绑文件)自然映射到一个 Git 跟踪的文件夹。
Skills API 提供工作区范围的分发。通过 API 上传的 Skills 对所有工作区成员可用。有关上传、版本控制和管理端点,请参阅通过 API 使用 Skills。
自定义 Skills 不会跨平台同步。通过 API 上传的 Skills 在 claude.ai 或 Claude Code 中不可用,反之亦然。每个平台都需要单独上传和管理。
将 Skill 源文件维护在 Git 中作为单一事实来源。如果您的组织在多个平台上部署 Skills,请实施自己的同步流程以保持一致性。有关完整详情,请参阅跨平台可用性。
Was this page helpful?
以编程方式上传和管理 Skills