本指南面向需要在组织范围内治理 Agent Skills 的企业管理员和架构师。它涵盖了如何大规模审查、评估、部署和管理 Skills。有关编写指南,请参阅最佳实践。有关架构详情,请参阅 Skills 概述。
在企业中部署 Skills 需要回答两个不同的问题:
在批准部署之前,根据以下风险指标评估每个 Skill:
| 风险指标 | 需要关注的内容 | 关注级别 |
|---|---|---|
| 代码执行 | Skill 目录中的脚本(*.py、*.sh、*.js) | 高:脚本以完整环境访问权限运行 |
| 指令操纵 | 忽略安全规则、对用户隐藏操作或有条件地改变 Claude 行为的指令 | 高:可能绕过安全控制 |
| MCP 服务器引用 | 引用 MCP 工具的指令(ServerName:tool_name) | 高:将访问范围扩展到 Skill 本身之外 |
| 网络访问模式 | URL、API 端点、fetch、curl 或 requests 调用 | 高:潜在的数据泄露途径 |
| 硬编码凭据 | Skill 文件或脚本中的 API 密钥、令牌或密码 | 高:密钥暴露在 Git 历史记录和上下文窗口中 |
| 文件系统访问范围 | Skill 目录之外的路径、宽泛的 glob 模式、路径遍历(../) | 中:可能访问非预期数据 |
| 工具调用 | 指示 Claude 使用 bash、文件操作或其他工具的指令 | 中:审查执行了哪些操作 |
在部署来自第三方或内部贡献者的任何 Skill 之前,请完成以下步骤:
http、requests.get、urllib、curl、fetch)。切勿在未经完整审计的情况下部署来自不受信任来源的 Skills。恶意 Skill 可以指示 Claude 执行任意代码、访问敏感文件或向外部传输数据。对待 Skill 安装应与在生产系统上安装软件一样严格。
如果 Skills 触发不正确、与其他 Skills 冲突或提供了不良指令,可能会降低代理性能。在任何生产部署之前都需要进行评估。
在部署任何 Skill 之前,为以下维度建立审批关卡:
| 维度 | 衡量内容 | 失败示例 |
|---|---|---|
| 触发准确性 | Skill 是否在正确的查询时激活,在无关查询时保持不活动? | Skill 在每次提到电子表格时都会触发,即使用户只是想讨论数据 |
| 隔离行为 | Skill 是否能独立正常工作? | Skill 引用了其目录中不存在的文件 |
| 共存性 | 添加此 Skill 是否会降低其他 Skills 的性能? | 新 Skill 的描述过于宽泛,抢夺了现有 Skills 的触发机会 |
| 指令遵循 | Claude 是否准确遵循 Skill 的指令? | Claude 跳过验证步骤或使用了错误的库 |
| 输出质量 | Skill 是否产生正确、有用的结果? | 生成的报告存在格式错误或数据缺失 |
要求 Skill 作者提交评估套件,每个 Skill 包含 3-5 个代表性查询,涵盖 Skill 应该触发、不应该触发以及模糊边界情况。要求在您组织使用的模型(Haiku、Sonnet、Opus)上进行测试,因为 Skill 的效果因模型而异。
有关构建评估的详细指南,请参阅最佳实践中的评估与迭代。有关通用评估方法论,请参阅开发测试用例。
评估结果指示何时需要采取行动:
规划
识别重复性、易出错或需要专业知识的工作流程。将这些映射到组织角色,确定哪些适合作为 Skills 的候选。
创建和审查
测试
要求在隔离环境(单独的 Skill)和与现有 Skills 并存的环境中进行评估(共存测试)。在批准投入生产之前,验证触发准确性、输出质量以及在活跃 Skill 集中不存在回归问题。
部署
通过 Skills API 上传以实现工作区范围的访问。有关上传和版本管理,请参阅通过 API 使用 Skills。在内部注册表中记录 Skill 的用途、负责人和版本。
监控
跟踪使用模式并收集用户反馈。定期重新运行评估,以检测随着工作流程和模型演变而产生的偏移或回归。使用分析目前无法通过 Skills API 获取。实施应用程序级日志记录来跟踪请求中包含了哪些 Skills。
迭代或弃用
要求完整的评估套件通过后才能推广新版本。当工作流程变化或评估分数下降时更新 Skills。当评估持续失败或工作流程已退役时弃用 Skills。
作为一般准则,限制同时加载的 Skills 数量以保持可靠的召回准确性。每个 Skill 的元数据(名称和描述)在系统提示中争夺注意力。当活跃的 Skills 过多时,Claude 可能无法选择正确的 Skill 或完全遗漏相关的 Skill。使用您的评估套件在添加 Skills 时衡量召回准确性,当性能下降时停止添加。
请注意,API 请求每次最多支持 8 个 Skills(请参阅通过 API 使用 Skills)。如果某个角色需要的 Skills 超过单次请求支持的数量,请考虑将狭窄的 Skills 合并为更广泛的 Skills,或根据任务类型将请求路由到不同的 Skill 集。
鼓励团队从狭窄的、针对特定工作流程的 Skills 开始,而不是宽泛的多用途 Skills。随着组织中模式的出现,将相关的 Skills 合并为基于角色的捆绑包。
使用评估来决定何时合并。仅当合并后的 Skill 的评估确认其性能等同于它所替代的各个单独 Skills 时,才将狭窄的 Skills 合并为更广泛的 Skill。
示例演进:
formatting-sales-reports、querying-pipeline-data、updating-crm-recordssales-operations(当评估确认等效性能时)在整个组织中使用一致的命名约定。最佳实践中的命名约定部分提供了格式指南。
为每个 Skill 维护一个内部注册表,包含:
按组织角色分组 Skills,使每个用户的活跃 Skill 集保持聚焦:
每个基于角色的捆绑包应仅包含与该角色日常工作流程相关的 Skills。
将 Skill 目录存储在 Git 中,以实现历史跟踪、通过拉取请求进行代码审查以及回滚能力。每个 Skill 目录(包含 SKILL.md 和任何捆绑文件)自然映射到一个 Git 跟踪的文件夹。
Skills API 提供工作区范围的分发。通过 API 上传的 Skills 可供所有工作区成员使用。有关上传、版本管理和管理端点,请参阅通过 API 使用 Skills。
自定义 Skills 不会跨平台同步。上传到 API 的 Skills 在 claude.ai 或 Claude Code 中不可用,反之亦然。每个平台需要单独上传和管理。
将 Skill 源文件维护在 Git 中作为唯一的事实来源。如果您的组织跨多个平台部署 Skills,请实施自己的同步流程以保持一致性。有关完整详情,请参阅跨平台可用性。
Was this page helpful?