Was this page helpful?
このガイドは、組織全体でエージェントスキルを管理する必要があるエンタープライズ管理者およびアーキテクト向けです。スキルの審査、評価、展開、および大規模な管理方法について説明します。作成ガイダンスについては、ベストプラクティスを参照してください。アーキテクチャの詳細については、スキルの概要を参照してください。
エンタープライズでスキルを展開するには、2つの異なる質問に答える必要があります:
展開を承認する前に、各スキルをこれらのリスク指標に照らして評価してください:
| リスク指標 | 確認すべき内容 | 懸念レベル |
|---|---|---|
| コード実行 | スキルディレクトリ内のスクリプト(*.py、*.sh、*.js) | 高:スクリプトはフル環境アクセスで実行される |
| 指示の操作 | 安全ルールを無視する、ユーザーからアクションを隠す、または条件付きでClaudeの動作を変更する指令 | 高:セキュリティコントロールをバイパスできる |
| MCPサーバー参照 | MCPツールを参照する指示(ServerName:tool_name) | 高:スキル自体を超えたアクセスを拡張する |
| ネットワークアクセスパターン | URL、APIエンドポイント、fetch、curl、またはrequests呼び出し | 高:データ漏洩の潜在的なベクター |
| ハードコードされた認証情報 | スキルファイルまたはスクリプト内のAPIキー、トークン、またはパスワード | 高:Gitの履歴とコンテキストウィンドウで秘密情報が露出する |
| ファイルシステムアクセス範囲 | スキルディレクトリ外のパス、広範なglobパターン、パストラバーサル(../) | 中:意図しないデータにアクセスする可能性がある |
| ツール呼び出し | Claudeにbash、ファイル操作、またはその他のツールを使用するよう指示する命令 | 中:実行される操作を確認する |
サードパーティまたは内部コントリビューターからのスキルを展開する前に、以下の手順を完了してください:
http、requests.get、urllib、curl、fetch)を検索してください。完全な監査なしに信頼できないソースからスキルを展開しないでください。悪意のあるスキルは、Claudeに任意のコードを実行させたり、機密ファイルにアクセスさせたり、データを外部に送信させたりする可能性があります。スキルのインストールは、本番システムへのソフトウェアインストールと同じ厳格さで扱ってください。
スキルが誤ってトリガーされたり、他のスキルと競合したり、不適切な指示を提供したりすると、エージェントのパフォーマンスが低下する可能性があります。本番展開の前に評価を必須としてください。
スキルを展開する前に、以下の次元の承認ゲートを設けてください:
| 次元 | 測定内容 | 失敗例 |
|---|---|---|
| トリガー精度 | スキルは適切なクエリに対してアクティブになり、無関係なものに対しては非アクティブのままですか? | スキルがスプレッドシートへの言及すべてでトリガーされる(ユーザーがデータについて議論したいだけの場合でも) |
| 分離動作 | スキルは単独で正しく動作しますか? | スキルがディレクトリに存在しないファイルを参照する |
| 共存 | このスキルを追加すると他のスキルが低下しますか? | 新しいスキルの説明が広すぎて、既存のスキルからトリガーを奪う |
| 指示への従い方 | Claudeはスキルの指示を正確に従いますか? | Claudeが検証ステップをスキップしたり、誤ったライブラリを使用したりする |
| 出力品質 | スキルは正確で有用な結果を生成しますか? | 生成されたレポートにフォーマットエラーやデータの欠落がある |
スキル作成者に対して、スキルごとに3〜5つの代表的なクエリを含む評価スイートを提出することを求めてください。これには、スキルがトリガーされるべきケース、トリガーされるべきでないケース、および曖昧なエッジケースが含まれます。スキルの有効性はモデルによって異なるため、組織が使用するモデル(Haiku、Sonnet、Opus)全体でのテストを必須としてください。
評価の構築に関する詳細なガイダンスについては、ベストプラクティスの評価と反復を参照してください。一般的な評価方法論については、テストケースの開発を参照してください。
評価結果は、いつ行動すべきかを示します:
計画
繰り返し行われる、エラーが発生しやすい、または専門知識が必要なワークフローを特定してください。これらを組織の役割にマッピングし、スキルの候補となるものを決定してください。
作成とレビュー
スキル作成者がベストプラクティスに従っていることを確認してください。上記のレビューチェックリストを使用したセキュリティレビューを必須としてください。承認前に評価スイートを必須としてください。職務分離を確立してください:スキル作成者は自分自身のレビュアーであってはなりません。
テスト
単独(スキルのみ)および既存のスキルと並行した評価(共存テスト)を必須としてください。本番承認前に、アクティブなスキルセット全体でトリガー精度、出力品質、およびリグレッションの不在を確認してください。
展開
ワークスペース全体のアクセスのためにSkills APIを介してアップロードしてください。アップロードとバージョン管理については、APIでのスキルの使用を参照してください。目的、オーナー、バージョンとともに、内部レジストリにスキルを文書化してください。
モニタリング
使用パターンを追跡し、ユーザーからフィードバックを収集してください。ワークフローとモデルが進化するにつれて、ドリフトやリグレッションを検出するために定期的に評価を再実行してください。使用状況の分析はSkills APIを通じて現在利用できません。どのスキルがリクエストに含まれているかを追跡するために、アプリケーションレベルのロギングを実装してください。
反復または廃止
新しいバージョンを昇格させる前に、完全な評価スイートに合格することを必須としてください。ワークフローが変更されたり評価スコアが低下したりした場合はスキルを更新してください。評価が一貫して失敗したり、ワークフローが廃止されたりした場合はスキルを廃止してください。
一般的なガイドラインとして、信頼性の高いリコール精度を維持するために、同時にロードするスキルの数を制限してください。各スキルのメタデータ(名前と説明)は、システムプロンプト内で注意を競い合います。アクティブなスキルが多すぎると、Claudeが適切なスキルを選択できなかったり、関連するスキルを見逃したりする可能性があります。スキルを追加する際に評価スイートを使用してリコール精度を測定し、パフォーマンスが低下したら追加を停止してください。
APIリクエストはリクエストごとに最大8つのスキルをサポートしていることに注意してください(APIでのスキルの使用を参照)。役割が単一のリクエストでサポートされる以上のスキルを必要とする場合は、狭いスキルをより広いものに統合するか、タスクタイプに基づいてリクエストを異なるスキルセットにルーティングすることを検討してください。
チームに対して、広範な多目的スキルではなく、狭いワークフロー固有のスキルから始めることを奨励してください。組織全体でパターンが現れるにつれて、関連するスキルを役割ベースのバンドルに統合してください。
統合するタイミングを決定するために評価を使用してください。統合されたスキルの評価が、それが置き換える個々のスキルと同等のパフォーマンスを確認した場合にのみ、狭いスキルをより広いものにマージしてください。
進行例:
formatting-sales-reports、querying-pipeline-data、updating-crm-recordssales-operations(評価が同等のパフォーマンスを確認した場合)組織全体で一貫した命名規則を使用してください。ベストプラクティスの命名規則セクションにフォーマットガイダンスがあります。
各スキルの内部レジストリを以下の情報とともに維持してください:
各ユーザーのアクティブなスキルセットを集中させるために、組織の役割ごとにスキルをグループ化してください:
各役割ベースのバンドルには、その役割の日常的なワークフローに関連するスキルのみを含める必要があります。
履歴追跡、プルリクエストによるコードレビュー、およびロールバック機能のために、スキルディレクトリをGitに保存してください。各スキルディレクトリ(SKILL.mdとバンドルされたファイルを含む)は、Gitで追跡されるフォルダに自然にマッピングされます。
Skills APIはワークスペーススコープの配布を提供します。APIを介してアップロードされたスキルは、すべてのワークスペースメンバーが利用できます。アップロード、バージョン管理、および管理エンドポイントについては、APIでのスキルの使用を参照してください。
カスタムスキルはサーフェス間で同期されません。APIにアップロードされたスキルは、claude.aiやClaude Codeでは利用できず、その逆も同様です。各サーフェスには個別のアップロードと管理が必要です。
Gitにスキルソースファイルを唯一の信頼できる情報源として維持してください。組織が複数のサーフェスにスキルを展開する場合は、それらを一貫して保つための独自の同期プロセスを実装してください。詳細については、クロスサーフェスの可用性を参照してください。
プログラムによるスキルのアップロードと管理