Loading...
    • 建構
    • 管理
    • 模型與定價
    • 客戶端 SDK
    • API 參考
    Search...
    ⌘K
    第一步
    Claude 簡介快速入門
    使用 Claude 建構
    功能概覽使用 Messages API處理停止原因
    模型功能
    延伸思考自適應思考效能快速模式(測試版:研究預覽)結構化輸出引用來源串流訊息批次處理搜尋結果串流拒絕多語言支援嵌入向量
    工具
    概覽工具使用方式網路搜尋工具網路擷取工具程式碼執行工具記憶體工具Bash 工具電腦使用工具文字編輯器工具
    工具基礎架構
    工具搜尋程式化工具呼叫細粒度工具串流
    上下文管理
    上下文視窗壓縮上下文編輯提示快取Token 計數
    處理檔案
    Files APIPDF 支援圖像與視覺
    技能
    概覽快速入門最佳實踐企業版技能API 中的技能
    MCP
    遠端 MCP 伺服器MCP 連接器
    提示工程
    概覽提示最佳實踐Console 提示工具
    測試與評估
    定義成功標準並建立評估在 Console 中使用評估工具降低延遲
    強化防護欄
    減少幻覺提高輸出一致性防範越獄減少提示洩漏
    資源
    詞彙表
    版本說明
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    測試與評估

    使用評估工具

    Claude Console 具有評估工具功能,讓您可以在各種情境下測試您的提示。

    存取評估功能

    要開始使用評估工具:

    1. 開啟 Claude Console 並導航到提示編輯器。
    2. 撰寫完提示後,在螢幕頂部尋找「評估」標籤。

    存取評估功能

    確保您的提示包含至少 1-2 個使用雙大括號語法的動態變數:{{variable}}。這是建立評估測試集的必要條件。

    生成提示

    Console 提供內建的 提示生成器,由 Claude Opus 4.1 驅動:

    1. 1

      點擊「生成提示」

      點擊「生成提示」輔助工具將開啟一個模態視窗,讓您輸入任務資訊。

    2. 2

      描述您的任務

      描述您想要的任務(例如,「分類入站客戶支援請求」),可以提供詳細或簡略的描述。您提供的上下文越多,Claude 就越能針對您的特定需求量身定制生成的提示。

    3. 3

      生成您的提示

      點擊底部的橙色「生成提示」按鈕,Claude 將為您生成高品質的提示。然後您可以使用 Console 中的評估螢幕進一步改善這些提示。

    此功能讓建立具有適當變數語法的提示變得更容易,以便進行評估。

    提示生成器

    建立測試案例

    當您存取評估螢幕時,您有幾個選項來建立測試案例:

    1. 點擊左下角的「+ 新增行」按鈕手動新增案例。
    2. 使用「生成測試案例」功能讓 Claude 自動為您生成測試案例。
    3. 從 CSV 檔案匯入測試案例。

    要使用「生成測試案例」功能:

    1. 1

      點擊「生成測試案例」

      Claude 將為您生成測試案例,每次點擊按鈕時一次生成一行。

    2. 2

      編輯生成邏輯(可選)

      您也可以透過點擊「生成測試案例」按鈕右側的箭頭下拉選單,然後點擊彈出的變數視窗頂部的「顯示生成邏輯」來編輯測試案例生成邏輯。您可能需要點擊此視窗右上角的「生成」來填入初始生成邏輯。

      編輯此項目可讓您自訂和微調 Claude 生成的測試案例,以獲得更高的精確度和特異性。

    以下是包含多個測試案例的已填入評估螢幕範例:

    已填入的評估螢幕

    如果您更新原始提示文字,您可以對新提示重新執行整個評估套件,以查看變更如何影響所有測試案例的效能。

    有效評估的技巧

    使用 Console 中的「生成提示」輔助工具快速建立具有適當變數語法的提示以進行評估。

    理解和比較結果

    評估工具提供多項功能來幫助您改善提示:

    1. 並排比較:比較兩個或多個提示的輸出,快速查看您的變更所產生的影響。
    2. 品質評分:使用 5 分制對回應品質進行評分,以追蹤每個提示的回應品質改善情況。
    3. 提示版本控制:建立提示的新版本並重新執行測試套件,以快速迭代和改善結果。

    透過檢視各測試案例的結果並比較不同的提示版本,您可以發現模式並更有效率地對提示進行明智的調整。

    立即開始評估您的提示,使用 Claude 建立更強健的 AI 應用程式!

    Was this page helpful?