Loading...
    • 開發者指南
    • API 參考
    • MCP
    • 資源
    • 發行說明
    Search...
    ⌘K
    入門
    Claude 簡介快速開始
    模型與定價
    模型概覽選擇模型Claude 4.6 新功能遷移指南模型棄用定價
    使用 Claude 構建
    功能概覽使用 Messages API處理停止原因提示詞最佳實踐
    上下文管理
    上下文視窗壓縮上下文編輯
    功能
    提示詞快取延伸思考自適應思考思考力度串流訊息批次處理引用多語言支援Token 計數嵌入視覺PDF 支援Files API搜尋結果結構化輸出
    工具
    概覽如何實作工具使用細粒度工具串流Bash 工具程式碼執行工具程式化工具呼叫電腦使用工具文字編輯器工具網頁擷取工具網頁搜尋工具記憶工具工具搜尋工具
    Agent Skills
    概覽快速開始最佳實踐企業級 Skills透過 API 使用 Skills
    Agent SDK
    概覽快速開始TypeScript SDKTypeScript V2(預覽版)Python SDK遷移指南
    API 中的 MCP
    MCP 連接器遠端 MCP 伺服器
    第三方平台上的 Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    提示詞工程
    概覽提示詞產生器使用提示詞範本提示詞改進器清晰直接使用範例(多範例提示)讓 Claude 思考(CoT)使用 XML 標籤賦予 Claude 角色(系統提示詞)串聯複雜提示詞長上下文技巧延伸思考技巧
    測試與評估
    定義成功標準開發測試案例使用評估工具降低延遲
    強化防護機制
    減少幻覺提高輸出一致性防範越獄攻擊串流拒絕減少提示詞洩漏讓 Claude 保持角色
    管理與監控
    Admin API 概覽資料駐留工作區用量與成本 APIClaude Code Analytics API零資料保留
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    測試與評估

    建立強健的實證評估

    學習如何設計評估來衡量 LLM 效能,包括測試案例設計、評分方法和自動化評估策略。

    在定義成功標準之後,下一步是設計評估來衡量 LLM 相對於這些標準的表現。這是提示工程循環中至關重要的一部分。

    提示工程流程圖:測試案例、初步提示、迭代測試與改進、最終驗證、上線

    本指南著重於如何開發您的測試案例。

    建立評估和測試案例

    評估設計原則

    1. 針對特定任務:設計能反映您真實世界任務分佈的評估。別忘了考慮邊界案例!

    2. 盡可能自動化:將問題結構化以允許自動評分(例如,多選題、字串匹配、程式碼評分、LLM 評分)。
    3. 數量優先於品質:更多問題搭配訊號稍低的自動評分,優於較少問題搭配高品質的人工手動評分評估。

    評估範例

    手動撰寫數百個測試案例可能很困難!讓 Claude 幫助您從基準範例測試案例集生成更多測試案例。
    如果您不確定哪些評估方法可能對評估您的成功標準有用,您也可以與 Claude 進行腦力激盪!

    評估評分

    在決定使用哪種方法對評估進行評分時,選擇最快、最可靠、最具擴展性的方法:

    1. 基於程式碼的評分:最快且最可靠,極具擴展性,但對於需要較少基於規則的嚴格性的更複雜判斷缺乏細微差別。

      • 精確匹配:output == golden_answer
      • 字串匹配:key_phrase in output
    2. 人工評分:最靈活且品質最高,但速度慢且成本高。盡可能避免使用。

    3. 基於 LLM 的評分:快速且靈活,具擴展性且適合複雜判斷。先測試以確保可靠性,然後再擴展規模。

    基於 LLM 評分的技巧

    • 制定詳細、清晰的評分標準:「答案應始終在第一句中提到 'Acme Inc.'。如果沒有,答案將自動被評為『不正確』。」
      特定的使用案例,甚至該使用案例的特定成功標準,可能需要多個評分標準進行全面評估。
    • 實證或具體:例如,指示 LLM 僅輸出 'correct' 或 'incorrect',或從 1-5 的量表進行判斷。純粹的定性評估難以快速且大規模地進行評估。
    • 鼓勵推理:要求 LLM 在決定評估分數之前先進行思考,然後丟棄推理過程。這能提高評估表現,特別是對於需要複雜判斷的任務。

    後續步驟

    腦力激盪評估方案

    學習如何撰寫提示以最大化您的評估分數。

    評估指南手冊

    更多人工、程式碼和 LLM 評分評估的程式碼範例。

    Was this page helpful?

    • 基於 LLM 評分的技巧