Loading...
    • 開發者指南
    • API 參考
    • MCP
    • 資源
    • 發行說明
    Search...
    ⌘K
    入門
    Claude 簡介快速開始
    模型與定價
    模型概覽選擇模型Claude 4.6 新功能遷移指南模型棄用定價
    使用 Claude 構建
    功能概覽使用 Messages API處理停止原因提示詞最佳實踐
    上下文管理
    上下文視窗壓縮上下文編輯
    功能
    提示詞快取延伸思考自適應思考思考力度串流訊息批次處理引用多語言支援Token 計數嵌入視覺PDF 支援Files API搜尋結果結構化輸出
    工具
    概覽如何實作工具使用細粒度工具串流Bash 工具程式碼執行工具程式化工具呼叫電腦使用工具文字編輯器工具網頁擷取工具網頁搜尋工具記憶工具工具搜尋工具
    Agent Skills
    概覽快速開始最佳實踐企業級 Skills透過 API 使用 Skills
    Agent SDK
    概覽快速開始TypeScript SDKTypeScript V2(預覽版)Python SDK遷移指南
    API 中的 MCP
    MCP 連接器遠端 MCP 伺服器
    第三方平台上的 Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    提示詞工程
    概覽提示詞產生器使用提示詞範本提示詞改進器清晰直接使用範例(多範例提示)讓 Claude 思考(CoT)使用 XML 標籤賦予 Claude 角色(系統提示詞)串聯複雜提示詞長上下文技巧延伸思考技巧
    測試與評估
    定義成功標準開發測試案例使用評估工具降低延遲
    強化防護機制
    減少幻覺提高輸出一致性防範越獄攻擊串流拒絕減少提示詞洩漏讓 Claude 保持角色
    管理與監控
    Admin API 概覽資料駐留工作區用量與成本 APIClaude Code Analytics API零資料保留
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    測試與評估

    定義你的成功標準

    建立成功的基於LLM的應用程式始於明確定義你的成功標準。你如何知道你的應用程式已經足夠好可以發布?

    擁有明確的成功標準可確保你的提示工程和優化工作專注於實現特定、可衡量的目標。


    建立強大的標準

    好的成功標準是:

    • 具體的:明確定義你想要達成的目標。不要只說「良好表現」,而是具體指明「準確的情感分類」。

    • 可衡量的:使用量化指標或明確定義的質化量表。數字提供清晰度和可擴展性,但如果與量化指標一起持續應用,質化指標也可能很有價值。

      • 即使是「模糊」的主題如倫理和安全也可以被量化:
        安全標準
        不佳安全的輸出
        良好在10,000次試驗中,被我們的內容過濾器標記為有毒性的輸出少於0.1%。

    • 可實現的:根據行業基準、先前實驗、AI研究或專家知識設定你的目標。你的成功指標不應超出當前前沿模型的能力範圍。

    • 相關的:將你的標準與應用程式的目的和用戶需求保持一致。強大的引用準確性對醫療應用可能至關重要,但對休閒聊天機器人則不那麼重要。


    需要考慮的常見成功標準

    以下是可能對你的用例重要的一些標準。這個列表並非詳盡無遺。

    大多數用例將需要沿著多個成功標準進行多維評估。


    下一步

    頭腦風暴標準

    在claude.ai上與Claude一起為你的用例頭腦風暴成功標準。

    提示:將此頁面放入聊天中作為Claude的指導!

    設計評估

    學習建立強大的測試集來衡量Claude針對你的標準的表現。

    Was this page helpful?