最佳實務測試與評估

使用評估工具

Claude Console 提供了一個評估工具，讓您能夠在各種情境下測試您的提示。

存取評估功能

若要開始使用評估工具：

開啟 Claude Console 並導覽至提示編輯器。
撰寫完提示後，在畫面頂端尋找「Evaluate」分頁。

存取評估功能

請確保您的提示包含至少 1-2 個使用雙大括號語法的動態變數：{{variable}}。這是建立評估測試集的必要條件。

生成提示

Console 提供了一個由 Claude Sonnet 4.5 驅動的內建提示生成器：

點擊「Generate Prompt」
點擊「Generate Prompt」輔助工具將會開啟一個對話視窗，讓您輸入任務資訊。
描述您的任務
描述您想要的任務（例如：「分類處理客戶支援的來訊請求」），詳細程度可依您的需求而定。您提供的上下文越多，Claude 就越能根據您的特定需求量身打造生成的提示。
生成您的提示
點擊底部的橘色「Generate Prompt」按鈕，Claude 將為您生成高品質的提示。接著，您可以使用 Console 中的評估畫面進一步改善這些提示。

此功能讓您更容易建立具有適當變數語法的提示以進行評估。

提示生成器

建立測試案例

當您進入評估畫面時，有幾種方式可以建立測試案例：

點擊左下角的「+ Add Row」按鈕以手動新增案例。
使用「Generate Test Case」功能，讓 Claude 自動為您生成測試案例。
從 CSV 檔案匯入測試案例。

若要使用「Generate Test Case」功能：

點擊「Generate Test Case」
Claude 將為您生成測試案例，每次點擊按鈕會生成一列。
編輯生成邏輯（選用）
您也可以點擊「Generate Test Case」按鈕右側的下拉箭頭，然後在彈出的 Variables 視窗頂端點擊「Show generation logic」來編輯測試案例的生成邏輯。您可能需要點擊此視窗右上角的「Generate」以填入初始的生成邏輯。
編輯此項目可讓您自訂和微調 Claude 生成的測試案例，以達到更高的精確度和針對性。

以下是一個已填入多個測試案例的評估畫面範例：

已填入的評估畫面

如果您更新了原始提示文字，可以針對新提示重新執行整個評估套件，以查看變更如何影響所有測試案例的效能。

有效評估的技巧

使用 Console 中的「Generate a prompt」輔助工具，快速建立具有適當變數語法的提示以進行評估。

理解與比較結果

評估工具提供了多項功能來協助您改善提示：

並排比較：比較兩個或多個提示的輸出，以快速查看變更所帶來的影響。
品質評分：以 5 分制評定回應品質，以追蹤每個提示的回應品質改善情況。
提示版本管理：建立提示的新版本並重新執行測試套件，以快速迭代並改善結果。

透過檢視各測試案例的結果並比較不同的提示版本，您可以發現規律並更有效率地對提示進行明智的調整。

立即開始評估您的提示，使用 Claude 打造更穩健的 AI 應用程式！

Was this page helpful?

生成提示

Console 提供了一個由 Claude Sonnet 4.5 驅動的內建提示生成器：

點擊「Generate Prompt」
點擊「Generate Prompt」輔助工具將會開啟一個對話視窗，讓您輸入任務資訊。
描述您的任務
描述您想要的任務（例如：「分類處理客戶支援的來訊請求」），詳細程度可依您的需求而定。您提供的上下文越多，Claude 就越能根據您的特定需求量身打造生成的提示。
生成您的提示
點擊底部的橘色「Generate Prompt」按鈕，Claude 將為您生成高品質的提示。接著，您可以使用 Console 中的評估畫面進一步改善這些提示。

此功能讓您更容易建立具有適當變數語法的提示以進行評估。

建立測試案例

當您進入評估畫面時，有幾種方式可以建立測試案例：

點擊左下角的「+ Add Row」按鈕以手動新增案例。

使用「Generate Test Case」功能，讓 Claude 自動為您生成測試案例。

從 CSV 檔案匯入測試案例。

若要使用「Generate Test Case」功能：

點擊「Generate Test Case」
Claude 將為您生成測試案例，每次點擊按鈕會生成一列。
編輯生成邏輯（選用）
您也可以點擊「Generate Test Case」按鈕右側的下拉箭頭，然後在彈出的 Variables 視窗頂端點擊「Show generation logic」來編輯測試案例的生成邏輯。您可能需要點擊此視窗右上角的「Generate」以填入初始的生成邏輯。
編輯此項目可讓您自訂和微調 Claude 生成的測試案例，以達到更高的精確度和針對性。

以下是一個已填入多個測試案例的評估畫面範例：

如果您更新了原始提示文字，可以針對新提示重新執行整個評估套件，以查看變更如何影響所有測試案例的效能。

理解與比較結果

評估工具提供了多項功能來協助您改善提示：

並排比較：比較兩個或多個提示的輸出，以快速查看變更所帶來的影響。

品質評分：以 5 分制評定回應品質，以追蹤每個提示的回應品質改善情況。

提示版本管理：建立提示的新版本並重新執行測試套件，以快速迭代並改善結果。

透過檢視各測試案例的結果並比較不同的提示版本，您可以發現規律並更有效率地對提示進行明智的調整。

立即開始評估您的提示，使用 Claude 打造更穩健的 AI 應用程式！

Was this page helpful?

存取評估功能

生成提示

建立測試案例

有效評估的技巧

用於評估的提示結構

理解與比較結果

存取評估功能

生成提示

建立測試案例

有效評估的技巧

用於評估的提示結構

理解與比較結果

存取評估功能

生成提示

建立測試案例

有效評估的技巧

理解與比較結果

存取評估功能

生成提示

建立測試案例

有效評估的技巧

理解與比較結果