Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
成功基準を定義した後、次のステップはそれらの基準に対してLLMのパフォーマンスを測定するための評価を設計することです。これはプロンプトエンジニアリングサイクルの重要な部分です。

このガイドでは、テストケースの開発方法に焦点を当てます。
評価を採点するためにどの方法を使用するかを決定する際は、最も高速で、最も信頼性が高く、最もスケーラブルな方法を選択してください:
コードベースの採点: 最も高速で信頼性が高く、非常にスケーラブルですが、ルールベースの厳格さを必要としない複雑な判断には微妙さが欠けます。
output == golden_answerkey_phrase in output人間による採点: 最も柔軟で高品質ですが、遅くて高価です。可能であれば避けてください。
LLMベースの採点: 高速で柔軟、スケーラブルで複雑な判断に適しています。まず信頼性をテストしてからスケールしてください。
人間、コード、LLM採点評価のより多くのコード例。