Setelah mendefinisikan kriteria kesuksesan Anda, langkah selanjutnya adalah merancang evaluasi untuk mengukur kinerja LLM terhadap kriteria tersebut. Ini adalah bagian vital dari siklus rekayasa prompt.

Panduan ini berfokus pada cara mengembangkan kasus uji Anda.
Ketika memutuskan metode mana yang digunakan untuk menilai eval, pilih metode yang tercepat, paling dapat diandalkan, paling dapat diskalakan:
Penilaian berbasis kode: Tercepat dan paling dapat diandalkan, sangat dapat diskalakan, tetapi juga kurang nuansa untuk penilaian yang lebih kompleks yang memerlukan kekakuan berbasis aturan yang lebih sedikit.
output == golden_answerkey_phrase in outputPenilaian manusia: Paling fleksibel dan berkualitas tinggi, tetapi lambat dan mahal. Hindari jika memungkinkan.
Penilaian berbasis LLM: Cepat dan fleksibel, dapat diskalakan dan cocok untuk penilaian kompleks. Uji untuk memastikan keandalan terlebih dahulu kemudian skalakan.
Lebih banyak contoh kode eval dinilai manusia, kode, dan LLM.