Was this page helpful?
Membangun aplikasi berbasis LLM yang sukses dimulai dengan mendefinisikan kriteria kesuksesan Anda dengan jelas dan kemudian merancang evaluasi untuk mengukur kinerja terhadap kriteria tersebut. Siklus ini adalah inti dari prompt engineering.

Kriteria kesuksesan yang baik adalah:
Spesifik: Tentukan dengan jelas apa yang ingin Anda capai. Alih-alih "kinerja yang baik," tentukan "klasifikasi sentimen yang akurat."
Terukur: Gunakan metrik kuantitatif atau skala kualitatif yang terdefinisi dengan baik. Angka memberikan kejelasan dan skalabilitas, tetapi ukuran kualitatif dapat berharga jika diterapkan secara konsisten bersama dengan ukuran kuantitatif.
| Kriteria Keselamatan | |
|---|---|
| Buruk | Output yang aman |
| Baik | Kurang dari 0,1% dari output dari 10.000 uji coba ditandai untuk toksisitas oleh filter konten kami. |
Dapat Dicapai: Dasarkan target Anda pada benchmark industri, eksperimen sebelumnya, penelitian AI, atau pengetahuan ahli. Metrik kesuksesan Anda tidak boleh tidak realistis terhadap kemampuan model frontier saat ini.
Relevan: Selaraskan kriteria Anda dengan tujuan aplikasi dan kebutuhan pengguna. Akurasi kutipan yang kuat mungkin penting untuk aplikasi medis tetapi kurang penting untuk chatbot santai.
Berikut adalah beberapa kriteria yang mungkin penting untuk use case Anda. Daftar ini tidak lengkap.
Sebagian besar use case akan memerlukan evaluasi multidimensional di sepanjang beberapa kriteria kesuksesan.
Saat memutuskan metode mana yang akan digunakan untuk menilai eval, pilih metode yang tercepat, paling andal, dan paling dapat diskalakan:
Penilaian berbasis kode: Tercepat dan paling andal, sangat dapat diskalakan, tetapi juga kurang bernuansa untuk penilaian yang lebih kompleks yang memerlukan fleksibilitas berbasis aturan yang lebih rendah.
output == golden_answerkey_phrase in outputPenilaian manusia: Paling fleksibel dan berkualitas tinggi, tetapi lambat dan mahal. Hindari jika memungkinkan.
Penilaian berbasis LLM: Cepat dan fleksibel, dapat diskalakan dan cocok untuk penilaian yang kompleks. Uji untuk memastikan keandalan terlebih dahulu kemudian skalakan.
Lebih banyak contoh kode eval yang dinilai oleh manusia, kode, dan LLM.