Claude Platform Docs
  • Messages
  • Managed Agents
  • Admin

Search...
⌘K
Kasus penggunaan
IkhtisarPerutean tiketAgen dukungan pelangganModerasi kontenRingkasan hukum
Rekayasa prompt
IkhtisarPraktik terbaik promptingPrompting Claude Fable 5Prompting Claude Opus 4.8Prompting Claude Sonnet 5Alat prompting Console
Uji dan evaluasi
Mendefinisikan keberhasilan dan membangun evaluasiMenggunakan Alat Evaluasi di ConsoleMengurangi latensi
Memperkuat pagar pembatas
Mengurangi halusinasiMeningkatkan konsistensi outputMemitigasi jailbreakMengurangi kebocoran prompt
Referensi
Glosarium

Log in
Mendefinisikan keberhasilan dan membangun evaluasi
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Praktik terbaik/Uji dan evaluasi

Tentukan kriteria keberhasilan dan bangun evaluasi

Membangun aplikasi berbasis LLM yang sukses dimulai dengan mendefinisikan kriteria keberhasilan Anda secara jelas, lalu merancang evaluasi untuk mengukur kinerja terhadap kriteria tersebut. Siklus ini merupakan inti dari "prompt engineering" (rekayasa prompt).

Diagram alur prompt engineering: kasus uji, prompt awal, pengujian dan penyempurnaan iteratif, validasi akhir, rilis

Tentukan kriteria keberhasilan Anda

Kriteria keberhasilan yang baik bersifat:

  • Spesifik: Definisikan dengan jelas apa yang ingin Anda capai. Alih-alih "kinerja yang baik," tentukan "klasifikasi sentimen yang akurat."

  • Terukur: Gunakan metrik kuantitatif atau skala kualitatif yang terdefinisi dengan baik. Angka memberikan kejelasan dan skalabilitas, tetapi ukuran kualitatif dapat bernilai jika diterapkan secara konsisten bersama dengan ukuran kuantitatif.

    • Bahkan topik yang "kabur" seperti etika dan keamanan dapat dikuantifikasi:
      Kriteria keamanan
      BurukOutput yang aman
      BaikKurang dari 0,1% output dari 10.000 percobaan ditandai sebagai toksik oleh filter konten kami.

  • Dapat dicapai: Dasarkan target Anda pada tolok ukur industri, eksperimen sebelumnya, riset AI, atau pengetahuan ahli. Metrik keberhasilan Anda tidak boleh tidak realistis terhadap kemampuan model frontier saat ini.

  • Relevan: Selaraskan kriteria Anda dengan tujuan aplikasi dan kebutuhan pengguna. Akurasi sitasi yang kuat mungkin sangat penting untuk aplikasi medis, tetapi tidak begitu penting untuk chatbot kasual.

Kriteria keberhasilan yang umum

Berikut adalah beberapa kriteria yang mungkin penting untuk kasus penggunaan Anda. Daftar ini tidak lengkap.

Sebagian besar kasus penggunaan akan memerlukan evaluasi multidimensi di sepanjang beberapa kriteria keberhasilan.


Bangun evaluasi

Prinsip desain evaluasi

  1. Spesifik terhadap tugas: Rancang evaluasi yang mencerminkan distribusi tugas dunia nyata Anda. Jangan lupa memperhitungkan kasus tepi!

  2. Otomatisasi jika memungkinkan: Susun pertanyaan agar memungkinkan penilaian otomatis (misalnya, pilihan ganda, pencocokan string, penilaian berbasis kode, penilaian berbasis LLM).
  3. Prioritaskan volume daripada kualitas: Lebih banyak pertanyaan dengan penilaian otomatis bersinyal sedikit lebih rendah lebih baik daripada lebih sedikit pertanyaan dengan evaluasi berkualitas tinggi yang dinilai manusia secara manual.

Contoh evaluasi


Menulis ratusan kasus uji bisa sulit dilakukan secara manual! Minta Claude membantu Anda menghasilkan lebih banyak dari kumpulan dasar contoh kasus uji.

Jika Anda tidak tahu metode evaluasi apa yang mungkin berguna untuk menilai kriteria keberhasilan Anda, Anda juga dapat melakukan brainstorming dengan Claude!

Nilai evaluasi Anda

Saat memutuskan metode mana yang akan digunakan untuk menilai evaluasi, pilih metode yang paling cepat, paling andal, dan paling dapat diskalakan:

  1. Penilaian berbasis kode: Paling cepat dan paling andal, sangat dapat diskalakan, tetapi juga kurang bernuansa untuk penilaian yang lebih kompleks yang memerlukan kekakuan berbasis aturan yang lebih rendah.

    • Pencocokan persis: output == golden_answer
    • Pencocokan string: key_phrase in output
  2. Penilaian manusia: Paling fleksibel dan berkualitas tinggi, tetapi lambat dan mahal. Hindari jika memungkinkan.

  3. Penilaian berbasis LLM: Cepat dan fleksibel, dapat diskalakan dan cocok untuk penilaian kompleks. Uji terlebih dahulu untuk memastikan keandalan, lalu skalakan.

Tips untuk penilaian berbasis LLM

  • Miliki rubrik yang detail dan jelas: "Jawaban harus selalu menyebutkan 'Acme Inc.' di kalimat pertama. Jika tidak, jawaban secara otomatis dinilai sebagai 'salah.'"
    
    Suatu kasus penggunaan tertentu, atau bahkan kriteria keberhasilan spesifik untuk kasus penggunaan tersebut, mungkin memerlukan beberapa rubrik untuk evaluasi holistik.
  • Empiris atau spesifik: Misalnya, instruksikan LLM untuk hanya menghasilkan 'benar' atau 'salah', atau untuk menilai dari skala 1-5. Evaluasi yang murni kualitatif sulit dinilai dengan cepat dan dalam skala besar.
  • Dorong penalaran: Minta LLM untuk berpikir terlebih dahulu sebelum memutuskan skor evaluasi, lalu buang penalarannya. Ini meningkatkan kinerja evaluasi, terutama untuk tugas yang memerlukan penilaian kompleks.

Langkah selanjutnya


Brainstorming kriteria


Lakukan brainstorming kriteria keberhasilan untuk kasus penggunaan Anda dengan Claude di claude.ai.

Tip: Masukkan halaman ini ke dalam chat sebagai panduan untuk Claude!


Cookbook evaluasi


Lebih banyak contoh kode evaluasi yang dinilai manusia, kode, dan LLM.

Was this page helpful?

  • Tentukan kriteria keberhasilan Anda
  • Kriteria keberhasilan yang umum
  • Bangun evaluasi
  • Prinsip desain evaluasi
  • Contoh evaluasi
  • Nilai evaluasi Anda
  • Tips untuk penilaian berbasis LLM
  • Langkah selanjutnya