Loading...
    • Bangun
    • Admin
    • Model & harga
    • Client SDKs
    • API Reference
    Search...
    ⌘K
    Langkah pertama
    Pengenalan ClaudePanduan cepat
    Membangun dengan Claude
    Ikhtisar fiturMenggunakan Messages APIClaude API skillMenangani alasan penghentian
    Kemampuan model
    Extended thinkingAdaptive thinkingUpayaAnggaran tugas (beta)Mode cepat (beta: pratinjau penelitian)Output terstrukturKutipanStreaming MessagesPemrosesan batchHasil pencarianStreaming penolakanDukungan multibahasaEmbeddings
    Alat
    IkhtisarCara kerja penggunaan alatAlat pencarian webAlat pengambilan webAlat eksekusi kodeAlat penasihatAlat memoriAlat BashAlat penggunaan komputerAlat editor teks
    Infrastruktur alat
    Referensi alatPencarian alatPemanggilan alat terprogramStreaming alat berbutir halus
    Manajemen konteks
    Jendela konteksPemadatanPengeditan konteksPrompt cachingPenghitungan token
    Bekerja dengan file
    Files APIDukungan PDFGambar dan visi
    Skills
    IkhtisarPanduan cepatPraktik terbaikSkills untuk enterpriseSkills dalam API
    MCP
    Server MCP jarak jauhMCP connector
    Rekayasa prompt
    IkhtisarPraktik terbaik promptingAlat prompting Console
    Uji dan evaluasi
    Tentukan kesuksesan dan bangun evaluasiMenggunakan Alat Evaluasi di ConsoleMengurangi latensi
    Perkuat guardrail
    Kurangi halusinasiTingkatkan konsistensi outputMitigasi jailbreakKurangi kebocoran prompt
    Sumber daya
    Glosarium
    Catatan rilis
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Uji dan evaluasi

    Tentukan kriteria kesuksesan dan bangun evaluasi

    Pelajari cara mendefinisikan kriteria kesuksesan yang jelas dan merancang evaluasi untuk mengukur kinerja aplikasi berbasis LLM Anda.

    Was this page helpful?

    • Tentukan kriteria kesuksesan Anda
    • Kriteria kesuksesan umum
    • Bangun evaluasi
    • Prinsip desain eval
    • Contoh eval
    • Nilai evaluasi Anda
    • Tips untuk penilaian berbasis LLM
    • Langkah berikutnya

    Membangun aplikasi berbasis LLM yang sukses dimulai dengan mendefinisikan kriteria kesuksesan Anda dengan jelas dan kemudian merancang evaluasi untuk mengukur kinerja terhadap kriteria tersebut. Siklus ini adalah inti dari prompt engineering.

    Flowchart of prompt engineering: test cases, preliminary prompt, iterative testing and refinement, final validation, ship

    Tentukan kriteria kesuksesan Anda

    Kriteria kesuksesan yang baik adalah:

    • Spesifik: Tentukan dengan jelas apa yang ingin Anda capai. Alih-alih "kinerja yang baik," tentukan "klasifikasi sentimen yang akurat."

    • Terukur: Gunakan metrik kuantitatif atau skala kualitatif yang terdefinisi dengan baik. Angka memberikan kejelasan dan skalabilitas, tetapi ukuran kualitatif dapat berharga jika diterapkan secara konsisten bersama dengan ukuran kuantitatif.

      • Bahkan topik yang "kabur" seperti etika dan keselamatan dapat dikuantifikasi:
        Kriteria Keselamatan
        BurukOutput yang aman
        BaikKurang dari 0,1% dari output dari 10.000 uji coba ditandai untuk toksisitas oleh filter konten kami.

    • Dapat Dicapai: Dasarkan target Anda pada benchmark industri, eksperimen sebelumnya, penelitian AI, atau pengetahuan ahli. Metrik kesuksesan Anda tidak boleh tidak realistis terhadap kemampuan model frontier saat ini.

    • Relevan: Selaraskan kriteria Anda dengan tujuan aplikasi dan kebutuhan pengguna. Akurasi kutipan yang kuat mungkin penting untuk aplikasi medis tetapi kurang penting untuk chatbot santai.

    Kriteria kesuksesan umum

    Berikut adalah beberapa kriteria yang mungkin penting untuk use case Anda. Daftar ini tidak lengkap.

    Sebagian besar use case akan memerlukan evaluasi multidimensional di sepanjang beberapa kriteria kesuksesan.


    Bangun evaluasi

    Prinsip desain eval

    1. Spesifik untuk tugas: Desain eval yang mencerminkan distribusi tugas dunia nyata Anda. Jangan lupa untuk mempertimbangkan edge case!

    2. Otomatisasi jika memungkinkan: Struktur pertanyaan untuk memungkinkan penilaian otomatis (misalnya, pilihan ganda, string match, code-graded, LLM-graded).
    3. Prioritaskan volume daripada kualitas: Lebih banyak pertanyaan dengan penilaian otomatis sinyal yang sedikit lebih rendah lebih baik daripada lebih sedikit pertanyaan dengan eval hand-graded berkualitas tinggi.

    Contoh eval

    Menulis ratusan test case bisa sulit dilakukan dengan tangan! Minta Claude untuk membantu Anda menghasilkan lebih banyak dari serangkaian contoh test case baseline.
    Jika Anda tidak tahu metode eval apa yang mungkin berguna untuk menilai kriteria kesuksesan Anda, Anda juga dapat brainstorm dengan Claude!

    Nilai evaluasi Anda

    Saat memutuskan metode mana yang akan digunakan untuk menilai eval, pilih metode yang tercepat, paling andal, dan paling dapat diskalakan:

    1. Penilaian berbasis kode: Tercepat dan paling andal, sangat dapat diskalakan, tetapi juga kurang bernuansa untuk penilaian yang lebih kompleks yang memerlukan fleksibilitas berbasis aturan yang lebih rendah.

      • Exact match: output == golden_answer
      • String match: key_phrase in output
    2. Penilaian manusia: Paling fleksibel dan berkualitas tinggi, tetapi lambat dan mahal. Hindari jika memungkinkan.

    3. Penilaian berbasis LLM: Cepat dan fleksibel, dapat diskalakan dan cocok untuk penilaian yang kompleks. Uji untuk memastikan keandalan terlebih dahulu kemudian skalakan.

    Tips untuk penilaian berbasis LLM

    • Miliki rubrik yang terperinci dan jelas: "Jawaban harus selalu menyebutkan 'Acme Inc.' di kalimat pertama. Jika tidak, jawaban secara otomatis dinilai sebagai 'tidak benar.'"
      Use case tertentu, atau bahkan kriteria kesuksesan spesifik untuk use case itu, mungkin memerlukan beberapa rubrik untuk evaluasi holistik.
    • Empiris atau spesifik: Misalnya, instruksikan LLM untuk hanya mengeluarkan 'benar' atau 'salah', atau untuk menilai dari skala 1-5. Evaluasi yang murni kualitatif sulit dinilai dengan cepat dan dalam skala besar.
    • Dorong penalaran: Minta LLM untuk berpikir terlebih dahulu sebelum memutuskan skor evaluasi, kemudian buang penalarannya. Ini meningkatkan kinerja evaluasi, terutama untuk tugas yang memerlukan penilaian yang kompleks.

    Langkah berikutnya

    Brainstorm kriteria

    Brainstorm kriteria kesuksesan untuk use case Anda dengan Claude di claude.ai.

    Tip: Masukkan halaman ini ke dalam chat sebagai panduan untuk Claude!

    Evals cookbook

    Lebih banyak contoh kode eval yang dinilai oleh manusia, kode, dan LLM.