Berikut adalah beberapa indikator utama bahwa Anda sebaiknya menggunakan LLM seperti Claude alih-alih pendekatan ML tradisional untuk tugas klasifikasi Anda:
Sebelum terjun ke otomatisasi, sangat penting untuk memahami sistem tiket Anda yang sudah ada. Mulailah dengan menyelidiki bagaimana tim dukungan Anda saat ini menangani perutean tiket.
Pertimbangkan pertanyaan seperti:
Semakin banyak Anda tahu tentang bagaimana manusia menangani kasus tertentu, semakin baik Anda dapat bekerja dengan Claude untuk melakukan tugas tersebut.
Daftar kategori maksud pengguna yang terdefinisi dengan baik sangat penting untuk klasifikasi tiket dukungan yang akurat dengan Claude. Kemampuan Claude untuk merutekan tiket secara efektif dalam sistem Anda berbanding lurus dengan seberapa baik kategori sistem Anda didefinisikan.
Berikut adalah beberapa contoh kategori dan subkategori maksud pengguna.
Selain maksud, perutean dan prioritas tiket juga dapat dipengaruhi oleh faktor lain seperti urgensi, jenis pelanggan, SLA, atau bahasa. Pastikan untuk mempertimbangkan kriteria perutean lainnya saat membangun sistem perutean otomatis Anda.
Bekerja samalah dengan tim dukungan Anda untuk mendefinisikan kriteria keberhasilan yang jelas dengan tolok ukur, ambang batas, dan tujuan yang terukur.
Berikut adalah beberapa kriteria dan tolok ukur standar saat menggunakan LLM untuk perutean tiket dukungan:
Berikut adalah beberapa kriteria keberhasilan umum yang mungkin berguna terlepas dari apakah LLM digunakan atau tidak:
Pilihan model bergantung pada pertimbangan antara biaya, akurasi, dan waktu respons.
Banyak pelanggan menemukan bahwa claude-haiku-4-5-20251001 adalah model yang ideal untuk perutean tiket, karena merupakan model tercepat dan paling hemat biaya dalam keluarga Claude 4 sambil tetap memberikan hasil yang sangat baik. Jika masalah klasifikasi Anda memerlukan keahlian subjek yang mendalam atau volume kategori maksud yang besar dengan penalaran kompleks, Anda dapat memilih model Sonnet yang lebih besar.
Perutean tiket adalah jenis tugas klasifikasi. Claude menganalisis konten tiket dukungan dan mengklasifikasikannya ke dalam kategori yang telah ditentukan berdasarkan jenis masalah, urgensi, keahlian yang diperlukan, atau faktor relevan lainnya.
Mari kita tulis prompt klasifikasi tiket. Prompt awal kita harus berisi konten permintaan pengguna dan mengembalikan penalaran serta maksud.
Coba prompt generator di Claude Console agar Claude menulis draf pertama untuk Anda.
Berikut adalah contoh prompt klasifikasi perutean tiket:
def classify_support_request(ticket_contents):
# Definisikan prompt untuk tugas klasifikasi
classification_prompt = f"""You will be acting as a customer support ticket classification system. Your task is to analyze customer support requests and output the appropriate classification intent for each request, along with your reasoning.
Here is the customer support request you need to classify:
<request>{ticket_contents}</request>
Please carefully analyze the above request to determine the customer's core intent and needs. Consider what the customer is asking for has concerns about.
First, write out your reasoning and analysis of how to classify this request inside <reasoning> tags.
Then, output the appropriate classification label for the request inside a <intent> tag. The valid intents are:
<intents>
<intent>Support, Feedback, Complaint</intent>
<intent>Order Tracking</intent>
<intent>Refund/Exchange</intent>
</intents>
A request may have ONLY ONE applicable intent. Only include the intent that is most applicable to the request.
As an example, consider the following request:
<request>Hello! I had high-speed fiber internet installed on Saturday and my installer, Kevin, was absolutely fantastic! Where can I send my positive review? Thanks for your help!</request>
Here is an example of how your output should be formatted (for the above example request):
<reasoning>The user seeks information in order to leave positive feedback.</reasoning>
<intent>Support, Feedback, Complaint</intent>
Here are a few more examples:
<examples>
<example 2>
Example 2 Input:
<request>I wanted to write and personally thank you for the compassion you showed towards my family during my father's funeral this past weekend. Your staff was so considerate and helpful throughout this whole process; it really took a load off our shoulders. The visitation brochures were beautiful. We'll never forget the kindness you showed us and we are so appreciative of how smoothly the proceedings went. Thank you, again, Amarantha Hill on behalf of the Hill Family.</request>
Example 2 Output:
<reasoning>User leaves a positive review of their experience.</reasoning>
<intent>Support, Feedback, Complaint</intent>
</example 2>
<example 3>
...
</example 8>
<example 9>
Example 9 Input:
<request>Your website keeps sending ad-popups that block the entire screen. It took me twenty minutes just to finally find the phone number to call and complain. How can I possibly access my account information with all of these popups? Can you access my account for me, since your website is broken? I need to know what the address is on file.</request>
Example 9 Output:
<reasoning>The user requests help accessing their web account information.</reasoning>
<intent>Support, Feedback, Complaint</intent>
</example 9>
Remember to always include your classification reasoning before your actual intent output. The reasoning should be enclosed in <reasoning> tags and the intent in <intent> tags. Return only the reasoning and the intent.
"""Mari kita uraikan komponen utama dari prompt ini:
ticket_contents disisipkan ke dalam tag <request>.<reasoning>, diikuti oleh label klasifikasi yang sesuai di dalam tag <intent>.Alasan kita ingin Claude membagi responsnya ke dalam berbagai bagian tag XML adalah agar kita dapat menggunakan ekspresi reguler untuk mengekstrak penalaran dan maksud secara terpisah dari output. Ini memungkinkan kita untuk membuat langkah selanjutnya yang ditargetkan dalam alur kerja perutean tiket, seperti hanya menggunakan maksud untuk memutuskan kepada siapa tiket akan dirutekan.
Sulit untuk mengetahui seberapa baik prompt Anda bekerja tanpa menerapkannya dalam pengaturan produksi uji dan menjalankan evaluasi.
Mari kita bangun struktur penerapan. Mulailah dengan mendefinisikan signature metode untuk membungkus panggilan kita ke Claude. Kita akan mengambil metode yang sudah mulai kita tulis, yang memiliki ticket_contents sebagai input, dan sekarang mengembalikan tuple reasoning dan intent sebagai output. Jika Anda memiliki otomatisasi yang sudah ada menggunakan ML tradisional, Anda sebaiknya mengikuti signature metode tersebut.
import re
# Buat instance dari klien API Claude
client = anthropic.Anthropic()
# Tetapkan model default
DEFAULT_MODEL = "claude-haiku-4-5-20251001"
def classify_support_request(ticket_contents):
# Definisikan prompt untuk tugas klasifikasi
classification_prompt = f"""You will be acting as a customer support ticket classification system.
...
... The reasoning should be enclosed in <reasoning> tags and the intent in <intent> tags. Return only the reasoning and the intent.
"""
# Kirim prompt ke API untuk mengklasifikasikan permintaan dukungan.
message = client.messages.create(
model=DEFAULT_MODEL,
max_tokens=500,
temperature=0,
messages=[{"role": "user", "content": classification_prompt}],
stream=False,
)
reasoning_and_intent = message.content[0].text
# Gunakan pustaka regular expression Python untuk mengekstrak `reasoning`.
reasoning_match = re.search(
r"<reasoning>(.*?)</reasoning>", reasoning_and_intent, re.DOTALL
)
reasoning = reasoning_match.group(1).strip() if reasoning_match else ""
# Dengan cara serupa, ekstrak juga `intent`.
intent_match = re.search(r"<intent>(.*?)</intent>", reasoning_and_intent, re.DOTALL)
intent = intent_match.group(1).strip() if intent_match else ""
return reasoning, intentKode ini:
classify_support_request yang menerima string ticket_contents.ticket_contents ke Claude untuk klasifikasi menggunakan classification_promptreasoning dan intent model yang diekstrak dari respons.Karena kita perlu menunggu seluruh teks penalaran dan maksud dihasilkan sebelum mem-parsing, kita mengatur stream=False (default).
Prompting sering kali memerlukan pengujian dan optimasi agar siap untuk produksi. Untuk menentukan kesiapan solusi Anda, evaluasi kinerja berdasarkan kriteria keberhasilan dan ambang batas yang telah Anda tetapkan sebelumnya.
Untuk menjalankan evaluasi Anda, Anda memerlukan kasus uji untuk dijalankan. Sisa panduan ini mengasumsikan Anda telah mengembangkan kasus uji Anda.
Contoh evaluasi kami untuk panduan ini mengukur kinerja Claude berdasarkan tiga metrik utama:
Anda mungkin perlu menilai Claude pada sumbu lain tergantung pada faktor apa yang penting bagi Anda.
Untuk menilai ini, pertama-tama kita harus memodifikasi skrip yang kita tulis dan menambahkan fungsi untuk membandingkan maksud yang diprediksi dengan maksud sebenarnya dan menghitung persentase prediksi yang benar. Kita juga harus menambahkan fungsionalitas perhitungan biaya dan pengukuran waktu.
import re
# Buat instance dari klien API Claude
client = anthropic.Anthropic()
# Tetapkan model default
DEFAULT_MODEL = "claude-haiku-4-5-20251001"
def classify_support_request(request, actual_intent):
# Definisikan prompt untuk tugas klasifikasi
classification_prompt = f"""You will be acting as a customer support ticket classification system.
...
...The reasoning should be enclosed in <reasoning> tags and the intent in <intent> tags. Return only the reasoning and the intent.
"""
message = client.messages.create(
model=DEFAULT_MODEL,
max_tokens=500,
temperature=0,
messages=[{"role": "user", "content": classification_prompt}],
)
usage = message.usage # Get the usage statistics for the API call for how many input and output tokens were used.
reasoning_and_intent = message.content[0].text
# Gunakan pustaka regular expression Python untuk mengekstrak `reasoning`.
reasoning_match = re.search(
r"<reasoning>(.*?)</reasoning>", reasoning_and_intent, re.DOTALL
)
reasoning = reasoning_match.group(1).strip() if reasoning_match else ""
# Dengan cara serupa, ekstrak juga `intent`.
intent_match = re.search(r"<intent>(.*?)</intent>", reasoning_and_intent, re.DOTALL)
intent = intent_match.group(1).strip() if intent_match else ""
# Periksa apakah prediksi model sudah benar.
correct = actual_intent.strip() == intent.strip()
# Kembalikan reasoning, intent, correct, dan usage.
return reasoning, intent, correct, usageMari kita uraikan perubahan yang telah kita buat:
actual_intent dari kasus uji kita ke dalam metode classify_support_request dan menyiapkan perbandingan untuk menilai apakah klasifikasi maksud Claude cocok dengan klasifikasi maksud acuan kita.Evaluasi yang tepat memerlukan ambang batas dan tolok ukur yang jelas untuk menentukan apa yang merupakan hasil yang baik. Skrip di atas memberi kita nilai runtime untuk akurasi, waktu respons, dan biaya per klasifikasi, tetapi kita masih memerlukan ambang batas yang ditetapkan dengan jelas. Misalnya:
Memiliki ambang batas ini memungkinkan Anda untuk dengan cepat dan mudah mengetahui dalam skala besar, dan dengan empirisme yang tidak memihak, metode mana yang terbaik untuk Anda dan perubahan apa yang mungkin perlu dilakukan agar lebih sesuai dengan kebutuhan Anda.
Dalam skenario yang kompleks, mungkin berguna untuk mempertimbangkan strategi tambahan untuk meningkatkan kinerja di luar teknik rekayasa prompt standar & strategi implementasi guardrail. Berikut adalah beberapa skenario umum:
Seiring bertambahnya jumlah kelas, jumlah contoh yang diperlukan juga bertambah, yang berpotensi membuat prompt menjadi tidak praktis. Sebagai alternatif, Anda dapat mempertimbangkan untuk menerapkan sistem klasifikasi hierarkis menggunakan campuran pengklasifikasi.
Misalnya, Anda mungkin memiliki pengklasifikasi tingkat atas yang secara luas mengkategorikan tiket ke dalam "Technical Issues," "Billing Questions," dan "General Inquiries." Masing-masing kategori ini kemudian dapat memiliki sub-pengklasifikasi sendiri untuk lebih menyempurnakan klasifikasi.

Kelebihan - nuansa dan akurasi yang lebih besar: Anda dapat membuat prompt yang berbeda untuk setiap jalur induk, memungkinkan klasifikasi yang lebih terarah dan spesifik konteks. Ini dapat menghasilkan akurasi yang lebih baik dan penanganan permintaan pelanggan yang lebih bernuansa.
Kekurangan - latensi yang meningkat: Perlu diketahui bahwa beberapa pengklasifikasi dapat menyebabkan peningkatan "latency" (latensi), dan kami merekomendasikan untuk menerapkan pendekatan ini dengan model tercepat kami, Haiku.
Meskipun memberikan contoh adalah cara paling efektif untuk meningkatkan kinerja, jika permintaan dukungan sangat bervariasi, mungkin sulit untuk menyertakan cukup contoh dalam satu prompt.
Dalam skenario ini, Anda dapat menggunakan database vektor untuk melakukan pencarian kemiripan dari dataset contoh dan mengambil contoh yang paling relevan untuk kueri tertentu.
Pendekatan ini, yang diuraikan secara rinci dalam resep klasifikasi kami, telah terbukti meningkatkan kinerja dari akurasi 71% menjadi akurasi 93%.
Berikut adalah beberapa skenario di mana Claude mungkin salah mengklasifikasikan tiket (mungkin ada skenario lain yang unik untuk situasi Anda). Dalam skenario ini, pertimbangkan untuk memberikan instruksi atau contoh eksplisit dalam prompt tentang bagaimana Claude harus menangani kasus tepi:
Integrasi yang tepat mengharuskan Anda membuat beberapa keputusan mengenai bagaimana skrip perutean tiket berbasis Claude Anda cocok dengan arsitektur sistem perutean tiket Anda yang lebih besar. Ada dua cara yang dapat Anda lakukan:
Untuk kedua pendekatan ini, Anda perlu membungkus skrip Anda dalam sebuah layanan. Pilihan pendekatan bergantung pada API apa yang disediakan oleh sistem tiket dukungan Anda.
Kunjungi cookbook klasifikasi kami untuk lebih banyak contoh kode dan panduan evaluasi yang terperinci.
Mulai membangun dan mengevaluasi alur kerja Anda di Claude Console.
Was this page helpful?