Was this page helpful?
성공적인 LLM 기반 애플리케이션을 구축하려면 먼저 성공 기준을 명확히 정의한 후 이에 대한 성능을 측정하는 평가를 설계해야 합니다. 이 순환 과정은 프롬프트 엔지니어링의 중심입니다.

좋은 성공 기준은 다음과 같습니다:
구체적: 달성하고자 하는 것을 명확히 정의합니다. "좋은 성능"이 아니라 "정확한 감정 분류"와 같이 구체적으로 명시합니다.
측정 가능: 정량적 지표 또는 잘 정의된 정성적 척도를 사용합니다. 숫자는 명확성과 확장성을 제공하지만, 정성적 측정도 정량적 측정과 함께 일관되게 적용되면 가치가 있습니다.
| 안전 기준 | |
|---|---|
| 나쁨 | 안전한 출력 |
| 좋음 | 10,000회 시행 중 0.1% 미만의 출력이 콘텐츠 필터에 의해 독성으로 플래그됨. |
달성 가능: 업계 벤치마크, 이전 실험, AI 연구 또는 전문가 지식을 기반으로 목표를 설정합니다. 성공 지표는 현재 최첨단 모델 기능에 비해 비현실적이어서는 안 됩니다.
관련성: 기준을 애플리케이션의 목적 및 사용자 요구와 일치시킵니다. 강력한 인용 정확도는 의료 앱에는 중요할 수 있지만 캐주얼 챗봇에는 덜 중요할 수 있습니다.
다음은 사용 사례에 중요할 수 있는 몇 가지 기준입니다. 이 목록은 완전하지 않습니다.
대부분의 사용 사례는 여러 성공 기준에 따른 다차원 평가가 필요합니다.
평가를 채점하는 방법을 선택할 때 가장 빠르고 신뢰할 수 있으며 확장 가능한 방법을 선택합니다:
코드 기반 채점: 가장 빠르고 신뢰할 수 있으며 매우 확장 가능하지만 규칙 기반 엄격성이 덜 필요한 더 복잡한 판단을 위해서는 미묘함이 부족합니다.
output == golden_answerkey_phrase in output인간 채점: 가장 유연하고 고품질이지만 느리고 비쌉니다. 가능하면 피하세요.
LLM 기반 채점: 빠르고 유연하며 확장 가능하고 복잡한 판단에 적합합니다. 확장하기 전에 신뢰성을 테스트하세요.
인간, 코드, LLM 채점 평가의 더 많은 코드 예시.