Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
성공 기준을 정의한 후, 다음 단계는 해당 기준에 대한 LLM 성능을 측정하기 위한 평가를 설계하는 것입니다. 이것은 프롬프트 엔지니어링 사이클의 핵심적인 부분입니다.

이 가이드는 테스트 케이스를 개발하는 방법에 초점을 맞춥니다.
Was this page helpful?
평가를 채점하는 방법을 결정할 때, 가장 빠르고, 가장 신뢰할 수 있으며, 가장 확장 가능한 방법을 선택하세요:
코드 기반 채점: 가장 빠르고 가장 신뢰할 수 있으며, 매우 확장 가능하지만, 규칙 기반의 엄격함보다 덜 엄격한 복잡한 판단에는 뉘앙스가 부족합니다.
output == golden_answerkey_phrase in output인간 채점: 가장 유연하고 고품질이지만, 느리고 비용이 많이 듭니다. 가능하면 피하세요.
LLM 기반 채점: 빠르고 유연하며, 확장 가능하고 복잡한 판단에 적합합니다. 먼저 신뢰성을 테스트한 후 확장하세요.