Claude Platform Docs
  • Messages
  • Managed Agents
  • 관리자

Search...
⌘K
사용 사례
개요티켓 라우팅고객 지원 에이전트콘텐츠 조정법률 문서 요약
프롬프트 엔지니어링
개요프롬프트 작성 모범 사례Claude Fable 5 프롬프트 작성Claude Opus 4.8 프롬프트 작성Console 프롬프트 도구
테스트 및 평가
성공 정의 및 평가 빌드Console에서 평가 도구 사용하기지연 시간 줄이기
가드레일 강화
환각 줄이기출력 일관성 높이기탈옥 완화프롬프트 유출 줄이기
레퍼런스
용어집

Log in
성공 정의 및 평가 빌드
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
모범 사례/테스트 및 평가

성공 기준 정의 및 평가 구축

성공적인 LLM 기반 애플리케이션을 구축하려면 먼저 성공 기준을 명확하게 정의한 다음, 해당 기준에 따라 성능을 측정할 평가를 설계해야 합니다. 이 사이클은 프롬프트 엔지니어링의 핵심입니다.

프롬프트 엔지니어링 플로우차트: 테스트 케이스, 예비 프롬프트, 반복적 테스트 및 개선, 최종 검증, 배포

성공 기준 정의하기

좋은 성공 기준은 다음과 같습니다:

  • 구체적(Specific): 달성하고자 하는 바를 명확하게 정의하세요. "좋은 성능" 대신 "정확한 감정 분류"와 같이 구체적으로 명시하세요.

  • 측정 가능(Measurable): 정량적 지표 또는 잘 정의된 정성적 척도를 사용하세요. 숫자는 명확성과 확장성을 제공하지만, 정성적 측정도 정량적 측정과 함께 일관되게 적용된다면 가치가 있을 수 있습니다.

    • 윤리 및 안전성과 같은 "모호한" 주제도 정량화할 수 있습니다:
      안전성 기준
      나쁨안전한 출력
      좋음10,000회 시도 중 콘텐츠 필터에 의해 유해성으로 플래그된 출력이 0.1% 미만.

  • 달성 가능(Achievable): 업계 벤치마크, 이전 실험, AI 연구 또는 전문 지식을 기반으로 목표를 설정하세요. 성공 지표는 현재 최첨단 모델의 역량에 비해 비현실적이어서는 안 됩니다.

  • 관련성(Relevant): 기준을 애플리케이션의 목적 및 사용자 요구와 일치시키세요. 높은 인용 정확도는 의료 앱에는 중요할 수 있지만 캐주얼 챗봇에는 덜 중요할 수 있습니다.

일반적인 성공 기준

다음은 사용 사례에 중요할 수 있는 몇 가지 기준입니다. 이 목록은 모든 것을 포함하지는 않습니다.

대부분의 사용 사례는 여러 성공 기준에 따른 다차원적 평가가 필요합니다.


평가 구축하기

평가 설계 원칙

  1. 작업에 특화되도록 설계: 실제 작업 분포를 반영하는 평가를 설계하세요. 엣지 케이스를 고려하는 것을 잊지 마세요!

  2. 가능한 경우 자동화: 자동 채점이 가능하도록 질문을 구조화하세요(예: 객관식, 문자열 일치, 코드 기반 채점, LLM 기반 채점).
  3. 품질보다 양을 우선시: 신호가 약간 낮더라도 자동 채점되는 많은 질문이, 사람이 직접 고품질로 채점하는 적은 수의 평가보다 낫습니다.

평가 예시


수백 개의 테스트 케이스를 직접 작성하는 것은 어려울 수 있습니다! 기본 예시 테스트 케이스 세트에서 더 많은 케이스를 생성하도록 Claude의 도움을 받으세요.

성공 기준을 평가하는 데 어떤 평가 방법이 유용할지 모르겠다면, Claude와 함께 브레인스토밍할 수도 있습니다!

평가 채점하기

평가를 채점할 방법을 결정할 때는 가장 빠르고, 가장 신뢰할 수 있으며, 가장 확장 가능한 방법을 선택하세요:

  1. 코드 기반 채점: 가장 빠르고 신뢰할 수 있으며 매우 확장 가능하지만, 규칙 기반의 엄격함이 덜 요구되는 복잡한 판단에는 뉘앙스가 부족합니다.

    • 정확 일치: output == golden_answer
    • 문자열 일치: key_phrase in output
  2. 사람 채점: 가장 유연하고 고품질이지만 느리고 비용이 많이 듭니다. 가능하면 피하세요.

  3. LLM 기반 채점: 빠르고 유연하며 확장 가능하고 복잡한 판단에 적합합니다. 먼저 신뢰성을 확인하기 위해 테스트한 다음 확장하세요.

LLM 기반 채점을 위한 팁

  • 상세하고 명확한 루브릭 작성: "답변은 항상 첫 문장에서 'Acme Inc.'를 언급해야 합니다. 그렇지 않으면 답변은 자동으로 '오답'으로 채점됩니다."
    
    특정 사용 사례 또는 해당 사용 사례의 특정 성공 기준조차도 전체적인 평가를 위해 여러 루브릭이 필요할 수 있습니다.
  • 경험적 또는 구체적: 예를 들어, LLM에게 '정답' 또는 '오답'만 출력하도록 하거나 1-5 척도로 판단하도록 지시하세요. 순수하게 정성적인 평가는 빠르고 대규모로 평가하기 어렵습니다.
  • 추론 유도: LLM에게 평가 점수를 결정하기 전에 먼저 생각하도록 요청한 다음 추론 부분은 버리세요. 이는 특히 복잡한 판단이 필요한 작업에서 평가 성능을 향상시킵니다.

다음 단계


기준 브레인스토밍


claude.ai에서 Claude와 함께 사용 사례에 대한 성공 기준을 브레인스토밍하세요.

팁: 이 페이지를 Claude를 위한 가이드로 채팅에 붙여넣으세요!


평가 쿡북


사람, 코드, LLM 기반 채점 평가의 더 많은 코드 예시.

Was this page helpful?

  • 성공 기준 정의하기
  • 일반적인 성공 기준
  • 평가 구축하기
  • 평가 설계 원칙
  • 평가 예시
  • 평가 채점하기
  • LLM 기반 채점을 위한 팁
  • 다음 단계