Loading...
    • 빌드
    • 관리
    • 모델 및 가격
    • 클라이언트 SDK
    • API 참조
    Search...
    ⌘K
    Log in
    성공 기준 정의 및 평가 구축
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    빌드/테스트 및 평가

    성공 기준 정의 및 평가 구축

    LLM 기반 애플리케이션의 성공을 위해 성공 기준을 명확히 정의하고 성능을 측정하는 평가를 설계하는 방법을 배웁니다.

    Was this page helpful?

    • LLM 기반 채점 팁

    성공적인 LLM 기반 애플리케이션을 구축하려면 먼저 성공 기준을 명확히 정의한 후 이에 대한 성능을 측정하는 평가를 설계해야 합니다. 이 순환 과정은 프롬프트 엔지니어링의 중심입니다.

    프롬프트 엔지니어링의 흐름도: 테스트 케이스, 예비 프롬프트, 반복적 테스트 및 개선, 최종 검증, 배포

    성공 기준 정의

    좋은 성공 기준은 다음과 같습니다:

    • 구체적: 달성하고자 하는 것을 명확히 정의합니다. "좋은 성능"이 아니라 "정확한 감정 분류"와 같이 구체적으로 명시합니다.

    • 측정 가능: 정량적 지표 또는 잘 정의된 정성적 척도를 사용합니다. 숫자는 명확성과 확장성을 제공하지만, 정성적 측정도 정량적 측정과 함께 일관되게 적용되면 가치가 있습니다.

      • 윤리 및 안전과 같은 "모호한" 주제도 정량화할 수 있습니다:
        안전 기준
        나쁨안전한 출력
        좋음10,000회 시행 중 0.1% 미만의 출력이 콘텐츠 필터에 의해 독성으로 플래그됨.

    • 달성 가능: 업계 벤치마크, 이전 실험, AI 연구 또는 전문가 지식을 기반으로 목표를 설정합니다. 성공 지표는 현재 최첨단 모델 기능에 비해 비현실적이어서는 안 됩니다.

    • 관련성: 기준을 애플리케이션의 목적 및 사용자 요구와 일치시킵니다. 강력한 인용 정확도는 의료 앱에는 중요할 수 있지만 캐주얼 챗봇에는 덜 중요할 수 있습니다.

    일반적인 성공 기준

    다음은 사용 사례에 중요할 수 있는 몇 가지 기준입니다. 이 목록은 완전하지 않습니다.

    대부분의 사용 사례는 여러 성공 기준에 따른 다차원 평가가 필요합니다.


    평가 구축

    평가 설계 원칙

    1. 작업별로 구체적이어야 합니다: 실제 작업 분포를 반영하는 평가를 설계합니다. 엣지 케이스를 고려하는 것을 잊지 마세요!

    2. 가능할 때 자동화합니다: 자동 채점을 허용하도록 질문을 구조화합니다(예: 객관식, 문자열 일치, 코드 채점, LLM 채점).
    3. 품질보다 볼륨을 우선시합니다: 신호가 약간 낮은 자동 채점이 있는 더 많은 질문이 고품질 인간 수작업 평가가 있는 더 적은 질문보다 낫습니다.

    예시 평가

    수백 개의 테스트 케이스를 수작업으로 작성하기는 어려울 수 있습니다! Claude가 기본 예시 테스트 케이스 세트에서 더 많은 것을 생성하도록 도와주세요.
    성공 기준을 평가하는 데 어떤 평가 방법이 유용할 수 있는지 모르겠다면 Claude와 함께 브레인스토밍할 수도 있습니다!

    평가 채점

    평가를 채점하는 방법을 선택할 때 가장 빠르고 신뢰할 수 있으며 확장 가능한 방법을 선택합니다:

    1. 코드 기반 채점: 가장 빠르고 신뢰할 수 있으며 매우 확장 가능하지만 규칙 기반 엄격성이 덜 필요한 더 복잡한 판단을 위해서는 미묘함이 부족합니다.

      • 정확한 일치: output == golden_answer
      • 문자열 일치: key_phrase in output
    2. 인간 채점: 가장 유연하고 고품질이지만 느리고 비쌉니다. 가능하면 피하세요.

    3. LLM 기반 채점: 빠르고 유연하며 확장 가능하고 복잡한 판단에 적합합니다. 확장하기 전에 신뢰성을 테스트하세요.

    LLM 기반 채점 팁

    • 상세하고 명확한 루브릭을 작성하세요: "답변은 항상 첫 번째 문장에서 'Acme Inc.'를 언급해야 합니다. 그렇지 않으면 답변은 자동으로 '부정확'으로 채점됩니다."
      주어진 사용 사례 또는 해당 사용 사례의 특정 성공 기준은 전체적인 평가를 위해 여러 루브릭이 필요할 수 있습니다.
    • 경험적 또는 구체적: 예를 들어 LLM에 '정확' 또는 '부정확'만 출력하도록 지시하거나 1-5 척도에서 판단하도록 합니다. 순수 정성적 평가는 빠르게 그리고 규모에 따라 평가하기 어렵습니다.
    • 추론을 권장하세요: LLM에 평가 점수를 결정하기 전에 먼저 생각하도록 요청한 후 추론을 버립니다. 이는 복잡한 판단이 필요한 작업의 평가 성능을 향상시킵니다.

    다음 단계

    기준 브레인스토밍

    Claude와 함께 사용 사례에 대한 성공 기준을 브레인스토밍하세요.

    팁: 이 페이지를 Claude와의 채팅에 드롭하세요!

    평가 쿠크북

    인간, 코드, LLM 채점 평가의 더 많은 코드 예시.