Loading...
    • 개발자 가이드
    • API 참고자료
    • MCP
    • 리소스
    • 릴리스 노트
    Search...
    ⌘K

    첫 번째 단계

    Claude 소개빠른 시작

    모델 및 가격

    모델 개요모델 선택하기Claude 4.5의 새로운 기능Claude 4.5로 마이그레이션모델 지원 중단가격 정책

    Claude로 빌드하기

    기능 개요Messages API 작업컨텍스트 윈도우프롬프트 작성 모범 사례

    기능

    프롬프트 캐싱컨텍스트 편집확장된 사고스트리밍 메시지배치 처리인용다국어 지원토큰 카운팅임베딩비전PDF 지원Files API검색 결과Google Sheets 애드온

    도구

    개요도구 사용을 구현하는 방법토큰 효율적인 도구 사용세밀한 도구 스트리밍Bash 도구코드 실행 도구컴퓨터 사용 도구텍스트 편집기 도구웹 페치 도구웹 검색 도구메모리 도구

    에이전트 스킬

    개요빠른 시작Skill 작성 모범 사례Skills 사용하기

    Agent SDK

    개요Agent SDK 참조 - TypeScriptPython SDK

    가이드

    스트리밍 입력권한 처리세션 관리Agent SDK 호스팅시스템 프롬프트 수정하기SDK에서의 MCP사용자 정의 도구SDK의 서브에이전트SDK의 슬래시 명령어SDK의 에이전트 스킬비용 및 사용량 추적할 일 목록SDK의 플러그인

    API의 MCP

    MCP 커넥터원격 MCP 서버

    타사 플랫폼의 Claude

    Amazon BedrockVertex AI

    프롬프트 엔지니어링

    개요프롬프트 생성기프롬프트 템플릿 사용하기프롬프트 개선기명확하고 직접적으로예시(멀티샷 프롬프팅) 사용Claude가 생각하도록 하기(CoT)XML 태그 사용Claude에게 역할 부여하기 (시스템 프롬프트)Claude의 응답 미리 채우기복잡한 프롬프트 체이닝긴 컨텍스트 팁확장 사고 팁

    테스트 및 평가

    성공 기준 정의하기테스트 케이스 개발평가 도구 사용하기지연 시간 줄이기

    보안 강화

    환각 현상 줄이기출력 일관성 높이기탈옥 완화handle-streaming-refusals프롬프트 유출 감소Claude의 캐릭터 유지

    관리 및 모니터링

    Admin API 개요사용량 및 비용 APIClaude Code Analytics API
    Console
    테스트 및 평가

    강력한 경험적 평가 만들기

    성공 기준을 정의한 후, 다음 단계는 해당 기준에 대한 LLM 성능을 측정하는 평가를 설계하는 것입니다. 이는 프롬프트 엔지니어링 사이클의 중요한 부분입니다.

    성공 기준을 정의한 후, 다음 단계는 해당 기준에 대한 LLM 성능을 측정하는 평가를 설계하는 것입니다. 이는 프롬프트 엔지니어링 사이클의 중요한 부분입니다.

    이 가이드는 테스트 케이스를 개발하는 방법에 중점을 둡니다.

    평가 및 테스트 케이스 구축

    평가 설계 원칙

    1. 작업별 특화: 실제 작업 분포를 반영하는 평가를 설계하세요. 엣지 케이스도 고려하는 것을 잊지 마세요!

    2. 가능한 한 자동화: 자동화된 채점이 가능하도록 질문을 구조화하세요 (예: 객관식, 문자열 매치, 코드 채점, LLM 채점).
    3. 품질보다 양을 우선시: 약간 낮은 신호의 자동화된 채점으로 더 많은 질문을 하는 것이 고품질 인간 수동 채점으로 적은 질문을 하는 것보다 낫습니다.

    평가 예시

    수백 개의 테스트 케이스를 손으로 작성하는 것은 어려울 수 있습니다! 기본 예시 테스트 케이스 세트에서 더 많은 케이스를 생성하도록 Claude에게 도움을 요청하세요.
    성공 기준을 평가하는 데 어떤 평가 방법이 유용할지 모르겠다면, Claude와 브레인스토밍할 수도 있습니다!

    평가 채점

    평가를 채점하는 데 사용할 방법을 결정할 때는 가장 빠르고, 가장 신뢰할 수 있고, 가장 확장 가능한 방법을 선택하세요:

    1. 코드 기반 채점: 가장 빠르고 가장 신뢰할 수 있으며, 매우 확장 가능하지만, 규칙 기반 경직성이 덜 필요한 더 복잡한 판단에 대한 미묘함이 부족합니다.

      • 정확한 매치: output == golden_answer
      • 문자열 매치: key_phrase in output
    2. 인간 채점: 가장 유연하고 고품질이지만 느리고 비쌉니다. 가능하면 피하세요.

    3. LLM 기반 채점: 빠르고 유연하며, 확장 가능하고 복잡한 판단에 적합합니다.먼저 신뢰성을 테스트한 다음 확장하세요.

    LLM 기반 채점을 위한 팁

    • 상세하고 명확한 루브릭 보유: "답변은 항상 첫 번째 문장에서 'Acme Inc.'를 언급해야 합니다. 그렇지 않으면 답변은 자동으로 '부정확'으로 채점됩니다."
      주어진 사용 사례 또는 해당 사용 사례의 특정 성공 기준조차도 전체적인 평가를 위해 여러 루브릭이 필요할 수 있습니다.
    • 경험적 또는 구체적: 예를 들어, LLM에게 '정확' 또는 '부정확'만 출력하도록 지시하거나 1-5 척도로 판단하도록 지시하세요. 순전히 정성적인 평가는 빠르고 대규모로 평가하기 어렵습니다.
    • 추론 장려: LLM에게 평가 점수를 결정하기 전에 먼저 생각하도록 요청한 다음 추론을 버리세요. 이는 특히 복잡한 판단이 필요한 작업에서 평가 성능을 향상시킵니다.

    다음 단계

    평가 브레인스토밍

    평가 점수를 최대화하는 프롬프트를 작성하는 방법을 배우세요.

    평가 쿡북

    인간, 코드, LLM 채점 평가의 더 많은 코드 예시.

    • LLM 기반 채점을 위한 팁
    © 2025 ANTHROPIC PBC

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    © 2025 ANTHROPIC PBC