Claude Platform Docs
  • Messages
  • Managed Agents
  • 관리자

Search...
⌘K
사용 사례
개요티켓 라우팅고객 지원 에이전트콘텐츠 조정법률 문서 요약
프롬프트 엔지니어링
개요프롬프트 작성 모범 사례Claude Fable 5 프롬프트 작성Claude Opus 4.8 프롬프트 작성Console 프롬프트 도구
테스트 및 평가
성공 정의 및 평가 빌드Console에서 평가 도구 사용하기지연 시간 줄이기
가드레일 강화
환각 줄이기출력 일관성 높이기탈옥 완화프롬프트 유출 줄이기
레퍼런스
용어집

Log in
지연 시간 줄이기
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
모범 사례/테스트 및 평가

지연 시간 줄이기

"Latency"(지연 시간)는 모델이 프롬프트를 처리하고 출력을 생성하는 데 걸리는 시간을 의미합니다. 지연 시간은 모델의 크기, 프롬프트의 복잡성, 모델과 상호작용 지점을 지원하는 기반 인프라 등 다양한 요인의 영향을 받을 수 있습니다.



모델이나 프롬프트 제약 없이 잘 작동하는 프롬프트를 먼저 설계한 다음, 이후에 지연 시간 감소 전략을 시도하는 것이 항상 더 좋습니다. 지연 시간을 너무 일찍 줄이려고 하면 최고 성능이 어떤 모습인지 발견하지 못할 수 있습니다.


지연 시간을 측정하는 방법

지연 시간에 대해 논의할 때 다음과 같은 여러 용어와 측정 지표를 접할 수 있습니다:

  • 기준 지연 시간(Baseline latency): 초당 입력 및 출력 토큰을 고려하지 않고 모델이 프롬프트를 처리하고 응답을 생성하는 데 걸리는 시간입니다. 모델의 속도에 대한 전반적인 개념을 제공합니다.
  • "Time to first token"(첫 토큰까지의 시간), 즉 TTFT: 이 지표는 프롬프트가 전송된 시점부터 모델이 응답의 첫 번째 토큰을 생성하는 데 걸리는 시간을 측정합니다. 스트리밍을 사용하고(이에 대해서는 뒤에서 자세히 설명합니다) 사용자에게 반응성 있는 경험을 제공하고자 할 때 특히 중요합니다.

이러한 용어에 대한 더 자세한 이해를 원하시면 용어집을 확인하세요.


지연 시간을 줄이는 방법

1. 적합한 모델 선택하기

지연 시간을 줄이는 가장 간단한 방법 중 하나는 사용 사례에 적합한 모델을 선택하는 것입니다. Anthropic은 다양한 기능과 성능 특성을 가진 여러 모델을 제공합니다. 구체적인 요구 사항을 고려하여 속도와 출력 품질 측면에서 필요에 가장 잘 맞는 모델을 선택하세요.

속도가 중요한 애플리케이션의 경우, Claude Haiku 4.5는 높은 지능을 유지하면서 가장 빠른 응답 시간을 제공합니다:

Python
import anthropic

client = anthropic.Anthropic()

# 시간에 민감한 애플리케이션의 경우 Claude Haiku 4.5를 사용하세요
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
        }
    ],
)

모델 지표에 대한 자세한 내용은 모델 개요 페이지를 참조하세요.

2. 프롬프트 및 출력 길이 최적화하기

높은 성능을 유지하면서 입력 프롬프트와 예상 출력 모두에서 토큰 수를 최소화하세요. 모델이 처리하고 생성해야 하는 토큰이 적을수록 응답이 더 빨라집니다.

프롬프트와 출력을 최적화하는 데 도움이 되는 몇 가지 팁은 다음과 같습니다:

  • 명확하되 간결하게: 프롬프트에서 의도를 명확하고 간결하게 전달하는 것을 목표로 하세요. 불필요한 세부 사항이나 중복된 정보는 피하되, Claude는 사용 사례에 대한 컨텍스트가 부족하며 지침이 불명확하면 의도한 논리적 도약을 하지 못할 수 있다는 점을 염두에 두세요.
  • 더 짧은 응답 요청하기: Claude에게 직접 간결하게 답변하도록 요청하세요. Claude 3 모델 제품군은 이전 세대에 비해 조종성(steerability)이 향상되었습니다. Claude가 원치 않는 길이의 출력을 생성하는 경우, Claude에게 장황함을 줄이도록 요청하세요.
    
    LLM이 단어가 아닌 토큰을 세는 방식 때문에, 정확한 단어 수나 단어 수 제한을 요청하는 것은 문단 또는 문장 수 제한을 요청하는 것만큼 효과적인 전략이 아닙니다.
  • 적절한 출력 제한 설정하기: max_tokens 매개변수를 사용하여 생성된 응답의 최대 길이에 대한 엄격한 제한을 설정하세요. 이렇게 하면 Claude가 지나치게 긴 출력을 생성하는 것을 방지할 수 있습니다.

    참고: 응답이 max_tokens 토큰에 도달하면 응답이 문장 중간이나 단어 중간에서 잘릴 수 있으므로, 이는 후처리가 필요할 수 있는 다소 거친 기법이며 일반적으로 답변이 맨 앞에 나오는 객관식 또는 단답형 응답에 가장 적합합니다.

  • temperature 실험하기: temperature 매개변수는 출력의 무작위성을 제어합니다. 낮은 값(예: 0.2)은 때때로 더 집중적이고 짧은 응답으로 이어질 수 있으며, 높은 값(예: 0.8)은 더 다양하지만 잠재적으로 더 긴 출력을 생성할 수 있습니다.

프롬프트 명확성, 출력 품질, 토큰 수 사이의 적절한 균형을 찾으려면 어느 정도의 실험이 필요할 수 있습니다.

3. 스트리밍 활용하기

스트리밍은 전체 출력이 완료되기 전에 모델이 응답을 보내기 시작할 수 있게 하는 기능입니다. 사용자가 모델의 출력을 실시간으로 볼 수 있으므로 애플리케이션의 체감 반응성을 크게 향상시킬 수 있습니다.

스트리밍을 활성화하면 모델의 출력이 도착하는 대로 처리하여 사용자 인터페이스를 업데이트하거나 다른 작업을 병렬로 수행할 수 있습니다. 이는 사용자 경험을 크게 향상시키고 애플리케이션이 더 상호작용적이고 반응성 있게 느껴지도록 만들 수 있습니다.

사용 사례에 스트리밍을 구현하는 방법을 알아보려면 Messages 스트리밍을 방문하세요.

Was this page helpful?

  • 지연 시간을 측정하는 방법
  • 지연 시간을 줄이는 방법
  • 1. 적합한 모델 선택하기
  • 2. 프롬프트 및 출력 길이 최적화하기
  • 3. 스트리밍 활용하기