"Latency"(지연 시간)는 모델이 프롬프트를 처리하고 출력을 생성하는 데 걸리는 시간을 의미합니다. 지연 시간은 모델의 크기, 프롬프트의 복잡성, 모델과 상호작용 지점을 지원하는 기반 인프라 등 다양한 요인의 영향을 받을 수 있습니다.
모델이나 프롬프트 제약 없이 잘 작동하는 프롬프트를 먼저 설계한 다음, 이후에 지연 시간 감소 전략을 시도하는 것이 항상 더 좋습니다. 지연 시간을 너무 일찍 줄이려고 하면 최고 성능이 어떤 모습인지 발견하지 못할 수 있습니다.
지연 시간에 대해 논의할 때 다음과 같은 여러 용어와 측정 지표를 접할 수 있습니다:
이러한 용어에 대한 더 자세한 이해를 원하시면 용어집을 확인하세요.
지연 시간을 줄이는 가장 간단한 방법 중 하나는 사용 사례에 적합한 모델을 선택하는 것입니다. Anthropic은 다양한 기능과 성능 특성을 가진 여러 모델을 제공합니다. 구체적인 요구 사항을 고려하여 속도와 출력 품질 측면에서 필요에 가장 잘 맞는 모델을 선택하세요.
속도가 중요한 애플리케이션의 경우, Claude Haiku 4.5는 높은 지능을 유지하면서 가장 빠른 응답 시간을 제공합니다:
import anthropic
client = anthropic.Anthropic()
# 시간에 민감한 애플리케이션의 경우 Claude Haiku 4.5를 사용하세요
message = client.messages.create(
model="claude-haiku-4-5",
max_tokens=100,
messages=[
{
"role": "user",
"content": "Summarize this customer feedback in 2 sentences: [feedback text]",
}
],
)모델 지표에 대한 자세한 내용은 모델 개요 페이지를 참조하세요.
높은 성능을 유지하면서 입력 프롬프트와 예상 출력 모두에서 토큰 수를 최소화하세요. 모델이 처리하고 생성해야 하는 토큰이 적을수록 응답이 더 빨라집니다.
프롬프트와 출력을 최적화하는 데 도움이 되는 몇 가지 팁은 다음과 같습니다:
max_tokens 매개변수를 사용하여 생성된 응답의 최대 길이에 대한 엄격한 제한을 설정하세요. 이렇게 하면 Claude가 지나치게 긴 출력을 생성하는 것을 방지할 수 있습니다.
참고: 응답이
max_tokens토큰에 도달하면 응답이 문장 중간이나 단어 중간에서 잘릴 수 있으므로, 이는 후처리가 필요할 수 있는 다소 거친 기법이며 일반적으로 답변이 맨 앞에 나오는 객관식 또는 단답형 응답에 가장 적합합니다.
temperature 매개변수는 출력의 무작위성을 제어합니다. 낮은 값(예: 0.2)은 때때로 더 집중적이고 짧은 응답으로 이어질 수 있으며, 높은 값(예: 0.8)은 더 다양하지만 잠재적으로 더 긴 출력을 생성할 수 있습니다.프롬프트 명확성, 출력 품질, 토큰 수 사이의 적절한 균형을 찾으려면 어느 정도의 실험이 필요할 수 있습니다.
스트리밍은 전체 출력이 완료되기 전에 모델이 응답을 보내기 시작할 수 있게 하는 기능입니다. 사용자가 모델의 출력을 실시간으로 볼 수 있으므로 애플리케이션의 체감 반응성을 크게 향상시킬 수 있습니다.
스트리밍을 활성화하면 모델의 출력이 도착하는 대로 처리하여 사용자 인터페이스를 업데이트하거나 다른 작업을 병렬로 수행할 수 있습니다. 이는 사용자 경험을 크게 향상시키고 애플리케이션이 더 상호작용적이고 반응성 있게 느껴지도록 만들 수 있습니다.
사용 사례에 스트리밍을 구현하는 방법을 알아보려면 Messages 스트리밍을 방문하세요.
Was this page helpful?