지연 시간은 모델이 프롬프트를 처리하고 출력을 생성하는 데 걸리는 시간을 의미합니다. 지연 시간은 모델의 크기, 프롬프트의 복잡성, 모델을 지원하는 기본 인프라 및 상호작용 지점 등 다양한 요소에 의해 영향을 받을 수 있습니다.
모델이나 프롬프트 제약 없이 잘 작동하는 프롬프트를 먼저 엔지니어링한 후, 나중에 지연 시간 감소 전략을 시도하는 것이 항상 더 좋습니다. 지연 시간을 너무 일찍 줄이려고 하면 최고의 성능이 어떤 것인지 발견하지 못할 수 있습니다.
지연 시간에 대해 논할 때, 여러 용어와 측정 방법을 접할 수 있습니다:
이러한 용어에 대한 더 심층적인 이해를 위해 용어집을 확인하세요.
지연 시간을 줄이는 가장 직접적인 방법 중 하나는 사용 사례에 적합한 모델을 선택하는 것입니다. Anthropic은 다양한 기능과 성능 특성을 가진 모델 범위를 제공합니다. 특정 요구 사항을 고려하고 속도와 출력 품질 측면에서 필요에 가장 잘 맞는 모델을 선택하세요.
속도가 중요한 애플리케이션의 경우, Claude Haiku 4.5는 높은 지능을 유지하면서 가장 빠른 응답 시간을 제공합니다:
import anthropic
client = anthropic.Anthropic()
# 시간에 민감한 애플리케이션의 경우 Claude Haiku 4.5를 사용하세요
message = client.messages.create(
model="claude-haiku-4-5",
max_tokens=100,
messages=[
{
"role": "user",
"content": "Summarize this customer feedback in 2 sentences: [feedback text]",
}
],
)모델 메트릭에 대한 자세한 내용은 모델 개요 페이지를 참조하세요.
입력 프롬프트와 예상 출력 모두에서 토큰 수를 최소화하면서 높은 성능을 유지하세요. 모델이 처리하고 생성해야 하는 토큰이 적을수록 응답이 더 빨라집니다.
프롬프트와 출력을 최적화하는 데 도움이 되는 몇 가지 팁은 다음과 같습니다:
max_tokens 매개변수를 사용하여 생성된 응답의 최대 길이에 대한 하드 제한을 설정하세요. 이는 Claude가 과도하게 긴 출력을 생성하는 것을 방지합니다.
참고: 응답이
max_tokens토큰에 도달하면 응답이 문장 중간이나 단어 중간에 잘릴 수 있으므로, 이는 후처리가 필요할 수 있는 둔한 기법이며 일반적으로 답변이 바로 처음에 나오는 객관식 또는 단답형 응답에 가장 적합합니다.
temperature 매개변수는 출력의 무작위성을 제어합니다. 낮은 값(예: 0.2)은 때때로 더 집중되고 짧은 응답으로 이어질 수 있으며, 높은 값(예: 0.8)은 더 다양하지만 잠재적으로 더 긴 출력을 초래할 수 있습니다.프롬프트 명확성, 출력 품질, 토큰 수 사이의 올바른 균형을 찾으려면 일부 실험이 필요할 수 있습니다.
스트리밍은 모델이 전체 출력이 완료되기 전에 응답을 보내기 시작할 수 있게 하는 기능입니다. 사용자가 모델의 출력을 실시간으로 볼 수 있으므로 애플리케이션의 인지된 반응성을 크게 향상시킬 수 있습니다.
스트리밍이 활성화되면 모델의 출력이 도착할 때 처리하고, 사용자 인터페이스를 업데이트하거나 다른 작업을 병렬로 수행할 수 있습니다. 이는 사용자 경험을 크게 향상시키고 애플리케이션을 더 상호작용적이고 반응형으로 느끼게 할 수 있습니다.
사용 사례에 대해 스트리밍을 구현하는 방법을 알아보려면 스트리밍 Messages를 방문하세요.
Was this page helpful?