Claude는 강력한 다국어 기능을 보여주며, 특히 여러 언어에 걸친 "zero-shot"(제로샷) 작업에서 뛰어난 성능을 발휘합니다. 이 모델은 널리 사용되는 언어와 리소스가 적은 언어 모두에서 일관된 상대적 성능을 유지하므로, 다국어 애플리케이션을 위한 신뢰할 수 있는 선택입니다.
Claude는 다음 표에서 벤치마크된 언어 외에도 많은 언어를 처리할 수 있습니다. 특정 사용 사례와 관련된 모든 언어로 테스트해 보세요.
다음 표는 여러 언어에 걸친 Claude 모델의 제로샷 "chain-of-thought"(사고 연쇄) 평가 점수를 영어 성능(100%) 대비 백분율로 나타낸 것입니다.
| 언어 | Claude Opus 4.1 (지원 중단됨)1 | Claude Sonnet 4.51 | Claude Haiku 4.51 |
|---|---|---|---|
| 영어 (기준, 100%로 고정) | 100% | 100% | 100% |
| 스페인어 | 98.1% | 98.2% | 96.4% |
| 포르투갈어 (브라질) | 97.8% | 97.8% | 96.1% |
| 이탈리아어 | 97.7% | 97.9% | 96.0% |
| 프랑스어 | 97.9% | 97.5% | 95.7% |
| 인도네시아어 | 97.3% | 97.3% | 94.2% |
| 독일어 | 97.7% | 97.0% | 94.3% |
| 아랍어 | 97.1% | 97.2% | 92.5% |
| 중국어 (간체) | 97.1% | 96.9% | 94.2% |
| 한국어 | 96.6% | 96.7% | 93.3% |
| 일본어 | 96.9% | 96.8% | 93.5% |
| 힌디어 | 96.8% | 96.7% | 92.4% |
| 벵골어 | 95.7% | 95.4% | 90.4% |
| 스와힐리어 | 89.8% | 91.1% | 78.3% |
| 요루바어 | 80.3% | 79.7% | 52.7% |
1 확장 사고 사용.
이 지표는 OpenAI의 simple-evals 리포지토리에 문서화된 대로, 전문 인간 번역가가 14개의 추가 언어로 번역한 MMLU (Massive Multitask Language Understanding) 영어 테스트 세트를 기반으로 합니다. 이 평가에 인간 번역가를 사용함으로써 고품질 번역이 보장되며, 이는 디지털 리소스가 적은 언어에 특히 중요합니다.
Claude는 대화에서 응답 언어를 추론하지만, 프로덕션 애플리케이션의 경우 대상 언어를 명시적으로 지정해야 합니다. 이를 위한 가장 신뢰할 수 있는 위치는 시스템 프롬프트이며, 이는 대화의 모든 턴에 걸쳐 지시 사항을 안정적으로 유지합니다.
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
system="Always respond in French, regardless of the language the user writes in.",
messages=[{"role": "user", "content": "How do I reset my password?"}],
)
print(message.content)애플리케이션에서 사용자가 런타임에 언어를 선택할 수 있도록 하는 경우, Claude가 사용자의 메시지에서 언어를 추론하도록 의존하기보다는 해당 선택을 시스템 프롬프트에 삽입하세요. 두 특정 언어 간에 번역하려면 두 언어를 모두 명시하세요: Translate the user's message from German to Korean. Respond with only the translation.
다국어 콘텐츠로 작업할 때:
또한 프롬프트 엔지니어링 개요의 일반 지침을 따라 출력 품질을 더욱 향상시키세요.
일반적인 프롬프트 기법을 적용하여 다국어 출력 품질을 향상시키세요.
언어가 제한된 시스템 프롬프트를 사용하여 현지화된 지원 챗봇을 구축하세요.
모델 티어를 비교하여 다국어 품질과 비용 및 지연 시간 간의 균형을 맞추세요.
출시 전에 번역 및 현지화 품질을 평가하세요.
Was this page helpful?