Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude 展示了强大的多语言能力,在跨语言的零样本任务中表现特别出色。该模型在广泛使用的语言和低资源语言中都保持一致的相对性能,使其成为多语言应用的可靠选择。
请注意,Claude 能够处理许多超出下面基准测试范围的语言。我们鼓励您使用与您特定用例相关的任何语言进行测试。
以下是 Claude 模型在不同语言上的零样本思维链评估分数,显示为相对于英语性能的百分比(100%):
| 语言 | Claude Opus 4.11 | Claude Opus 41 | Claude Sonnet 4.51 | Claude Sonnet 41 | Claude Haiku 4.51 |
|---|---|---|---|---|---|
| 英语(基准,固定为 100%) | 100% | 100% | 100% | 100% | 100% |
| 西班牙语 | 98.1% | 98.0% | 98.2% | 97.5% | 96.4% |
| 葡萄牙语(巴西) | 97.8% | 97.3% | 97.8% | 97.2% | 96.1% |
| 意大利语 | 97.7% | 97.5% | 97.9% | 97.3% | 96.0% |
| 法语 | 97.9% | 97.7% | 97.5% | 97.1% | 95.7% |
| 印度尼西亚语 | 97.3% | 97.2% | 97.3% | 96.2% | 94.2% |
| 德语 | 97.7% | 97.1% | 97.0% | 94.7% | 94.3% |
| 阿拉伯语 | 97.1% | 96.9% | 97.2% | 96.1% | 92.5% |
| 中文(简体) | 97.1% | 96.7% | 96.9% | 95.9% | 94.2% |
| 韩语 | 96.6% | 96.4% | 96.7% | 95.9% | 93.3% |
| 日语 | 96.9% | 96.2% | 96.8% | 95.6% | 93.5% |
| 印地语 | 96.8% | 96.7% | 96.7% | 95.8% | 92.4% |
| 孟加拉语 | 95.7% | 95.2% | 95.4% | 94.4% | 90.4% |
| 斯瓦希里语 | 89.8% | 89.5% | 91.1% | 87.1% | 78.3% |
| 约鲁巴语 | 80.3% | 78.9% | 79.7% | 76.4% | 52.7% |
1 使用扩展思维。
这些指标基于MMLU(大规模多任务语言理解)英文测试集,该测试集由专业人工翻译人员翻译成 14 种其他语言,如OpenAI 的 simple-evals 存储库中所述。使用人工翻译人员进行此评估可确保高质量的翻译,这对于数字资源较少的语言尤为重要。
处理多语言内容时:
我们还建议遵循我们的一般提示工程指南以更好地提高 Claude 的性能。