Claude 展現出強大的多語言能力,在跨語言的「zero-shot」(零樣本)任務中表現尤為突出。該模型在廣泛使用的語言和資源較少的語言中都能保持一致的相對效能,使其成為多語言應用程式的可靠選擇。
Claude 能夠處理的語言遠不止下表中所評測的語言。請針對與您特定使用案例相關的任何語言進行測試。
下表顯示 Claude 模型在各語言中的零樣本「chain-of-thought」(思維鏈)評估分數,以相對於英語效能(100%)的百分比表示:
| 語言 | Claude Opus 4.1(已棄用)1 | Claude Sonnet 4.51 | Claude Haiku 4.51 |
|---|---|---|---|
| 英語(基準,固定為 100%) | 100% | 100% | 100% |
| 西班牙語 | 98.1% | 98.2% | 96.4% |
| 葡萄牙語(巴西) | 97.8% | 97.8% | 96.1% |
| 義大利語 | 97.7% | 97.9% | 96.0% |
| 法語 | 97.9% | 97.5% | 95.7% |
| 印尼語 | 97.3% | 97.3% | 94.2% |
| 德語 | 97.7% | 97.0% | 94.3% |
| 阿拉伯語 | 97.1% | 97.2% | 92.5% |
| 中文(簡體) | 97.1% | 96.9% | 94.2% |
| 韓語 | 96.6% | 96.7% | 93.3% |
| 日語 | 96.9% | 96.8% | 93.5% |
| 印地語 | 96.8% | 96.7% | 92.4% |
| 孟加拉語 | 95.7% | 95.4% | 90.4% |
| 史瓦希利語 | 89.8% | 91.1% | 78.3% |
| 約魯巴語 | 80.3% | 79.7% | 52.7% |
1 使用擴展思考。
這些指標基於 MMLU (Massive Multitask Language Understanding) 英語測試集,該測試集由專業人工翻譯人員翻譯成 14 種其他語言,詳見 OpenAI 的 simple-evals 儲存庫。此評估使用人工翻譯人員可確保高品質的翻譯,這對於數位資源較少的語言尤為重要。
Claude 會從對話中推斷回應語言,但對於正式環境的應用程式,您應明確指定目標語言。最可靠的做法是在系統提示中指定,這樣可以在對話的每一輪中保持指令的穩定性。
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
system="Always respond in French, regardless of the language the user writes in.",
messages=[{"role": "user", "content": "How do I reset my password?"}],
)
print(message.content)如果您的應用程式允許使用者在執行時選擇語言,請將該選擇插入系統提示中,而不是依賴 Claude 從使用者的訊息中推斷。若要在兩種特定語言之間進行翻譯,請同時指明兩種語言:Translate the user's message from German to Korean. Respond with only the translation.
處理多語言內容時:
同時請遵循提示工程概述中的一般指引,以進一步提升輸出品質。
應用一般提示技巧來提升多語言輸出品質。
使用限定語言的系統提示建立在地化的支援聊天機器人。
比較模型層級,在多語言品質與成本和延遲之間取得平衡。
在發布前評估翻譯和在地化品質。
Was this page helpful?