功能

視覺

Claude 的視覺功能讓它能夠理解和分析圖像，為多模態互動開啟了令人興奮的可能性。

本指南描述如何在 Claude 中使用圖像，包括最佳實踐、程式碼範例以及需要注意的限制。

如何使用視覺功能

透過以下方式使用 Claude 的視覺功能：

claude.ai。像上傳檔案一樣上傳圖像，或直接將圖像拖放到聊天視窗中。
Console Workbench。每個使用者訊息區塊的右上角會出現一個新增圖像的按鈕。
API 請求。請參閱本指南中的範例。

上傳之前

基本資訊與限制

您可以在單一請求中包含多張圖像（claude.ai 最多 20 張，API 請求最多 100 張）。Claude 在制定回應時會分析所有提供的圖像。這對於比較或對照圖像很有幫助。

如果您提交的圖像大於 8000x8000 像素，將會被拒絕。如果您在一個 API 請求中提交超過 20 張圖像，此限制為 2000x2000 像素。

雖然 API 支援每個請求 100 張圖像，但標準端點有 32MB 請求大小限制。

評估圖像大小

為了獲得最佳效能，我們建議在上傳前調整過大的圖像大小。如果您的圖像長邊超過 1568 像素，或您的圖像超過約 1,600 個 token，它將首先被縮小，保持寬高比，直到符合大小限制。

如果您的輸入圖像太大需要調整大小，這將增加首個 token 回應時間的延遲，而不會為您提供任何額外的模型效能。任何邊小於 200 像素的極小圖像可能會降低效能。

為了改善首個 token 回應時間，我們建議將圖像調整為不超過 1.15 百萬像素（且兩個維度都在 1568 像素以內）。

以下是我們 API 接受的最大圖像尺寸表格，這些尺寸不會針對常見寬高比進行調整。使用 Claude Opus 4.6 時，這些圖像大約使用 1,600 個 token，約 $4.80/1K 張圖像。

寬高比	圖像尺寸
1:1	1092x1092 px
3:4	951x1268 px
2:3	896x1344 px
9:16	819x1456 px
1:2	784x1568 px

計算圖像成本

您在請求中包含的每張圖像都會計入您的 token 使用量。要計算大約成本，請將大約的圖像 token 數量乘以您使用的模型的每 token 價格。

如果您的圖像不需要調整大小，您可以透過此演算法估算使用的 token 數量：tokens = (width px * height px)/750

以下是基於 Claude Opus 4.6 每百萬輸入 token $3 的價格，在我們 API 大小限制內不同圖像尺寸的大約 token 化和成本範例：

圖像尺寸	Token 數量	每張圖像成本	每 1K 張圖像成本
200x200 px(0.04 百萬像素)	~54	~$0.00016	~$0.16
1000x1000 px(1 百萬像素)	~1334	~$0.004	~$4.00
1092x1092 px(1.19 百萬像素)	~1590	~$0.0048	~$4.80

確保圖像品質

向 Claude 提供圖像時，請注意以下事項以獲得最佳結果：

圖像格式：使用支援的圖像格式：JPEG、PNG、GIF 或 WebP。
圖像清晰度：確保圖像清晰，不要太模糊或像素化。
文字：如果圖像包含重要文字，請確保文字清晰可讀且不要太小。避免為了放大文字而裁剪掉關鍵的視覺上下文。

提示詞範例

許多適用於與 Claude 進行文字互動的提示詞技巧也可以應用於基於圖像的提示詞。

這些範例展示了涉及圖像的最佳實踐提示詞結構。

就像文件查詢的放置一樣，當圖像放在文字之前時，Claude 的表現最好。圖像放在文字之後或與文字交錯仍然會表現良好，但如果您的使用場景允許，我們建議採用圖像在前、文字在後的結構。

關於提示詞範例

以下範例展示如何使用各種程式語言和方法來使用 Claude 的視覺功能。您可以透過三種方式向 Claude 提供圖像：

在 image 內容區塊中作為 base64 編碼的圖像
作為線上託管圖像的 URL 參考
使用 Files API（上傳一次，多次使用）

base64 範例提示詞使用以下變數：

    # 對於基於 URL 的圖像，您可以直接在 JSON 請求中使用 URL
    
    # 對於 base64 編碼的圖像，您需要先對圖像進行編碼
    # 在 bash 中將圖像編碼為 base64 的範例：
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # 編碼後的資料現在可以在您的 API 呼叫中使用

以下是如何在 Messages API 請求中使用 base64 編碼圖像和 URL 參考來包含圖像的範例：

Base64 編碼圖像範例

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

基於 URL 的圖像範例

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "url",
              "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Files API 圖像範例

對於您會重複使用的圖像，或當您想避免編碼開銷時，請使用 Files API：

# 首先，將您的圖像上傳到 Files API
curl -X POST https://api.anthropic.com/v1/files \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -F "[email protected]"

# 然後在您的訊息中使用返回的 file_id
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "file",
              "file_id": "file_abc123"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

請參閱 Messages API 範例以獲取更多範例程式碼和參數詳情。

限制

雖然 Claude 的圖像理解能力是最先進的，但仍有一些需要注意的限制：

人物識別：Claude 不能被用於識別（即命名）圖像中的人物，並且會拒絕這樣做。
準確性：Claude 在解讀低品質、旋轉或小於 200 像素的極小圖像時，可能會產生幻覺或犯錯。
空間推理：Claude 的空間推理能力有限。它可能在需要精確定位或佈局的任務上遇到困難，例如讀取類比時鐘面或描述棋子的確切位置。
計數：Claude 可以給出圖像中物體的大約數量，但可能並不總是精確準確的，特別是對於大量的小物體。
AI 生成的圖像：Claude 不知道圖像是否為 AI 生成的，如果被問到可能會回答錯誤。不要依賴它來檢測假的或合成的圖像。
不當內容：Claude 不會處理違反我們可接受使用政策的不當或露骨圖像。
醫療保健應用：雖然 Claude 可以分析一般醫學圖像，但它並非設計用於解讀複雜的診斷掃描，如 CT 或 MRI。Claude 的輸出不應被視為專業醫療建議或診斷的替代品。

請始終仔細審查和驗證 Claude 的圖像解讀，特別是對於高風險的使用場景。不要在沒有人工監督的情況下將 Claude 用於需要完美精確度或敏感圖像分析的任務。

常見問題

深入了解視覺功能

準備好使用 Claude 的圖片功能開始建構了嗎？以下是一些有用的資源：

多模態指南：此指南包含圖片入門和最佳實踐技巧，以確保圖片的最高品質效能。了解如何有效地使用圖片提示 Claude 來執行任務，例如解讀和分析圖表或從表單中擷取內容。
API 參考文件：請造訪我們的 Messages API 文件，包括涉及圖片的 API 呼叫範例。

如果您有任何其他問題，歡迎聯繫我們的支援團隊。您也可以加入我們的開發者社群，與其他創作者交流並獲得 Anthropic 專家的協助。

Was this page helpful?

功能

視覺

Claude 的視覺功能讓它能夠理解和分析圖像，為多模態互動開啟了令人興奮的可能性。

本指南描述如何在 Claude 中使用圖像，包括最佳實踐、程式碼範例以及需要注意的限制。

如何使用視覺功能

透過以下方式使用 Claude 的視覺功能：

claude.ai。像上傳檔案一樣上傳圖像，或直接將圖像拖放到聊天視窗中。
Console Workbench。每個使用者訊息區塊的右上角會出現一個新增圖像的按鈕。
API 請求。請參閱本指南中的範例。

上傳之前

基本資訊與限制

如果您提交的圖像大於 8000x8000 像素，將會被拒絕。如果您在一個 API 請求中提交超過 20 張圖像，此限制為 2000x2000 像素。

雖然 API 支援每個請求 100 張圖像，但標準端點有 32MB 請求大小限制。

評估圖像大小

為了改善首個 token 回應時間，我們建議將圖像調整為不超過 1.15 百萬像素（且兩個維度都在 1568 像素以內）。

寬高比	圖像尺寸
1:1	1092x1092 px
3:4	951x1268 px
2:3	896x1344 px
9:16	819x1456 px
1:2	784x1568 px

計算圖像成本

您在請求中包含的每張圖像都會計入您的 token 使用量。要計算大約成本，請將大約的圖像 token 數量乘以您使用的模型的每 token 價格。

如果您的圖像不需要調整大小，您可以透過此演算法估算使用的 token 數量：tokens = (width px * height px)/750

以下是基於 Claude Opus 4.6 每百萬輸入 token $3 的價格，在我們 API 大小限制內不同圖像尺寸的大約 token 化和成本範例：

圖像尺寸	Token 數量	每張圖像成本	每 1K 張圖像成本
200x200 px(0.04 百萬像素)	~54	~$0.00016	~$0.16
1000x1000 px(1 百萬像素)	~1334	~$0.004	~$4.00
1092x1092 px(1.19 百萬像素)	~1590	~$0.0048	~$4.80

確保圖像品質

向 Claude 提供圖像時，請注意以下事項以獲得最佳結果：

圖像格式：使用支援的圖像格式：JPEG、PNG、GIF 或 WebP。
圖像清晰度：確保圖像清晰，不要太模糊或像素化。
文字：如果圖像包含重要文字，請確保文字清晰可讀且不要太小。避免為了放大文字而裁剪掉關鍵的視覺上下文。

提示詞範例

許多適用於與 Claude 進行文字互動的提示詞技巧也可以應用於基於圖像的提示詞。

這些範例展示了涉及圖像的最佳實踐提示詞結構。

關於提示詞範例

以下範例展示如何使用各種程式語言和方法來使用 Claude 的視覺功能。您可以透過三種方式向 Claude 提供圖像：

在 image 內容區塊中作為 base64 編碼的圖像
作為線上託管圖像的 URL 參考
使用 Files API（上傳一次，多次使用）

base64 範例提示詞使用以下變數：

    # 對於基於 URL 的圖像，您可以直接在 JSON 請求中使用 URL
    
    # 對於 base64 編碼的圖像，您需要先對圖像進行編碼
    # 在 bash 中將圖像編碼為 base64 的範例：
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # 編碼後的資料現在可以在您的 API 呼叫中使用

以下是如何在 Messages API 請求中使用 base64 編碼圖像和 URL 參考來包含圖像的範例：

Base64 編碼圖像範例

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

基於 URL 的圖像範例

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "url",
              "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Files API 圖像範例

對於您會重複使用的圖像，或當您想避免編碼開銷時，請使用 Files API：

# 首先，將您的圖像上傳到 Files API
curl -X POST https://api.anthropic.com/v1/files \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -F "[email protected]"

# 然後在您的訊息中使用返回的 file_id
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "file",
              "file_id": "file_abc123"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

請參閱 Messages API 範例以獲取更多範例程式碼和參數詳情。

限制

雖然 Claude 的圖像理解能力是最先進的，但仍有一些需要注意的限制：

人物識別：Claude 不能被用於識別（即命名）圖像中的人物，並且會拒絕這樣做。
準確性：Claude 在解讀低品質、旋轉或小於 200 像素的極小圖像時，可能會產生幻覺或犯錯。
空間推理：Claude 的空間推理能力有限。它可能在需要精確定位或佈局的任務上遇到困難，例如讀取類比時鐘面或描述棋子的確切位置。
計數：Claude 可以給出圖像中物體的大約數量，但可能並不總是精確準確的，特別是對於大量的小物體。
AI 生成的圖像：Claude 不知道圖像是否為 AI 生成的，如果被問到可能會回答錯誤。不要依賴它來檢測假的或合成的圖像。
不當內容：Claude 不會處理違反我們可接受使用政策的不當或露骨圖像。
醫療保健應用：雖然 Claude 可以分析一般醫學圖像，但它並非設計用於解讀複雜的診斷掃描，如 CT 或 MRI。Claude 的輸出不應被視為專業醫療建議或診斷的替代品。

常見問題

深入了解視覺功能

準備好使用 Claude 的圖片功能開始建構了嗎？以下是一些有用的資源：

多模態指南：此指南包含圖片入門和最佳實踐技巧，以確保圖片的最高品質效能。了解如何有效地使用圖片提示 Claude 來執行任務，例如解讀和分析圖表或從表單中擷取內容。
API 參考文件：請造訪我們的 Messages API 文件，包括涉及圖片的 API 呼叫範例。

如果您有任何其他問題，歡迎聯繫我們的支援團隊。您也可以加入我們的開發者社群，與其他創作者交流並獲得 Anthropic 專家的協助。

Was this page helpful?

如何使用視覺功能

上傳之前

基本資訊與限制

評估圖像大小

計算圖像成本

確保圖像品質

提示詞範例

關於提示詞範例

Base64 編碼圖像範例

基於 URL 的圖像範例

Files API 圖像範例

範例：單張圖像

範例：多張圖像

範例：帶有系統提示詞的多張圖像

範例：跨兩個對話輪次的四張圖像

限制

常見問題

Claude 支援哪些圖片檔案類型？

Claude 可以讀取圖片 URL 嗎？

上傳的圖片檔案大小有限制嗎？

一次請求中可以包含多少張圖片？

Claude 會讀取圖片的元資料嗎？

我可以刪除已上傳的圖片嗎？

在哪裡可以找到圖片上傳的資料隱私詳情？

如果 Claude 的圖片解讀似乎有誤怎麼辦？

Claude 可以生成或編輯圖片嗎？

深入了解視覺功能

如何使用視覺功能

上傳之前

基本資訊與限制

評估圖像大小

計算圖像成本

確保圖像品質

提示詞範例

關於提示詞範例

Base64 編碼圖像範例

基於 URL 的圖像範例

Files API 圖像範例

範例：單張圖像

範例：多張圖像

範例：帶有系統提示詞的多張圖像

範例：跨兩個對話輪次的四張圖像

限制

常見問題

Claude 支援哪些圖片檔案類型？

Claude 可以讀取圖片 URL 嗎？

上傳的圖片檔案大小有限制嗎？

一次請求中可以包含多少張圖片？

Claude 會讀取圖片的元資料嗎？

我可以刪除已上傳的圖片嗎？

在哪裡可以找到圖片上傳的資料隱私詳情？

如果 Claude 的圖片解讀似乎有誤怎麼辦？

Claude 可以生成或編輯圖片嗎？

深入了解視覺功能