Loading...
    • 開發者指南
    • API 參考
    • MCP
    • 資源
    • 發行說明
    Search...
    ⌘K
    入門
    Claude 簡介快速開始
    模型與定價
    模型概覽選擇模型Claude 4.6 新功能遷移指南模型棄用定價
    使用 Claude 構建
    功能概覽使用 Messages API處理停止原因提示詞最佳實踐
    上下文管理
    上下文視窗壓縮上下文編輯
    功能
    提示詞快取延伸思考自適應思考思考力度串流訊息批次處理引用多語言支援Token 計數嵌入視覺PDF 支援Files API搜尋結果結構化輸出
    工具
    概覽如何實作工具使用細粒度工具串流Bash 工具程式碼執行工具程式化工具呼叫電腦使用工具文字編輯器工具網頁擷取工具網頁搜尋工具記憶工具工具搜尋工具
    Agent Skills
    概覽快速開始最佳實踐企業級 Skills透過 API 使用 Skills
    Agent SDK
    概覽快速開始TypeScript SDKTypeScript V2(預覽版)Python SDK遷移指南
    API 中的 MCP
    MCP 連接器遠端 MCP 伺服器
    第三方平台上的 Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    提示詞工程
    概覽提示詞產生器使用提示詞範本提示詞改進器清晰直接使用範例(多範例提示)讓 Claude 思考(CoT)使用 XML 標籤賦予 Claude 角色(系統提示詞)串聯複雜提示詞長上下文技巧延伸思考技巧
    測試與評估
    定義成功標準開發測試案例使用評估工具降低延遲
    強化防護機制
    減少幻覺提高輸出一致性防範越獄攻擊串流拒絕減少提示詞洩漏讓 Claude 保持角色
    管理與監控
    Admin API 概覽資料駐留工作區用量與成本 APIClaude Code Analytics API零資料保留
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    功能

    視覺

    Claude 的視覺功能讓它能夠理解和分析圖像,為多模態互動開啟了令人興奮的可能性。

    本指南描述如何在 Claude 中使用圖像,包括最佳實踐、程式碼範例以及需要注意的限制。


    如何使用視覺功能

    透過以下方式使用 Claude 的視覺功能:

    • claude.ai。像上傳檔案一樣上傳圖像,或直接將圖像拖放到聊天視窗中。
    • Console Workbench。每個使用者訊息區塊的右上角會出現一個新增圖像的按鈕。
    • API 請求。請參閱本指南中的範例。

    上傳之前

    基本資訊與限制

    您可以在單一請求中包含多張圖像(claude.ai 最多 20 張,API 請求最多 100 張)。Claude 在制定回應時會分析所有提供的圖像。這對於比較或對照圖像很有幫助。

    如果您提交的圖像大於 8000x8000 像素,將會被拒絕。如果您在一個 API 請求中提交超過 20 張圖像,此限制為 2000x2000 像素。

    雖然 API 支援每個請求 100 張圖像,但標準端點有 32MB 請求大小限制。

    評估圖像大小

    為了獲得最佳效能,我們建議在上傳前調整過大的圖像大小。如果您的圖像長邊超過 1568 像素,或您的圖像超過約 1,600 個 token,它將首先被縮小,保持寬高比,直到符合大小限制。

    如果您的輸入圖像太大需要調整大小,這將增加首個 token 回應時間的延遲,而不會為您提供任何額外的模型效能。任何邊小於 200 像素的極小圖像可能會降低效能。

    為了改善首個 token 回應時間,我們建議 將圖像調整為不超過 1.15 百萬像素(且兩個維度都在 1568 像素以內)。

    以下是我們 API 接受的最大圖像尺寸表格,這些尺寸不會針對常見寬高比進行調整。使用 Claude Opus 4.6 時,這些圖像大約使用 1,600 個 token,約 $4.80/1K 張圖像。

    寬高比圖像尺寸
    1:11092x1092 px
    3:4951x1268 px
    2:3896x1344 px
    9:16819x1456 px
    1:2784x1568 px

    計算圖像成本

    您在請求中包含的每張圖像都會計入您的 token 使用量。要計算大約成本,請將大約的圖像 token 數量乘以您使用的模型的每 token 價格。

    如果您的圖像不需要調整大小,您可以透過此演算法估算使用的 token 數量:tokens = (width px * height px)/750

    以下是基於 Claude Opus 4.6 每百萬輸入 token $3 的價格,在我們 API 大小限制內不同圖像尺寸的大約 token 化和成本範例:

    圖像尺寸Token 數量每張圖像成本每 1K 張圖像成本
    200x200 px(0.04 百萬像素)~54~$0.00016~$0.16
    1000x1000 px(1 百萬像素)~1334~$0.004~$4.00
    1092x1092 px(1.19 百萬像素)~1590~$0.0048~$4.80

    確保圖像品質

    向 Claude 提供圖像時,請注意以下事項以獲得最佳結果:

    • 圖像格式:使用支援的圖像格式:JPEG、PNG、GIF 或 WebP。
    • 圖像清晰度:確保圖像清晰,不要太模糊或像素化。
    • 文字:如果圖像包含重要文字,請確保文字清晰可讀且不要太小。避免為了放大文字而裁剪掉關鍵的視覺上下文。

    提示詞範例

    許多適用於與 Claude 進行文字互動的提示詞技巧也可以應用於基於圖像的提示詞。

    這些範例展示了涉及圖像的最佳實踐提示詞結構。

    就像文件查詢的放置一樣,當圖像放在文字之前時,Claude 的表現最好。圖像放在文字之後或與文字交錯仍然會表現良好,但如果您的使用場景允許,我們建議採用圖像在前、文字在後的結構。

    關於提示詞範例

    以下範例展示如何使用各種程式語言和方法來使用 Claude 的視覺功能。您可以透過三種方式向 Claude 提供圖像:

    1. 在 image 內容區塊中作為 base64 編碼的圖像
    2. 作為線上託管圖像的 URL 參考
    3. 使用 Files API(上傳一次,多次使用)

    base64 範例提示詞使用以下變數:

        # 對於基於 URL 的圖像,您可以直接在 JSON 請求中使用 URL
        
        # 對於 base64 編碼的圖像,您需要先對圖像進行編碼
        # 在 bash 中將圖像編碼為 base64 的範例:
        BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
        
        # 編碼後的資料現在可以在您的 API 呼叫中使用

    以下是如何在 Messages API 請求中使用 base64 編碼圖像和 URL 參考來包含圖像的範例:

    Base64 編碼圖像範例

    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {
            "role": "user",
            "content": [
              {
                "type": "image",
                "source": {
                  "type": "base64",
                  "media_type": "image/jpeg",
                  "data": "'"$BASE64_IMAGE_DATA"'"
                }
              },
              {
                "type": "text",
                "text": "Describe this image."
              }
            ]
          }
        ]
      }'

    基於 URL 的圖像範例

    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {
            "role": "user",
            "content": [
              {
                "type": "image",
                "source": {
                  "type": "url",
                  "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
                }
              },
              {
                "type": "text",
                "text": "Describe this image."
              }
            ]
          }
        ]
      }'

    Files API 圖像範例

    對於您會重複使用的圖像,或當您想避免編碼開銷時,請使用 Files API:

    # 首先,將您的圖像上傳到 Files API
    curl -X POST https://api.anthropic.com/v1/files \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: files-api-2025-04-14" \
      -F "[email protected]"
    
    # 然後在您的訊息中使用返回的 file_id
    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: files-api-2025-04-14" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {
            "role": "user",
            "content": [
              {
                "type": "image",
                "source": {
                  "type": "file",
                  "file_id": "file_abc123"
                }
              },
              {
                "type": "text",
                "text": "Describe this image."
              }
            ]
          }
        ]
      }'

    請參閱 Messages API 範例以獲取更多範例程式碼和參數詳情。


    限制

    雖然 Claude 的圖像理解能力是最先進的,但仍有一些需要注意的限制:

    • 人物識別:Claude 不能被用於識別(即命名)圖像中的人物,並且會拒絕這樣做。
    • 準確性:Claude 在解讀低品質、旋轉或小於 200 像素的極小圖像時,可能會產生幻覺或犯錯。
    • 空間推理:Claude 的空間推理能力有限。它可能在需要精確定位或佈局的任務上遇到困難,例如讀取類比時鐘面或描述棋子的確切位置。
    • 計數:Claude 可以給出圖像中物體的大約數量,但可能並不總是精確準確的,特別是對於大量的小物體。
    • AI 生成的圖像:Claude 不知道圖像是否為 AI 生成的,如果被問到可能會回答錯誤。不要依賴它來檢測假的或合成的圖像。
    • 不當內容:Claude 不會處理違反我們可接受使用政策的不當或露骨圖像。
    • 醫療保健應用:雖然 Claude 可以分析一般醫學圖像,但它並非設計用於解讀複雜的診斷掃描,如 CT 或 MRI。Claude 的輸出不應被視為專業醫療建議或診斷的替代品。

    請始終仔細審查和驗證 Claude 的圖像解讀,特別是對於高風險的使用場景。不要在沒有人工監督的情況下將 Claude 用於需要完美精確度或敏感圖像分析的任務。


    常見問題


    深入了解視覺功能

    準備好使用 Claude 的圖片功能開始建構了嗎?以下是一些有用的資源:

    • 多模態指南:此指南包含圖片入門和最佳實踐技巧,以確保圖片的最高品質效能。了解如何有效地使用圖片提示 Claude 來執行任務,例如解讀和分析圖表或從表單中擷取內容。
    • API 參考文件:請造訪我們的 Messages API 文件,包括涉及圖片的 API 呼叫範例。

    如果您有任何其他問題,歡迎聯繫我們的支援團隊。您也可以加入我們的開發者社群,與其他創作者交流並獲得 Anthropic 專家的協助。

    Was this page helpful?

    • Base64 編碼圖像範例
    • 基於 URL 的圖像範例
    • Files API 圖像範例