Claude Platform Docs
  • Mensagens
  • Agentes Gerenciados
  • Administração

Search...
⌘K
Primeiros passos
Introdução ao ClaudeInício rápido
Desenvolvendo com o Claude
Visão geral dos recursosUsando a API de MensagensMotivos de parada e fallbackRecusas e fallbackCrédito de fallback
Capacidades do modelo
Pensamento estendidoPensamento adaptativoEsforçoOrçamentos de tarefas (beta)Modo rápido (prévia de pesquisa)Saídas estruturadasCitaçõesStreaming de MensagensProcessamento em loteResultados de pesquisaStreaming de recusasSuporte multilíngueEmbeddings
Ferramentas
Visão geralComo funciona o uso de ferramentasTutorial: Crie um agente que usa ferramentasDefinir ferramentasLidar com chamadas de ferramentasUso de ferramentas em paraleloTool Runner (SDK)Uso de ferramentas estritoFerramentas de servidorFerramenta de pesquisa na webFerramenta de busca na webFerramenta de execução de códigoFerramenta de consultoriaFerramenta de busca de ferramentasFerramenta de memóriaFerramenta BashFerramenta de editor de textoFerramenta de uso de computadorSolução de problemas
Infraestrutura de ferramentas
Referência de ferramentasGerenciar contexto de ferramentasCombinações de ferramentasUso de ferramentas com cache de promptChamada programática de ferramentasStreaming granular de ferramentas
Gerenciamento de contexto
Janelas de contextoCompactaçãoEdição de contextoCache de promptMensagens de sistema no meio da conversaCriar um modo de orquestraçãoDiagnóstico de cache (beta)Contagem de tokens
Trabalhando com arquivos
API de ArquivosSuporte a PDF
Visão geralCoordenadas e caixas delimitadoras
Habilidades
Visão geralInício rápidoPráticas recomendadasHabilidades para empresasHabilidades na API
MCP
Servidores MCP remotosConector MCP
Claude em plataformas de nuvem
Amazon BedrockAmazon Bedrock (legado)Claude Platform na AWSGoogle CloudMicrosoft Foundry

Log in
Visão geral
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Mensagens/Imagens e visão

Visão

As capacidades de visão do Claude permitem que ele compreenda e analise imagens, abrindo possibilidades empolgantes para interação multimodal.

Este guia descreve como enviar imagens ao Claude, os limites e custos aplicáveis, e onde encontrar orientações para fluxos de trabalho baseados em coordenadas.


Enviar imagens ao Claude

Use as capacidades de visão do Claude por meio de:

  • claude.ai. Faça upload de uma imagem como faria com um arquivo, ou arraste e solte uma imagem diretamente na janela de chat.
  • O Anthropic Workbench. Um botão para adicionar imagens aparece no canto superior direito de cada bloco de mensagem do Usuário.
  • Requisição de API. Veja os exemplos a seguir.

Na API, forneça imagens ao Claude como blocos de conteúdo image usando um dos três tipos de origem:

  1. Uma imagem codificada em base64 incorporada no corpo da requisição
  2. Uma referência de URL para uma imagem hospedada online
  3. Um file_id retornado pela Files API (faça upload uma vez, referencie várias vezes)


No Amazon Bedrock e no Google Cloud, apenas origens codificadas em base64 estão disponíveis atualmente.



Assim como colocar documentos longos antes da sua consulta melhora os resultados em prompts de texto, o Claude funciona melhor quando as imagens vêm antes do texto. Imagens colocadas após o texto ou intercaladas com texto ainda funcionam bem, mas se o seu caso de uso permitir, prefira uma estrutura de imagem-depois-texto.

Exemplo de imagem codificada em base64

image1_data = "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAIAAACQd1PeAAAADElEQVR4nGP4z8AAAAMBAQDJ/pLvAAAAAElFTkSuQmCC"
image1_media_type = "image/png"

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)
print(message)

Exemplo de imagem baseada em URL

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg",
                    },
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)
print(message)

Exemplo de imagem com a Files API

Para imagens que você usará repetidamente ou quando quiser evitar a sobrecarga de codificação, use a Files API. Faça upload da imagem uma vez e, em seguida, referencie o file_id retornado em mensagens subsequentes em vez de reenviar dados em base64.



Em conversas de múltiplos turnos e fluxos de trabalho agênticos, cada requisição reenvia o histórico completo da conversa. Se as imagens estiverem codificadas em base64, os bytes completos da imagem são incluídos no payload a cada turno, o que pode aumentar significativamente o tamanho da requisição e a latência à medida que a conversa cresce. Fazer upload de imagens para a Files API e referenciá-las por file_id mantém os payloads das requisições pequenos, independentemente de quantas imagens se acumulem no histórico da conversa.

client = anthropic.Anthropic()

# Faça upload do arquivo de imagem
with open("image.jpg", "rb") as f:
    file_upload = client.beta.files.upload(file=("image.jpg", f, "image/jpeg"))

# Use o arquivo enviado em uma mensagem
message = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    betas=["files-api-2025-04-14"],
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {"type": "file", "file_id": file_upload.id},
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)

print(message.content)

Consulte exemplos da Messages API para mais exemplos de código e detalhes de parâmetros.

Múltiplas imagens

Você pode incluir múltiplas imagens em uma única requisição, e o Claude as analisa em conjunto. Isso é útil para comparar imagens, perguntar sobre diferenças ou trabalhar com uma sequência, como páginas de um documento. Ao enviar várias imagens, introduza cada uma com um rótulo de texto curto (Image 1:, Image 2:, e assim por diante) para que você possa se referir a elas pelo nome no seu prompt e em turnos subsequentes.

Python
client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Image 1:"},
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAIAAACQd1PeAAAADElEQVR4nGP4z8AAAAMBAQDJ/pLvAAAAAElFTkSuQmCC",
                    },
                },
                {"type": "text", "text": "Image 2:"},
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAIAAACQd1PeAAAADElEQVR4nGNgYPgPAAEDAQAIicLsAAAAAElFTkSuQmCC",
                    },
                },
                {"type": "text", "text": "How are these images different?"},
            ],
        }
    ],
)
print(message)

Em uma conversa de múltiplos turnos, adicione novas imagens em turnos user posteriores da mesma forma. O Claude tem acesso a todas as imagens de turnos anteriores, então perguntas de acompanhamento como "Estas são semelhantes às duas primeiras?" funcionam sem incluir as imagens anteriores novamente no conteúdo do novo turno.


Limites e custos de imagens

Limites de requisição

O número máximo de imagens por mensagem ou requisição é:

  • 20 por mensagem no claude.ai.
  • 100 por requisição na API, para modelos com uma "context window" (janela de contexto) de 200 mil tokens.
  • 600 por requisição na API, para todos os outros modelos.

As dimensões máximas por imagem são 8000x8000 px.

Se uma única requisição de API contiver mais de 20 imagens, um limite de dimensão por imagem mais restrito é aplicado. No Amazon Bedrock e no Google Cloud, blocos de documentos como PDFs também contam para esse limite. Imagens que excedem o limite mais restrito são rejeitadas com um invalid_request_error cuja mensagem faz referência a "many-image requests" e indica o limite atual em pixels. Para ficar abaixo do limite em todas as plataformas, redimensione cada imagem para que nenhuma dimensão exceda 2000 px, ou mantenha a requisição com 20 ou menos blocos de imagem e documento.

O tamanho máximo por imagem é:

  • 10 MB (codificada em base64) ao usar a API do Claude diretamente.
  • 5 MB (codificada em base64) no Amazon Bedrock e no Google Cloud.
  • 10 MB no claude.ai.


Embora a API suporte até 600 imagens por requisição, os limites de tamanho de requisição (32 MB para endpoints padrão; menor em algumas plataformas operadas por parceiros, por exemplo, Amazon Bedrock e Google Cloud) podem ser atingidos primeiro. Para muitas imagens, considere fazer upload com a Files API e referenciar por file_id para manter os payloads das requisições pequenos.

Mesmo ao usar a Files API, requisições com muitas imagens grandes podem falhar antes de atingir a contagem de 600 imagens. Reduza as dimensões ou tamanhos de arquivo das imagens (por exemplo, por meio de downsampling) antes de fazer upload (consulte Resolução e custo de tokens).

Formatos suportados

O Claude suporta imagens JPEG, PNG, GIF e WebP (image/jpeg, image/png, image/gif, image/webp). Animações não são suportadas, e apenas o primeiro quadro é usado.

Resolução e custo de tokens

O Claude visualiza imagens em patches em vez de pixels. Cada patch é um bloco de 28×28 pixels da imagem, chamado de token visual. Uma imagem, portanto, custa ⌈width / 28⌉ × ⌈height / 28⌉ tokens visuais.

Cada modelo tem uma resolução nativa máxima de imagem, expressa como um limite de borda longa e um limite de tokens visuais. Imagens maiores que qualquer um desses limites são reduzidas antes do processamento; consulte Como o Claude redimensiona e preenche imagens para a regra exata.

Nível de resoluçãoModelosBorda longa máx.Tokens visuais máx.
Alta resoluçãoClaude Fable 5, Claude Mythos 5, Claude Opus 4.8, Claude Opus 4.7, Claude Sonnet 52576 px4784
PadrãoTodos os outros modelos1568 px1568

O suporte a alta resolução é automático nos modelos listados e não requer cabeçalho beta nem opt-in do lado do cliente.

A tabela a seguir mostra o custo em tokens visuais para vários tamanhos de imagem em cada nível:

Tamanho da imagemTokens no nível padrãoTokens no nível de alta resolução
200x200 px (0,04 megapixels)6464
1000x1000 px (1 megapixel)12961296
1092x1092 px (1,19 megapixels)15211521
1920x1080 px (2,07 megapixels)15602691
2000x1500 px (3 megapixels)15643888
3840x2160 px (8,29 megapixels)15604784

Para estimar o custo, multiplique a contagem de tokens pelo preço por token do modelo que você está usando. Por exemplo, a US$ 1 por milhão de tokens de entrada do Claude Haiku 4.5 (nível padrão), a imagem de 1000×1000 custa cerca de US$ 1,30 por mil imagens. A US$ 5 por milhão do Claude Opus 4.8 (nível de alta resolução), a mesma imagem custa cerca de US$ 6,48 por mil e a imagem 4K cerca de US$ 23,92 por mil.

Imagens de alta resolução podem usar até aproximadamente três vezes mais tokens visuais do que a mesma imagem em um modelo de nível padrão. Se você não precisa da fidelidade adicional que a alta resolução oferece para uso de computador, compreensão de capturas de tela e documentos densos, reduza a resolução das imagens antes de enviá-las para controlar os custos de tokens. Para minimizar a latência e simplificar fluxos de trabalho baseados em coordenadas, prefira redimensionar as imagens antes de fazer upload delas.

Orientações sobre qualidade de imagem

Ao fornecer imagens ao Claude, tenha em mente o seguinte para obter melhores resultados:

  • Nitidez da imagem: Certifique-se de que as imagens estejam nítidas e não muito desfocadas ou pixeladas.
  • Texto: Se a imagem contiver texto importante, certifique-se de que esteja legível e não muito pequeno. Evite cortar contexto visual essencial apenas para ampliar o texto.
  • Redimensionamento: Leve em conta que sua imagem pode ser redimensionada se for muito grande (consulte Resolução e custo de tokens); isso pode, por exemplo, tornar o texto menos legível. Considere pré-redimensionar suas imagens, cortá-las, ou ambos.
  • Compressão de imagem: Comprimir imagens antes de enviá-las, usando um formato com perdas como JPEG ou WebP (modo com perdas), pode reduzir a latência ao diminuir o tamanho das requisições. No entanto, isso pode introduzir artefatos prejudiciais ao desempenho do modelo, especialmente quando múltiplas passagens de compressão são aplicadas. Por exemplo, compressão JPEG intensa pode tornar o texto difícil de ler. Confirme que suas configurações de compressão são apropriadas para a tarefa inspecionando as imagens reais enviadas à API.

Coordenadas e caixas delimitadoras

Para caixas delimitadoras, pontos e coordenadas de pixel, consulte Coordenadas e caixas delimitadoras. O Claude retorna coordenadas de pixel absolutas relativas à imagem que ele vê após o redimensionamento; esse guia aborda como o Claude redimensiona e preenche imagens e como pré-redimensionar ou reescalar para que as coordenadas se alinhem com sua imagem original.


Limitações

Embora as capacidades de compreensão de imagens do Claude sejam de ponta, há algumas limitações a serem consideradas:

  • Identificação de pessoas: O Claude não pode ser usado para nomear pessoas em imagens e se recusa a fazê-lo.
  • Precisão: O Claude pode alucinar ou cometer erros ao interpretar imagens de baixa qualidade, rotacionadas ou muito pequenas, abaixo de 200 pixels.
  • Raciocínio espacial: As saídas de coordenadas e localização do Claude são aproximadas. Siga as orientações em Coordenadas e caixas delimitadoras e verifique as saídas antes de confiar nelas.
  • Contagem: O Claude pode fornecer contagens aproximadas de objetos em uma imagem, mas nem sempre é precisamente exato, especialmente com grandes quantidades de objetos pequenos.
  • Imagens geradas por IA: O Claude não consegue determinar se uma imagem foi gerada por IA e pode estar incorreto se perguntado. Não confie nele para detectar imagens falsas ou sintéticas.
  • Conteúdo inadequado: O Claude não processa imagens inadequadas ou explícitas que violem a Política de Uso Aceitável.
  • Aplicações na área da saúde: Embora o Claude possa analisar imagens médicas gerais, ele não foi projetado para interpretar exames diagnósticos complexos, como tomografias computadorizadas ou ressonâncias magnéticas. As saídas do Claude não devem ser consideradas um substituto para aconselhamento médico profissional ou diagnóstico.

Sempre revise e verifique cuidadosamente as interpretações de imagens do Claude, especialmente para casos de uso de alto risco. Não use o Claude para tarefas que exijam precisão perfeita ou análise de imagens sensíveis sem supervisão humana.


Perguntas frequentes


Próximos passos


Cookbook multimodal


Obtenha dicas e técnicas de melhores práticas para tarefas como interpretar gráficos e extrair conteúdo de formulários.


Referência da API

Consulte a documentação da Messages API, incluindo exemplos de chamadas de API envolvendo imagens.

Was this page helpful?

  • Enviar imagens ao Claude
  • Exemplo de imagem codificada em base64
  • Exemplo de imagem baseada em URL
  • Exemplo de imagem com a Files API
  • Múltiplas imagens
  • Limites e custos de imagens
  • Limites de requisição
  • Formatos suportados
  • Resolução e custo de tokens
  • Orientações sobre qualidade de imagem
  • Coordenadas e caixas delimitadoras
  • Limitações
  • Perguntas frequentes
  • Próximos passos