Claude Platform Docs
  • Mensajes
  • Agentes gestionados
  • Administración

Search...
⌘K
Primeros pasos
Introducción a ClaudeInicio rápido
Desarrollar con Claude
Descripción general de funcionesUso de la API de MensajesMotivos de detención y respaldoRechazos y respaldoCrédito de respaldo
Capacidades del modelo
Pensamiento extendidoPensamiento adaptativoEsfuerzoPresupuestos de tareas (beta)Modo rápido (vista previa de investigación)Salidas estructuradasCitasStreaming de mensajesProcesamiento por lotesResultados de búsquedaStreaming de rechazosSoporte multilingüeEmbeddings
Herramientas
Descripción generalCómo funciona el uso de herramientasTutorial: Crear un agente que usa herramientasDefinir herramientasGestionar llamadas a herramientasUso de herramientas en paraleloTool Runner (SDK)Uso de herramientas estrictoHerramientas de servidorHerramienta de búsqueda webHerramienta de obtención webHerramienta de ejecución de códigoHerramienta de asesorHerramienta de búsqueda de herramientasHerramienta de memoriaHerramienta BashHerramienta de editor de textoHerramienta de uso de computadoraSolución de problemas
Infraestructura de herramientas
Referencia de herramientasGestionar el contexto de herramientasCombinaciones de herramientasUso de herramientas con almacenamiento en caché de promptsLlamadas programáticas a herramientasStreaming detallado de herramientas
Gestión de contexto
Ventanas de contextoCompactaciónEdición de contextoAlmacenamiento en caché de promptsMensajes del sistema a mitad de conversaciónCrear un modo de orquestaciónDiagnóstico de caché (beta)Conteo de tokens
Trabajar con archivos
API de archivosCompatibilidad con PDF
Descripción generalCoordenadas y cuadros delimitadores
Habilidades
Descripción generalInicio rápidoMejores prácticasHabilidades para empresasHabilidades en la API
MCP
Servidores MCP remotosConector MCP
Claude en plataformas en la nube
Amazon BedrockAmazon Bedrock (heredado)Claude Platform en AWSGoogle CloudMicrosoft Foundry

Log in
Descripción general
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Mensajes/Imágenes y visión

Visión

Las capacidades de visión de Claude le permiten comprender y analizar imágenes, abriendo posibilidades emocionantes para la interacción multimodal.

Esta guía describe cómo enviar imágenes a Claude, los límites y costos que aplican, y dónde encontrar orientación para flujos de trabajo basados en coordenadas.


Enviar imágenes a Claude

Usa las capacidades de visión de Claude a través de:

  • claude.ai. Sube una imagen como lo harías con un archivo, o arrastra y suelta una imagen directamente en la ventana de chat.
  • El Anthropic Workbench. Aparece un botón para agregar imágenes en la parte superior derecha de cada bloque de mensaje de Usuario.
  • Solicitud de API. Consulta los siguientes ejemplos.

En la API, proporciona imágenes a Claude como bloques de contenido image usando uno de tres tipos de origen:

  1. Una imagen codificada en base64 incrustada en el cuerpo de la solicitud
  2. Una referencia URL a una imagen alojada en línea
  3. Un file_id devuelto por la Files API (sube una vez, referencia muchas veces)


En Amazon Bedrock y Google Cloud, actualmente solo están disponibles los orígenes codificados en base64.



Así como colocar documentos largos antes de tu consulta mejora los resultados en prompts de texto, Claude funciona mejor cuando las imágenes vienen antes del texto. Las imágenes colocadas después del texto o intercaladas con texto aún funcionan bien, pero si tu caso de uso lo permite, prefiere una estructura de imagen-luego-texto.

Ejemplo de imagen codificada en base64

image1_data = "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAIAAACQd1PeAAAADElEQVR4nGP4z8AAAAMBAQDJ/pLvAAAAAElFTkSuQmCC"
image1_media_type = "image/png"

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)
print(message)

Ejemplo de imagen basada en URL

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg",
                    },
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)
print(message)

Ejemplo de imagen con Files API

Para imágenes que usarás repetidamente o cuando quieras evitar la sobrecarga de codificación, usa la Files API. Sube la imagen una vez, luego referencia el file_id devuelto en mensajes posteriores en lugar de reenviar datos en base64.



En conversaciones de múltiples turnos y flujos de trabajo agénticos, cada solicitud reenvía el historial completo de la conversación. Si las imágenes están codificadas en base64, los bytes completos de la imagen se incluyen en la carga útil en cada turno, lo que puede aumentar significativamente el tamaño de la solicitud y la latencia a medida que crece la conversación. Subir imágenes a la Files API y referenciarlas por file_id mantiene las cargas útiles de las solicitudes pequeñas sin importar cuántas imágenes se acumulen en el historial de la conversación.

client = anthropic.Anthropic()

# Sube el archivo de imagen
with open("image.jpg", "rb") as f:
    file_upload = client.beta.files.upload(file=("image.jpg", f, "image/jpeg"))

# Usa el archivo subido en un mensaje
message = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    betas=["files-api-2025-04-14"],
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {"type": "file", "file_id": file_upload.id},
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)

print(message.content)

Consulta ejemplos de la Messages API para más código de ejemplo y detalles de parámetros.

Múltiples imágenes

Puedes incluir múltiples imágenes en una sola solicitud, y Claude las analiza en conjunto. Esto es útil para comparar imágenes, preguntar sobre diferencias o trabajar con una secuencia como páginas de un documento. Al enviar varias imágenes, introduce cada una con una etiqueta de texto corta (Image 1:, Image 2:, y así sucesivamente) para que puedas referirte a ellas por nombre en tu prompt y en turnos posteriores.

Python
client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Image 1:"},
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAIAAACQd1PeAAAADElEQVR4nGP4z8AAAAMBAQDJ/pLvAAAAAElFTkSuQmCC",
                    },
                },
                {"type": "text", "text": "Image 2:"},
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAIAAACQd1PeAAAADElEQVR4nGNgYPgPAAEDAQAIicLsAAAAAElFTkSuQmCC",
                    },
                },
                {"type": "text", "text": "How are these images different?"},
            ],
        }
    ],
)
print(message)

En una conversación de múltiples turnos, agrega nuevas imágenes en turnos user posteriores de la misma manera. Claude tiene acceso a todas las imágenes de turnos anteriores, por lo que preguntas de seguimiento como "¿Son estas similares a las dos primeras?" funcionan sin incluir las imágenes anteriores nuevamente en el contenido del nuevo turno.


Límites y costos de imágenes

Límites de solicitud

El número máximo de imágenes por mensaje o solicitud es:

  • 20 por mensaje en claude.ai.
  • 100 por solicitud en la API, para modelos con una ventana de contexto de 200k tokens.
  • 600 por solicitud en la API, para todos los demás modelos.

Las dimensiones máximas por imagen son 8000x8000 px.

Si una sola solicitud de API contiene más de 20 imágenes, se aplica un límite de dimensión por imagen más estricto. En Amazon Bedrock y Google Cloud, los bloques de documentos como PDFs también cuentan para este umbral. Las imágenes que exceden el límite más estricto se rechazan con un invalid_request_error cuyo mensaje hace referencia a "many-image requests" e indica el límite actual en píxeles. Para mantenerte bajo el límite en todas las plataformas, redimensiona cada imagen para que ninguna dimensión exceda 2000 px, o mantén la solicitud en 20 o menos bloques de imagen y documento.

El tamaño máximo por imagen es:

  • 10 MB (codificada en base64) al usar la API de Claude directamente.
  • 5 MB (codificada en base64) en Amazon Bedrock y Google Cloud.
  • 10 MB en claude.ai.


Aunque la API admite hasta 600 imágenes por solicitud, los límites de tamaño de solicitud (32 MB para endpoints estándar; menor en algunas plataformas operadas por socios, por ejemplo, Amazon Bedrock y Google Cloud) pueden alcanzarse primero. Para muchas imágenes, considera subirlas con la Files API y referenciarlas por file_id para mantener las cargas útiles de las solicitudes pequeñas.

Incluso al usar la Files API, las solicitudes con muchas imágenes grandes pueden fallar antes de alcanzar el conteo de 600 imágenes. Reduce las dimensiones o tamaños de archivo de las imágenes (por ejemplo, mediante submuestreo) antes de subirlas (consulta Resolución y costo de tokens).

Formatos compatibles

Claude admite imágenes JPEG, PNG, GIF y WebP (image/jpeg, image/png, image/gif, image/webp). Las animaciones no son compatibles, y solo se usa el primer fotograma.

Resolución y costo de tokens

Claude ve las imágenes en parches en lugar de píxeles. Cada parche es un bloque de 28×28 píxeles de la imagen, denominado token visual. Una imagen, por lo tanto, cuesta ⌈ancho / 28⌉ × ⌈alto / 28⌉ tokens visuales.

Cada modelo tiene una resolución de imagen nativa máxima, expresada como un límite de borde largo y un límite de tokens visuales. Las imágenes más grandes que cualquiera de los límites se reducen antes del procesamiento; consulta Cómo Claude redimensiona y rellena imágenes para la regla exacta.

Nivel de resoluciónModelosBorde largo máx.Tokens visuales máx.
Alta resoluciónClaude Fable 5, Claude Mythos 5, Claude Opus 4.8, Claude Opus 4.7, Claude Sonnet 52576 px4784
EstándarTodos los demás modelos1568 px1568

El soporte de alta resolución es automático en los modelos listados y no requiere encabezado beta ni activación del lado del cliente.

La siguiente tabla muestra el costo en tokens visuales para varios tamaños de imagen en cada nivel:

Tamaño de imagenTokens de nivel estándarTokens de nivel de alta resolución
200x200 px (0.04 megapíxeles)6464
1000x1000 px (1 megapíxel)12961296
1092x1092 px (1.19 megapíxeles)15211521
1920x1080 px (2.07 megapíxeles)15602691
2000x1500 px (3 megapíxeles)15643888
3840x2160 px (8.29 megapíxeles)15604784

Para estimar el costo, multiplica el conteo de tokens por el precio por token del modelo que estás usando. Por ejemplo, a $1 por millón de tokens de entrada de Claude Haiku 4.5 (nivel estándar), la imagen de 1000×1000 cuesta aproximadamente $1.30 por cada mil imágenes. A $5 por millón de Claude Opus 4.8 (nivel de alta resolución), la misma imagen cuesta aproximadamente $6.48 por cada mil y la imagen 4K aproximadamente $23.92 por cada mil.

Las imágenes de alta resolución pueden usar hasta aproximadamente tres veces más tokens visuales que la misma imagen en un modelo de nivel estándar. Si no necesitas la fidelidad adicional que proporciona la alta resolución para uso de computadora, comprensión de capturas de pantalla y documentos densos, submuestrea las imágenes antes de enviarlas para controlar los costos de tokens. Para minimizar la latencia y simplificar los flujos de trabajo basados en coordenadas, prefiere redimensionar las imágenes antes de subirlas.

Orientación sobre calidad de imagen

Al proporcionar imágenes a Claude, ten en cuenta lo siguiente para obtener mejores resultados:

  • Claridad de imagen: Asegúrate de que las imágenes sean claras y no demasiado borrosas o pixeladas.
  • Texto: Si la imagen contiene texto importante, asegúrate de que sea legible y no demasiado pequeño. Evita recortar contexto visual clave únicamente para agrandar el texto.
  • Redimensionamiento: Ten en cuenta que tu imagen podría redimensionarse si es demasiado grande (consulta Resolución y costo de tokens); esto podría, por ejemplo, hacer que el texto sea menos legible. Considera redimensionar previamente tus imágenes, recortarlas, o ambas cosas.
  • Compresión de imagen: Comprimir imágenes antes de enviarlas, usando un formato con pérdida como JPEG o WebP (modo con pérdida), puede reducir la latencia al reducir el tamaño de las solicitudes. Sin embargo, esto puede introducir artefactos que son perjudiciales para el rendimiento del modelo, especialmente cuando se aplican múltiples pasadas de compresión. Por ejemplo, una compresión JPEG intensa puede hacer que el texto sea difícil de leer. Confirma que tu configuración de compresión sea apropiada para la tarea inspeccionando las imágenes reales enviadas a la API.

Coordenadas y cuadros delimitadores

Para "bounding boxes" (cuadros delimitadores), puntos y coordenadas de píxeles, consulta Coordenadas y cuadros delimitadores. Claude devuelve coordenadas de píxeles absolutas relativas a la imagen que ve después del redimensionamiento; esa guía cubre cómo Claude redimensiona y rellena imágenes y cómo redimensionar previamente o reescalar para que las coordenadas coincidan con tu imagen original.


Limitaciones

Aunque las capacidades de comprensión de imágenes de Claude son de vanguardia, hay algunas limitaciones que debes tener en cuenta:

  • Identificación de personas: Claude no puede usarse para nombrar personas en imágenes y se niega a hacerlo.
  • Precisión: Claude podría alucinar o cometer errores al interpretar imágenes de baja calidad, rotadas o muy pequeñas de menos de 200 píxeles.
  • Razonamiento espacial: Las salidas de coordenadas y localización de Claude son aproximadas. Sigue la orientación en Coordenadas y cuadros delimitadores y verifica las salidas antes de confiar en ellas.
  • Conteo: Claude puede dar conteos aproximados de objetos en una imagen, pero podría no ser siempre precisamente exacto, especialmente con grandes cantidades de objetos pequeños.
  • Imágenes generadas por IA: Claude no puede determinar si una imagen es generada por IA y podría equivocarse si se le pregunta. No confíes en él para detectar imágenes falsas o sintéticas.
  • Contenido inapropiado: Claude no procesa imágenes inapropiadas o explícitas que violen la Política de Uso Aceptable.
  • Aplicaciones de salud: Aunque Claude puede analizar imágenes médicas generales, no está diseñado para interpretar escaneos diagnósticos complejos como tomografías computarizadas o resonancias magnéticas. Las salidas de Claude no deben considerarse un sustituto del consejo o diagnóstico médico profesional.

Siempre revisa y verifica cuidadosamente las interpretaciones de imágenes de Claude, especialmente para casos de uso de alto riesgo. No uses Claude para tareas que requieran precisión perfecta o análisis de imágenes sensibles sin supervisión humana.


Preguntas frecuentes


Próximos pasos


Cookbook multimodal


Obtén consejos y técnicas de mejores prácticas para tareas como interpretar gráficos y extraer contenido de formularios.


Referencia de API

Consulta la documentación de la Messages API, incluyendo ejemplos de llamadas a la API que involucran imágenes.

Was this page helpful?

  • Enviar imágenes a Claude
  • Ejemplo de imagen codificada en base64
  • Ejemplo de imagen basada en URL
  • Ejemplo de imagen con Files API
  • Múltiples imágenes
  • Límites y costos de imágenes
  • Límites de solicitud
  • Formatos compatibles
  • Resolución y costo de tokens
  • Orientación sobre calidad de imagen
  • Coordenadas y cuadros delimitadores
  • Limitaciones
  • Preguntas frecuentes
  • Próximos pasos