Возможности модели

Зрение

Возможности зрения Claude позволяют ему понимать и анализировать изображения, открывая захватывающие возможности для мультимодального взаимодействия.

Это руководство описывает, как работать с изображениями в Claude, включая лучшие практики, примеры кода и ограничения, которые следует учитывать.

Как использовать зрение

Используйте возможности зрения Claude через:

claude.ai. Загрузите изображение как файл или перетащите изображение прямо в окно чата.
Console Workbench. Кнопка для добавления изображений появляется в верхнем правом углу каждого блока сообщения пользователя.
API запрос. См. примеры в этом руководстве.

Перед загрузкой

Основы и ограничения

Вы можете включить несколько изображений в один запрос (до 20 для claude.ai и 100 для запросов API). Claude будет анализировать все предоставленные изображения при формулировании своего ответа. Это может быть полезно для сравнения или противопоставления изображений.

Если вы отправите изображение размером более 8000x8000 пикселей, оно будет отклонено. Если вы отправите более 20 изображений в одном запросе API, это ограничение составляет 2000x2000 пикселей.

Хотя API поддерживает 100 изображений на запрос, существует ограничение размера запроса в 32 МБ для стандартных конечных точек.

Оценка размера изображения

Для оптимальной производительности мы рекомендуем изменять размер изображений перед загрузкой, если они слишком большие. Если длинный край вашего изображения больше 1568 пикселей или ваше изображение содержит более ~1600 токенов, оно сначала будет масштабировано вниз, сохраняя соотношение сторон, пока не будет в пределах ограничений размера.

Если ваше входное изображение слишком большое и требует изменения размера, это увеличит задержку time-to-first-token, не давая вам никакого дополнительного улучшения производительности модели. Очень маленькие изображения размером менее 200 пикселей с любой стороны могут снизить производительность.

Чтобы улучшить time-to-first-token, мы рекомендуем изменять размер изображений не более чем до 1,15 мегапикселей (и в пределах 1568 пикселей в обоих измерениях).

Вот таблица максимальных размеров изображений, принимаемых нашим API, которые не будут изменены для распространенных соотношений сторон. С Claude Opus 4.6 эти изображения используют примерно 1600 токенов и около $4,80/1K изображений.

Соотношение сторон	Размер изображения
1:1	1092x1092 px
3:4	951x1268 px
2:3	896x1344 px
9:16	819x1456 px
1:2	784x1568 px

Расчет стоимости изображения

Каждое изображение, которое вы включаете в запрос к Claude, учитывается в использовании токенов. Чтобы рассчитать приблизительную стоимость, умножьте приблизительное количество токенов изображения на цену за токен модели, которую вы используете.

Если ваше изображение не требует изменения размера, вы можете оценить количество используемых токенов с помощью этого алгоритма: tokens = (width px * height px)/750

Вот примеры приблизительной токенизации и стоимости для различных размеров изображений в пределах ограничений размера API на основе цены Claude Opus 4.6 в размере $3 за миллион входных токенов:

Размер изображения	# токенов	Стоимость / изображение	Стоимость / 1K изображений
200x200 px(0,04 мегапикселя)	~54	~$0,00016	~$0,16
1000x1000 px(1 мегапиксель)	~1334	~$0,004	~$4,00
1092x1092 px(1,19 мегапикселя)	~1590	~$0,0048	~$4,80

Обеспечение качества изображения

При предоставлении изображений Claude учитывайте следующее для получения наилучших результатов:

Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
Четкость изображения: Убедитесь, что изображения четкие и не слишком размытые или пиксельные.
Текст: Если изображение содержит важный текст, убедитесь, что он разборчив и не слишком мал. Избегайте обрезания ключевого визуального контекста только для увеличения текста.

Примеры подсказок

Многие из методов подсказок, которые хорошо работают для текстовых взаимодействий с Claude, также могут быть применены к подсказкам на основе изображений.

Эти примеры демонстрируют лучшие практики структур подсказок, включающих изображения.

Как и при размещении запроса документа, Claude работает лучше всего, когда изображения идут перед текстом. Изображения, размещенные после текста или интерполированные с текстом, все еще будут работать хорошо, но если ваш вариант использования позволяет, мы рекомендуем структуру изображение-затем-текст.

О примерах подсказок

Следующие примеры демонстрируют, как использовать возможности зрения Claude, используя различные языки программирования и подходы. Вы можете предоставить изображения Claude тремя способами:

Как изображение, закодированное в base64, в блоках содержимого image
Как ссылка URL на изображение, размещенное в Интернете
Используя Files API (загрузить один раз, использовать несколько раз)

Примеры подсказок base64 используют эти переменные:

    # Для изображений на основе URL вы можете использовать URL непосредственно в вашем JSON запросе
    
    # Для изображений, закодированных в base64, вам нужно сначала закодировать изображение
    # Пример того, как закодировать изображение в base64 в bash:
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # Закодированные данные теперь можно использовать в ваших вызовах API

Ниже приведены примеры того, как включить изображения в запрос Messages API, используя изображения, закодированные в base64, и ссылки на URL:

Пример изображения, закодированного в base64

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Пример изображения на основе URL

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "url",
              "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Пример изображения Files API

Для изображений, которые вы будете использовать повторно или когда вы хотите избежать затрат на кодирование, используйте Files API:

# Сначала загрузите ваше изображение в Files API
curl -X POST https://api.anthropic.com/v1/files \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -F "[email protected]"

# Затем используйте возвращенный file_id в вашем сообщении
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "file",
              "file_id": "file_abc123"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Дополнительные примеры кода и детали параметров см. в примерах Messages API.

Ограничения

Хотя возможности понимания изображений Claude являются передовыми, есть некоторые ограничения, о которых следует знать:

Идентификация людей: Claude не может использоваться для идентификации (т.е. назвать) людей на изображениях и откажется это делать.
Точность: Claude может галлюцинировать или делать ошибки при интерпретации низкокачественных, повернутых или очень маленьких изображений размером менее 200 пикселей.
Пространственное рассуждение: Способности пространственного рассуждения Claude ограничены. Он может испытывать трудности с задачами, требующими точной локализации или макетов, такими как чтение циферблата аналоговых часов или описание точных позиций шахматных фигур.
Подсчет: Claude может дать приблизительный подсчет объектов на изображении, но может быть не всегда точным, особенно с большим количеством маленьких объектов.
Изображения, созданные ИИ: Claude не знает, является ли изображение созданным ИИ, и может быть неправ, если его спросить. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
Неприемлемое содержание: Claude не будет обрабатывать неприемлемые или явные изображения, которые нарушают нашу Политику приемлемого использования.
Приложения здравоохранения: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических сканирований, таких как КТ или МРТ. Результаты Claude не должны рассматриваться как замена профессиональной медицинской консультации или диагностике.

Всегда тщательно проверяйте и верифицируйте интерпретации изображений Claude, особенно для высокорисковых вариантов использования. Не используйте Claude для задач, требующих идеальной точности или чувствительного анализа изображений без надзора человека.

Часто задаваемые вопросы

Углубленное изучение видения

Готовы начать создавать с использованием изображений на Claude? Вот несколько полезных ресурсов:

Многомодальная кулинарная книга: Эта кулинарная книга содержит советы по началу работы с изображениями и методы лучших практик для обеспечения наивысшего качества производительности с изображениями. Посмотрите, как вы можете эффективно использовать Claude с изображениями для выполнения задач, таких как интерпретация и анализ диаграмм или извлечение содержимого из форм.
Справочник API: Посетите нашу документацию для Messages API, включая примеры вызовов API с изображениями.

Если у вас есть какие-либо другие вопросы, не стесняйтесь обращаться к нашей команде поддержки. Вы также можете присоединиться к нашему сообществу разработчиков, чтобы связаться с другими создателями и получить помощь от экспертов Anthropic.

Was this page helpful?

Возможности модели

Зрение

Как использовать зрение

Используйте возможности зрения Claude через:

claude.ai. Загрузите изображение как файл или перетащите изображение прямо в окно чата.
Console Workbench. Кнопка для добавления изображений появляется в верхнем правом углу каждого блока сообщения пользователя.
API запрос. См. примеры в этом руководстве.

Перед загрузкой

Основы и ограничения

Оценка размера изображения

Соотношение сторон	Размер изображения
1:1	1092x1092 px
3:4	951x1268 px
2:3	896x1344 px
9:16	819x1456 px
1:2	784x1568 px

Расчет стоимости изображения

Размер изображения	# токенов	Стоимость / изображение	Стоимость / 1K изображений
200x200 px(0,04 мегапикселя)	~54	~$0,00016	~$0,16
1000x1000 px(1 мегапиксель)	~1334	~$0,004	~$4,00
1092x1092 px(1,19 мегапикселя)	~1590	~$0,0048	~$4,80

Обеспечение качества изображения

При предоставлении изображений Claude учитывайте следующее для получения наилучших результатов:

Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
Четкость изображения: Убедитесь, что изображения четкие и не слишком размытые или пиксельные.
Текст: Если изображение содержит важный текст, убедитесь, что он разборчив и не слишком мал. Избегайте обрезания ключевого визуального контекста только для увеличения текста.

Примеры подсказок

Эти примеры демонстрируют лучшие практики структур подсказок, включающих изображения.

О примерах подсказок

Как изображение, закодированное в base64, в блоках содержимого image
Как ссылка URL на изображение, размещенное в Интернете
Используя Files API (загрузить один раз, использовать несколько раз)

Примеры подсказок base64 используют эти переменные:

    # Для изображений на основе URL вы можете использовать URL непосредственно в вашем JSON запросе
    
    # Для изображений, закодированных в base64, вам нужно сначала закодировать изображение
    # Пример того, как закодировать изображение в base64 в bash:
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # Закодированные данные теперь можно использовать в ваших вызовах API

Пример изображения, закодированного в base64

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Пример изображения на основе URL

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "url",
              "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Пример изображения Files API

# Сначала загрузите ваше изображение в Files API
curl -X POST https://api.anthropic.com/v1/files \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -F "[email protected]"

# Затем используйте возвращенный file_id в вашем сообщении
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "file",
              "file_id": "file_abc123"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Дополнительные примеры кода и детали параметров см. в примерах Messages API.

Ограничения

Идентификация людей: Claude не может использоваться для идентификации (т.е. назвать) людей на изображениях и откажется это делать.
Точность: Claude может галлюцинировать или делать ошибки при интерпретации низкокачественных, повернутых или очень маленьких изображений размером менее 200 пикселей.
Пространственное рассуждение: Способности пространственного рассуждения Claude ограничены. Он может испытывать трудности с задачами, требующими точной локализации или макетов, такими как чтение циферблата аналоговых часов или описание точных позиций шахматных фигур.
Подсчет: Claude может дать приблизительный подсчет объектов на изображении, но может быть не всегда точным, особенно с большим количеством маленьких объектов.
Изображения, созданные ИИ: Claude не знает, является ли изображение созданным ИИ, и может быть неправ, если его спросить. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
Неприемлемое содержание: Claude не будет обрабатывать неприемлемые или явные изображения, которые нарушают нашу Политику приемлемого использования.
Приложения здравоохранения: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических сканирований, таких как КТ или МРТ. Результаты Claude не должны рассматриваться как замена профессиональной медицинской консультации или диагностике.

Часто задаваемые вопросы

Углубленное изучение видения

Готовы начать создавать с использованием изображений на Claude? Вот несколько полезных ресурсов:

Многомодальная кулинарная книга: Эта кулинарная книга содержит советы по началу работы с изображениями и методы лучших практик для обеспечения наивысшего качества производительности с изображениями. Посмотрите, как вы можете эффективно использовать Claude с изображениями для выполнения задач, таких как интерпретация и анализ диаграмм или извлечение содержимого из форм.
Справочник API: Посетите нашу документацию для Messages API, включая примеры вызовов API с изображениями.

Was this page helpful?

Как использовать зрение

Перед загрузкой

Основы и ограничения

Оценка размера изображения

Расчет стоимости изображения

Обеспечение качества изображения

Примеры подсказок

О примерах подсказок

Пример изображения, закодированного в base64

Пример изображения на основе URL

Пример изображения Files API

Пример: одно изображение

Пример: несколько изображений

Пример: несколько изображений с системной подсказкой

Пример: четыре изображения в двух диалоговых ходах

Ограничения

Часто задаваемые вопросы

Какие форматы изображений поддерживает Claude?

Может ли Claude читать URL-адреса изображений?

Есть ли ограничение на размер файла изображения, который я могу загрузить?

Сколько изображений я могу включить в один запрос?

Читает ли Claude метаданные изображения?

Могу ли я удалить загруженные изображения?

Где я могу найти подробную информацию о конфиденциальности данных при загрузке изображений?

Что если интерпретация изображения Claude кажется неправильной?

Может ли Claude генерировать или редактировать изображения?

Углубленное изучение видения

Как использовать зрение

Перед загрузкой

Основы и ограничения

Оценка размера изображения

Расчет стоимости изображения

Обеспечение качества изображения

Примеры подсказок

О примерах подсказок

Пример изображения, закодированного в base64

Пример изображения на основе URL

Пример изображения Files API

Пример: одно изображение

Пример: несколько изображений

Пример: несколько изображений с системной подсказкой

Пример: четыре изображения в двух диалоговых ходах

Ограничения

Часто задаваемые вопросы

Какие форматы изображений поддерживает Claude?

Может ли Claude читать URL-адреса изображений?

Есть ли ограничение на размер файла изображения, который я могу загрузить?

Сколько изображений я могу включить в один запрос?

Читает ли Claude метаданные изображения?

Могу ли я удалить загруженные изображения?

Где я могу найти подробную информацию о конфиденциальности данных при загрузке изображений?

Что если интерпретация изображения Claude кажется неправильной?

Может ли Claude генерировать или редактировать изображения?

Углубленное изучение видения