Loading...
  • Разработка
  • Администрирование
  • Модели и цены
  • Клиентские SDK
  • Справочник API
Search...
⌘K
Log in
Изображения и зрение
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Разработка/Работа с файлами

Зрение

Возможности зрения Claude позволяют ему понимать и анализировать изображения, открывая захватывающие возможности для мультимодального взаимодействия.

Это руководство описывает, как работать с изображениями в Claude, включая лучшие практики, примеры кода и ограничения, которые следует учитывать.


Как использовать зрение

Используйте возможности зрения Claude через:

  • claude.ai. Загружайте изображение как файл или перетаскивайте изображение прямо в окно чата.
  • Console Workbench. Кнопка для добавления изображений появляется в верхнем правом углу каждого блока сообщения пользователя.
  • Запрос API. См. примеры в этом руководстве.

Перед загрузкой

Основы и ограничения

Вы можете включить несколько изображений в один запрос: до 20 для claude.ai и до 600 для запросов API (100 для моделей с окном контекста 200k токенов). Claude анализирует все предоставленные изображения при формулировании своего ответа. Это может быть полезно для сравнения или противопоставления изображений.

Если вы отправите изображение размером более 8000x8000 пикселей, оно будет отклонено. Если вы отправите более 20 изображений в одном запросе API, это ограничение составляет 2000x2000 пикселей.

Хотя API поддерживает до 600 изображений на запрос, ограничения размера запроса (32 МБ для стандартных конечных точек; меньше на некоторых сторонних платформах) могут быть достигнуты в первую очередь. Для большого количества изображений рассмотрите возможность загрузки с помощью Files API и ссылки по file_id, чтобы сохранить размер полезной нагрузки запроса небольшим.

Даже при использовании Files API запросы с большим количеством больших изображений могут завершиться ошибкой до достижения количества 600 изображений. Уменьшите размеры изображений или размеры файлов (например, путем понижающей дискретизации) перед загрузкой (см. Оценка размера изображения).

Оценка размера изображения

Чтобы минимизировать задержку без ущерба для качества вывода, измените размер изображений перед загрузкой, если они слишком большие. На Claude Opus 4.6, Claude Sonnet 4.6 и более ранних моделях, если длинный край вашего изображения превышает 1568 пикселей или ваше изображение содержит более ~1600 токенов, оно сначала масштабируется вниз, сохраняя соотношение сторон, пока не будет находиться в пределах ограничений размера.

Если ваше входное изображение слишком большое и требует изменения размера, это увеличивает задержку time-to-first-token, без пользы для качества вывода. Очень маленькие изображения размером менее 200 пикселей с любой стороны могут снизить качество вывода.

Для моделей до Claude Opus 4.7, чтобы улучшить time-to-first-token, рассмотрите возможность изменения размера изображений не более чем до 1,15 мегапикселей (и в пределах 1568 пикселей в обоих измерениях). Для Claude Opus 4.7 см. Поддержка высокого разрешения ниже.

Поддержка высокого разрешения на Claude Opus 4.7

Claude Opus 4.7 — первая модель Claude с поддержкой высокого разрешения. Максимальное разрешение изображения составляет 2576 пикселей на длинном краю (по сравнению с 1568 пикселей на предыдущих моделях). Это открывает прирост производительности на рабочих нагрузках, требующих интенсивной работы с видением, и особенно ценно для компьютерного использования, понимания снимков экрана и анализа документов.

Поддержка высокого разрешения автоматична на Claude Opus 4.7 и не требует бета-заголовка или согласия на стороне клиента.

Стоимость токена: Изображения с полным разрешением на Claude Opus 4.7 могут использовать примерно в 3 раза больше токенов изображения, чем на предыдущих моделях (до 4784 токенов на изображение, по сравнению с предыдущим ограничением примерно ~1600 токенов на изображение). Если вам не нужна дополнительная четкость, понизьте дискретизацию изображений перед отправкой, чтобы контролировать стоимость токенов.

Математика координат: На Claude Opus 4.7 координаты указания и ограничивающего прямоугольника, возвращаемые моделью, имеют соотношение 1

с фактическими пикселями изображения, поэтому преобразование масштабного коэффициента не требуется. Это упрощает рабочие процессы компьютерного использования, аннотирования и локализации.

Вот таблица максимальных размеров изображений, принимаемых API, которые не будут изменены для распространенных соотношений сторон. С Claude Sonnet 4.6 эти изображения используют примерно 1600 токенов и около $4,80/1k изображений.

Соотношение сторонРазмер изображения
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

Расчет стоимости изображения

Каждое изображение, которое вы включаете в запрос к Claude, учитывается в использовании токенов. Чтобы рассчитать приблизительную стоимость, умножьте приблизительное количество токенов изображения на цену за токен модели, которую вы используете.

Если ваше изображение не требует изменения размера, вы можете оценить количество используемых токенов с помощью этого алгоритма: tokens = (width px * height px)/750

Вот примеры приблизительной токенизации и стоимости для различных размеров изображений в пределах ограничений размера API на основе цены Claude Sonnet 4.6 за токен в размере $3 за миллион входных токенов:

Размер изображенияКоличество токеновСтоимость / изображениеСтоимость / 1k изображений
200x200 px(0,04 мегапикселя)~54~$0,00016~$0,16
1000x1000 px(1 мегапиксель)~1334~$0,004~$4,00
1092x1092 px(1,19 мегапикселя)~1590~$0,0048~$4,80

Обеспечение качества изображения

При предоставлении изображений Claude имейте в виду следующее для получения лучших результатов:

  • Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
  • Четкость изображения: Убедитесь, что изображения четкие и не слишком размытые или пиксельные.
  • Текст: Если изображение содержит важный текст, убедитесь, что он разборчив и не слишком мал. Избегайте обрезания ключевого визуального контекста только для увеличения текста.

Примеры подсказок

Многие из методов подсказок, которые хорошо работают для текстовых взаимодействий с Claude, также могут быть применены к подсказкам на основе изображений.

Эти примеры демонстрируют лучшие практики структур подсказок, включающих изображения.

Так же как размещение длинных документов перед вашим запросом улучшает результаты в текстовых подсказках, Claude работает лучше всего, когда изображения идут перед текстом. Изображения, размещенные после текста или интерполированные с текстом, по-прежнему работают хорошо, но если ваш вариант использования позволяет, предпочитайте структуру изображение-затем-текст.

О примерах подсказок

Следующие примеры демонстрируют, как использовать возможности зрения Claude, используя различные языки программирования и подходы. Вы можете предоставить изображения Claude тремя способами:

  1. Как изображение, закодированное в base64, в блоках содержимого image
  2. Как ссылка URL на изображение, размещенное в Интернете
  3. Используя Files API (загрузить один раз, использовать несколько раз)

Примеры подсказок с base64 используют эти переменные:

import base64
import httpx

# Для изображений, закодированных в base64
image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.standard_b64encode(httpx.get(image2_url).content).decode("utf-8")

# Для изображений на основе URL вы можете использовать URL непосредственно в ваших запросах

Ниже приведены примеры того, как включить изображения в запрос Messages API, используя изображения, закодированные в base64, и ссылки на URL:

Пример изображения, закодированного в base64

image1_data = "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAIAAACQd1PeAAAADElEQVR4nGP4z8AAAAMBAQDJ/pLvAAAAAElFTkSuQmCC"
image1_media_type = "image/png"

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)
print(message)

Пример изображения на основе URL

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg",
                    },
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)
print(message)

Пример использования Files API с изображениями

Для изображений, которые вы будете использовать повторно или когда вы хотите избежать затрат на кодирование, используйте Files API. Загрузите изображение один раз, а затем ссылайтесь на возвращённый file_id в последующих сообщениях вместо повторной отправки данных base64.

В многооборотных разговорах и рабочих процессах агентов каждый запрос повторно отправляет полную историю разговора. Если изображения закодированы в base64, полные байты изображения включаются в полезную нагрузку на каждом ходу, что может значительно увеличить размер запроса и задержку по мере роста разговора. Загрузка изображений в Files API и ссылка на них по file_id сохраняет полезные нагрузки запроса небольшими независимо от того, сколько изображений накапливается в истории разговора.

client = anthropic.Anthropic()

# Загрузите файл изображения
with open("image.jpg", "rb") as f:
    file_upload = client.beta.files.upload(file=("image.jpg", f, "image/jpeg"))

# Используйте загруженный файл в сообщении
message = client.beta.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    betas=["files-api-2025-04-14"],
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {"type": "file", "file_id": file_upload.id},
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)

print(message.content)

Смотрите примеры Messages API для получения дополнительного примера кода и деталей параметров.


Ограничения

Хотя возможности понимания изображений Claude являются передовыми, есть некоторые ограничения, о которых следует знать:

  • Идентификация людей: Claude не может быть использован для называния людей на изображениях и отказывает в этом.
  • Точность: Claude может галлюцинировать или ошибаться при интерпретации низкокачественных, повёрнутых или очень маленьких изображений размером менее 200 пикселей.
  • Пространственное рассуждение: Способности пространственного рассуждения Claude ограничены. Он может испытывать трудности с задачами, требующими точной локализации или макетов, такими как чтение циферблата аналоговых часов или описание точных позиций шахматных фигур.
  • Подсчёт: Claude может дать приблизительное количество объектов на изображении, но может быть не всегда точным, особенно с большим количеством маленьких объектов.
  • Изображения, созданные ИИ: Claude не знает, является ли изображение созданным ИИ, и может быть неправ, если его об этом спросить. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
  • Неприемлемое содержание: Claude не обрабатывает неприемлемые или явные изображения, которые нарушают Политику приемлемого использования.
  • Приложения здравоохранения: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических сканов, таких как КТ или МРТ. Результаты Claude не должны рассматриваться как замена профессиональной медицинской консультации или диагностике.

Всегда тщательно проверяйте и верифицируйте интерпретации изображений Claude, особенно для высокорисковых случаев использования. Не используйте Claude для задач, требующих идеальной точности или чувствительного анализа изображений без надзора человека.


Часто задаваемые вопросы


Углубитесь в видение

Готовы начать создавать с изображениями с помощью Claude? Вот несколько полезных ресурсов:

  • Мультимодальная кулинарная книга: Эта кулинарная книга содержит советы по началу работы с изображениями и методы лучших практик для обеспечения наивысшего качества производительности с изображениями. Посмотрите, как вы можете эффективно подсказать Claude с изображениями для выполнения задач, таких как интерпретация и анализ диаграмм или извлечение содержимого из форм.
  • Справочник API: Документация для Messages API, включая примеры вызовов API, связанных с изображениями.

Если у вас есть какие-либо другие вопросы, обратитесь в команду поддержки. Вы также можете присоединиться к сообществу разработчиков для подключения к другим создателям и получения помощи от экспертов Anthropic.

Was this page helpful?

  • Как использовать зрение
  • Перед загрузкой
  • Основы и ограничения
  • Оценка размера изображения
  • Расчет стоимости изображения
  • Обеспечение качества изображения
  • Примеры подсказок
  • О примерах подсказок
  • Пример изображения, закодированного в base64
  • Пример изображения на основе URL
  • Пример использования Files API с изображениями
  • Ограничения
  • Часто задаваемые вопросы
  • Углубитесь в видение