Loading...
    • Разработка
    • Администрирование
    • Модели и цены
    • Клиентские SDK
    • Справочник API
    Search...
    ⌘K
    Первые шаги
    Введение в ClaudeБыстрый старт
    Разработка с Claude
    Обзор возможностейИспользование Messages APIОбработка причин остановки
    Возможности модели
    Расширенное мышлениеАдаптивное мышлениеУсилиеБыстрый режим (бета: предварительный просмотр)Структурированные выходные данныеЦитированияПотоковые сообщенияПакетная обработкаРезультаты поискаПотоковые отказыМногоязычная поддержкаЭмбеддинги
    Инструменты
    ОбзорКак работает использование инструментовИнструмент веб-поискаИнструмент веб-загрузкиИнструмент выполнения кодаИнструмент памятиИнструмент BashИнструмент управления компьютеромИнструмент текстового редактора
    Инфраструктура инструментов
    Поиск инструментовПрограммный вызов инструментовДетальная потоковая передача инструментов
    Управление контекстом
    Контекстные окнаСжатиеРедактирование контекстаКэширование промптовПодсчёт токенов
    Работа с файлами
    Files APIПоддержка PDFИзображения и зрение
    Навыки
    ОбзорБыстрый стартЛучшие практикиНавыки для предприятийНавыки в API
    MCP
    Удалённые MCP-серверыMCP-коннектор
    Инжиниринг промптов
    ОбзорЛучшие практики промптингаИнструменты промптинга в Console
    Тестирование и оценка
    Определение успеха и создание оценокИспользование инструмента оценки в ConsoleСнижение задержки
    Укрепление ограничений
    Снижение галлюцинацийПовышение согласованности выводаЗащита от джейлбрейковСнижение утечки промптов
    Ресурсы
    Глоссарий
    Примечания к выпуску
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Работа с файлами

    Зрение

    Возможности зрения Claude позволяют ему понимать и анализировать изображения, открывая захватывающие возможности для мультимодального взаимодействия.

    Was this page helpful?

    • Как использовать зрение
    • Перед загрузкой
    • Основы и ограничения
    • Оценка размера изображения
    • Расчёт стоимости изображений
    • Обеспечение качества изображения
    • Примеры подсказок
    • О примерах подсказок
    • Пример изображения в кодировке Base64
    • Пример изображения на основе URL
    • Пример использования Files API с изображениями
    • Ограничения
    • Часто задаваемые вопросы
    • Углубитесь в возможности зрения

    Это руководство описывает, как работать с изображениями в Claude, включая лучшие практики, примеры кода и ограничения, которые следует учитывать.


    Как использовать зрение

    Используйте возможности зрения Claude через:

    • claude.ai. Загрузите изображение так же, как файл, или перетащите изображение прямо в окно чата.
    • Console Workbench. Кнопка для добавления изображений появляется в правом верхнем углу каждого блока сообщения пользователя.
    • API-запрос. Смотрите примеры в этом руководстве.

    Перед загрузкой

    Основы и ограничения

    Вы можете включить несколько изображений в один запрос: до 20 для claude.ai и до 600 для API-запросов (100 для моделей с контекстным окном 200k токенов). Claude анализирует все предоставленные изображения при формировании ответа. Это может быть полезно для сравнения или сопоставления изображений.

    Если вы отправляете изображение размером более 8000x8000 пикселей, оно будет отклонено. Если вы отправляете более 20 изображений в одном API-запросе, это ограничение составляет 2000x2000 пикселей.

    Хотя API поддерживает до 600 изображений на запрос, ограничения размера запроса (32 МБ для стандартных конечных точек; ниже на некоторых сторонних платформах) могут быть достигнуты раньше. Для большого количества изображений рассмотрите загрузку через Files API и ссылку по file_id, чтобы уменьшить размер полезной нагрузки запроса.

    Даже при использовании Files API запросы с большим количеством крупных изображений могут завершиться ошибкой до достижения лимита в 600 изображений. Уменьшите размеры изображений или размеры файлов (например, путём понижения дискретизации) перед загрузкой (см. Оценка размера изображения).

    Оценка размера изображения

    Для оптимальной производительности измените размер изображений перед загрузкой, если они слишком большие. Если длинная сторона вашего изображения превышает 1568 пикселей или ваше изображение содержит более ~1600 токенов, оно сначала масштабируется с сохранением соотношения сторон до тех пор, пока не окажется в пределах ограничений размера.

    Если входное изображение слишком большое и требует изменения размера, это увеличивает задержку времени до первого токена без какой-либо пользы для качества вывода. Очень маленькие изображения размером менее 200 пикселей по любой стороне могут ухудшить качество вывода.

    Чтобы улучшить время до первого токена, рассмотрите возможность изменения размера изображений до не более 1,15 мегапикселей (и в пределах 1568 пикселей по обоим измерениям).

    Ниже приведена таблица максимальных размеров изображений, принимаемых API без изменения размера для распространённых соотношений сторон. С Claude Sonnet 4.6 эти изображения используют приблизительно 1600 токенов и около $4,80/1k изображений.

    Соотношение сторонРазмер изображения
    1:11092x1092 пкс
    3:4951x1268 пкс
    2:3896x1344 пкс
    9:16819x1456 пкс
    1:2784x1568 пкс

    Расчёт стоимости изображений

    Каждое изображение, которое вы включаете в запрос к Claude, учитывается в использовании токенов. Чтобы рассчитать приблизительную стоимость, умножьте приблизительное количество токенов изображения на цену за токен модели, которую вы используете.

    Если ваше изображение не требует изменения размера, вы можете оценить количество использованных токенов по этому алгоритму: tokens = (width px * height px)/750

    Вот примеры приблизительной токенизации и стоимости для различных размеров изображений в пределах ограничений размера API на основе цены за токен Claude Sonnet 4.6 в $3 за миллион входных токенов:

    Размер изображенияКол-во токеновСтоимость / изображениеСтоимость / 1k изображений
    200x200 пкс (0,04 мегапикселя)~54~$0,00016~$0,16
    1000x1000 пкс (1 мегапиксель)~1334~$0,004~$4,00
    1092x1092 пкс (1,19 мегапикселя)~1590~$0,0048~$4,80

    Обеспечение качества изображения

    При предоставлении изображений Claude учитывайте следующее для достижения наилучших результатов:

    • Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
    • Чёткость изображения: Убедитесь, что изображения чёткие и не слишком размытые или пикселизированные.
    • Текст: Если изображение содержит важный текст, убедитесь, что он разборчив и не слишком мелкий. Избегайте обрезки ключевого визуального контекста только для увеличения текста.

    Примеры подсказок

    Многие из техник составления подсказок, которые хорошо работают для текстового взаимодействия с Claude, также могут применяться к подсказкам на основе изображений.

    Эти примеры демонстрируют лучшие практики структур подсказок с изображениями.

    Так же как размещение длинных документов перед запросом улучшает результаты в текстовых подсказках, Claude работает лучше всего, когда изображения идут перед текстом. Изображения, размещённые после текста или перемежающиеся с текстом, также работают хорошо, но если ваш вариант использования позволяет, предпочтительна структура «изображение, затем текст».

    О примерах подсказок

    Следующие примеры демонстрируют, как использовать возможности зрения Claude с использованием различных языков программирования и подходов. Вы можете предоставлять изображения Claude тремя способами:

    1. В виде изображения в кодировке base64 в блоках содержимого image
    2. В виде URL-ссылки на изображение, размещённое в интернете
    3. С использованием Files API (загрузите один раз, используйте несколько раз)

    Примеры подсказок с base64 используют следующие переменные:

    Ниже приведены примеры того, как включать изображения в запрос Messages API с использованием изображений в кодировке base64 и URL-ссылок:

    Пример изображения в кодировке Base64

    Пример изображения на основе URL

    Пример использования Files API с изображениями

    Для изображений, которые вы будете использовать повторно, или когда вы хотите избежать накладных расходов на кодирование, используйте Files API. Загрузите изображение один раз, а затем ссылайтесь на возвращённый file_id в последующих сообщениях вместо повторной отправки данных в формате base64.

    В многоходовых разговорах и агентных рабочих процессах каждый запрос повторно отправляет полную историю разговора. Если изображения закодированы в base64, полные байты изображения включаются в полезную нагрузку при каждом ходе, что может значительно увеличить размер запроса и задержку по мере роста разговора. Загрузка изображений в Files API и ссылка на них по file_id позволяет поддерживать небольшой размер полезной нагрузки запросов независимо от того, сколько изображений накапливается в истории разговора.

    Смотрите примеры Messages API для получения дополнительных примеров кода и сведений о параметрах.


    Ограничения

    Хотя возможности понимания изображений Claude находятся на передовом уровне, существуют некоторые ограничения, о которых следует знать:

    • Идентификация людей: Claude не может использоваться для называния людей на изображениях и отказывается это делать.
    • Точность: Claude может галлюцинировать или допускать ошибки при интерпретации низкокачественных, повёрнутых или очень маленьких изображений размером менее 200 пикселей.
    • Пространственное мышление: Возможности пространственного мышления Claude ограничены. Он может испытывать трудности с задачами, требующими точной локализации или работы с макетами, например, чтением аналоговых часов или описанием точных позиций шахматных фигур.
    • Подсчёт: Claude может давать приблизительное количество объектов на изображении, но не всегда точен, особенно при большом количестве мелких объектов.
    • Изображения, созданные ИИ: Claude не знает, создано ли изображение с помощью ИИ, и может ошибаться при соответствующем вопросе. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
    • Неприемлемый контент: Claude не обрабатывает неприемлемые или откровенные изображения, нарушающие Политику допустимого использования.
    • Медицинские приложения: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических снимков, таких как КТ или МРТ. Результаты работы Claude не должны рассматриваться как замена профессиональной медицинской консультации или диагноза.

    Всегда тщательно проверяйте и верифицируйте интерпретации изображений Claude, особенно в случаях с высокими ставками. Не используйте Claude для задач, требующих идеальной точности или анализа чувствительных изображений без человеческого контроля.


    Часто задаваемые вопросы


    Углубитесь в возможности зрения

    Готовы начать работу с изображениями с помощью Claude? Вот несколько полезных ресурсов:

    • Мультимодальная книга рецептов: В этой книге рецептов есть советы по началу работы с изображениями и лучшие практики для обеспечения наивысшего качества работы с изображениями. Узнайте, как эффективно использовать Claude с изображениями для выполнения таких задач, как интерпретация и анализ диаграмм или извлечение содержимого из форм.
    • Справочник по API: Документация для Messages API, включая примеры вызовов API с изображениями.

    Если у вас есть другие вопросы, обратитесь в службу поддержки. Вы также можете присоединиться к сообществу разработчиков, чтобы связаться с другими создателями и получить помощь от экспертов Anthropic.

        # Для изображений на основе URL вы можете использовать URL напрямую в вашем JSON-запросе
    
        # Для изображений в кодировке base64 вам сначала нужно закодировать изображение
        # Пример того, как закодировать изображение в base64 в bash:
        BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
        # Закодированные данные теперь можно использовать в ваших API-вызовах
    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "content-type: application/json" \
      -d @- <<EOF
    {
      "model": "claude-opus-4-6",
      "max_tokens": 1024,
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "image",
              "source": {
                "type": "base64",
                "media_type": "image/jpeg",
                "data": "$BASE64_IMAGE_DATA"
              }
            },
            {
              "type": "text",
              "text": "Describe this image."
            }
          ]
        }
      ]
    }
    EOF
    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {
            "role": "user",
            "content": [
              {
                "type": "image",
                "source": {
                  "type": "url",
                  "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
                }
              },
              {
                "type": "text",
                "text": "Describe this image."
              }
            ]
          }
        ]
      }'
    # Сначала загрузите изображение в Files API
    curl -X POST https://api.anthropic.com/v1/files \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: files-api-2025-04-14" \
      -F "[email protected]"
    
    # Затем используйте возвращённый file_id в вашем сообщении
    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: files-api-2025-04-14" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {
            "role": "user",
            "content": [
              {
                "type": "image",
                "source": {
                  "type": "file",
                  "file_id": "file_abc123"
                }
              },
              {
                "type": "text",
                "text": "Describe this image."
              }
            ]
          }
        ]
      }'