Loading...
  • Erstellen
  • Admin
  • Modelle & Preise
  • Client-SDKs
  • API-Referenz
Search...
⌘K
Log in
Bilder und Vision
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Erstellen/Mit Dateien arbeiten

Vision

Claudes Vision-Funktionen ermöglichen es ihm, Bilder zu verstehen und zu analysieren, was aufregende Möglichkeiten für multimodale Interaktion eröffnet.

Was this page helpful?

  • So verwenden Sie Vision
  • Vor dem Hochladen
  • Grundlagen und Limits
  • Bilddimension evaluieren
  • Bildkosten berechnen
  • Bildqualität sicherstellen
  • Prompt-Beispiele
  • Über die Prompt-Beispiele
  • Base64-codiertes Bild-Beispiel
  • URL-basiertes Bild-Beispiel
  • Files API-Bildbeispiel
  • Einschränkungen
  • Häufig gestellte Fragen
  • Tiefer in Vision eintauchen

Diese Anleitung beschreibt, wie Sie mit Bildern in Claude arbeiten, einschließlich Best Practices, Code-Beispiele und Einschränkungen, die Sie beachten sollten.


So verwenden Sie Vision

Nutzen Sie Claudes Vision-Funktionen durch:

  • claude.ai. Laden Sie ein Bild wie eine Datei hoch, oder ziehen Sie ein Bild direkt in das Chat-Fenster.
  • Die Console Workbench. Ein Button zum Hinzufügen von Bildern erscheint oben rechts in jedem User-Message-Block.
  • API-Anfrage. Siehe die Beispiele in dieser Anleitung.

Vor dem Hochladen

Grundlagen und Limits

Sie können mehrere Bilder in einer einzelnen Anfrage einbinden: bis zu 20 für claude.ai und bis zu 600 für API-Anfragen (100 für Modelle mit einem 200k-Token-Kontextfenster). Claude analysiert alle bereitgestellten Bilder bei der Formulierung seiner Antwort. Dies kann hilfreich sein, um Bilder zu vergleichen oder gegenüberzustellen.

Wenn Sie ein Bild größer als 8000x8000 px einreichen, wird es abgelehnt. Wenn Sie mehr als 20 Bilder in einer API-Anfrage einreichen, beträgt dieses Limit 2000x2000 px.

Während die API bis zu 600 Bilder pro Anfrage unterstützt, können Request-Größenlimits (32 MB für Standard-Endpunkte; niedriger auf einigen Drittanbieter-Plattformen) zuerst erreicht werden. Für viele Bilder sollten Sie das Files API zum Hochladen verwenden und nach file_id referenzieren, um Request-Payloads klein zu halten.

Selbst bei Verwendung der Files API können Anfragen mit vielen großen Bildern fehlschlagen, bevor die 600-Bild-Grenze erreicht wird. Reduzieren Sie die Bilddimensionen oder Dateigröße (z. B. durch Downsampling), bevor Sie hochladen (siehe Bilddimension evaluieren).

Bilddimension evaluieren

Um die Latenz zu minimieren, ohne die Ausgabequalität zu beeinträchtigen, ändern Sie die Größe von Bildern vor dem Hochladen, wenn sie zu groß sind. Bei Claude Opus 4.6, Claude Sonnet 4.6 und früheren Modellen wird das Bild, wenn die lange Kante Ihres Bildes mehr als 1568 Pixel beträgt oder Ihr Bild mehr als ~1.600 Token ist, zuerst herunterskaliert, wobei das Seitenverhältnis beibehalten wird, bis es innerhalb der Größenlimits liegt.

Wenn Ihr Eingabebild zu groß ist und neu skaliert werden muss, erhöht dies die Latenz von time-to-first-token, ohne dass die Ausgabequalität verbessert wird. Sehr kleine Bilder unter 200 Pixeln auf einer beliebigen Kante können die Ausgabequalität beeinträchtigen.

Für Modelle vor Claude Opus 4.7, um time-to-first-token zu verbessern, sollten Sie erwägen, Bilder auf nicht mehr als 1,15 Megapixel zu ändern (und innerhalb von 1568 Pixeln in beiden Dimensionen). Für Claude Opus 4.7 siehe Hochauflösungs-Bildunterstützung unten.

Hochauflösungs-Bildunterstützung auf Claude Opus 4.7

Claude Opus 4.7 ist das erste Claude-Modell mit Hochauflösungs-Bildunterstützung. Die maximale Bildauflösung beträgt 2576 Pixel auf der langen Kante (gegenüber 1568 px bei früheren Modellen). Dies eröffnet Leistungsgewinne bei Vision-intensiven Workloads und ist besonders wertvoll für Computer Use, Screenshot-Verständnis und Dokumentenanalyse.

Hochauflösungs-Unterstützung ist automatisch auf Claude Opus 4.7 und erfordert keinen Beta-Header oder Client-seitiges Opt-in.

Token-Kosten: Vollauflösungsbilder auf Claude Opus 4.7 können bis zu ungefähr 3x mehr Bild-Token verwenden als bei früheren Modellen (bis zu 4784 Token pro Bild, verglichen mit der vorherigen Obergrenze von ungefähr ~1.600 Token pro Bild). Wenn Sie die zusätzliche Klarheit nicht benötigen, downsampling Sie Bilder vor dem Senden, um Token-Kosten zu kontrollieren.

Koordinaten-Mathematik: Bei Claude Opus 4.7 sind Zeige- und Bounding-Box-Koordinaten, die vom Modell zurückgegeben werden, 1

mit tatsächlichen Bildpixeln, daher ist keine Skalierungsfaktor-Konvertierung erforderlich. Dies vereinfacht Computer Use, Annotation und Lokalisierungs-Workflows.

Hier ist eine Tabelle der maximalen Bildgrößen, die von der API akzeptiert werden und nicht für gängige Seitenverhältnisse neu skaliert werden. Mit Claude Sonnet 4.6 verwenden diese Bilder ungefähr 1.600 Token und etwa $4,80/1k Bilder.

SeitenverhältnisBildgröße
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

Bildkosten berechnen

Jedes Bild, das Sie in eine Anfrage an Claude einbinden, zählt zu Ihrer Token-Nutzung. Um die ungefähren Kosten zu berechnen, multiplizieren Sie die ungefähre Anzahl der Bild-Token mit dem Pro-Token-Preis des Modells, das Sie verwenden.

Wenn Ihr Bild nicht neu skaliert werden muss, können Sie die Anzahl der verwendeten Token durch diesen Algorithmus schätzen: tokens = (width px * height px)/750

Hier sind Beispiele für ungefähre Tokenisierung und Kosten für verschiedene Bildgrößen innerhalb der API-Größenlimits basierend auf Claude Sonnet 4.6 Pro-Token-Preis von $3 pro Million Input-Token:

BildgrößeAnzahl TokenKosten / BildKosten / 1k Bilder
200x200 px(0,04 Megapixel)~54~$0,00016~$0,16
1000x1000 px(1 Megapixel)~1334~$0,004~$4,00
1092x1092 px(1,19 Megapixel)~1590~$0,0048~$4,80

Bildqualität sicherstellen

Wenn Sie Bilder an Claude bereitstellen, beachten Sie Folgendes für beste Ergebnisse:

  • Bildformat: Verwenden Sie ein unterstütztes Bildformat: JPEG, PNG, GIF oder WebP.
  • Bildklarheit: Stellen Sie sicher, dass Bilder klar sind und nicht zu verschwommen oder pixelig.
  • Text: Wenn das Bild wichtigen Text enthält, stellen Sie sicher, dass er lesbar ist und nicht zu klein. Vermeiden Sie es, wichtigen visuellen Kontext auszuschneiden, nur um den Text zu vergrößern.

Prompt-Beispiele

Viele der Prompting-Techniken, die gut für textbasierte Interaktionen mit Claude funktionieren, können auch auf bildbasierte Prompts angewendet werden.

Diese Beispiele demonstrieren Best-Practice-Prompt-Strukturen mit Bildern.

Genauso wie das Platzieren langer Dokumente vor Ihrer Abfrage die Ergebnisse bei Text-Prompts verbessert, funktioniert Claude am besten, wenn Bilder vor Text kommen. Bilder, die nach Text platziert oder mit Text interpoliert werden, funktionieren immer noch gut, aber wenn Ihr Use-Case es erlaubt, bevorzugen Sie eine Bild-dann-Text-Struktur.

Über die Prompt-Beispiele

Die folgenden Beispiele zeigen, wie Sie Claudes Vision-Funktionen mit verschiedenen Programmiersprachen und Ansätzen verwenden. Sie können Bilder an Claude auf drei Arten bereitstellen:

  1. Als Base64-codiertes Bild in image Content-Blöcken
  2. Als URL-Referenz zu einem online gehosteten Bild
  3. Mit der Files API (einmal hochladen, mehrfach verwenden)

Die Base64-Beispiel-Prompts verwenden diese Variablen:

Nachfolgend finden Sie Beispiele, wie Sie Bilder in eine Messages API-Anfrage mit Base64-codierten Bildern und URL-Referenzen einbinden:

Base64-codiertes Bild-Beispiel

URL-basiertes Bild-Beispiel

Files API-Bildbeispiel

Für Bilder, die Sie wiederholt verwenden oder wenn Sie Encoding-Overhead vermeiden möchten, verwenden Sie die Files API. Laden Sie das Bild einmal hoch und verweisen Sie dann in nachfolgenden Nachrichten auf die zurückgegebene file_id, anstatt Base64-Daten erneut zu senden.

In mehrteiligen Konversationen und agentengesteuerten Workflows sendet jede Anfrage den vollständigen Konversationsverlauf erneut. Wenn Bilder Base64-codiert sind, sind die vollständigen Bildbytes in der Nutzlast bei jedem Durchgang enthalten, was die Anfragegröße und Latenz erheblich erhöhen kann, wenn die Konversation wächst. Das Hochladen von Bildern zur Files API und das Verweisen auf sie über file_id hält Anfragenutzlasten klein, unabhängig davon, wie viele Bilder sich im Konversationsverlauf ansammeln.

Weitere Beispielcodes und Parameterdetails finden Sie unter Messages API-Beispiele.


Einschränkungen

Obwohl Claudes Bildverständnisfähigkeiten hochmodern sind, gibt es einige Einschränkungen, die Sie beachten sollten:

  • Personenerkennung: Claude kann nicht verwendet werden, um Menschen auf Bildern zu identifizieren, und weigert sich, dies zu tun.
  • Genauigkeit: Claude kann halluzinieren oder Fehler machen, wenn er Bilder mit niedriger Qualität, gedrehte oder sehr kleine Bilder unter 200 Pixeln interpretiert.
  • Räumliches Denken: Claudes Fähigkeiten zum räumlichen Denken sind begrenzt. Es kann bei Aufgaben Schwierigkeiten haben, die eine präzise Lokalisierung oder Layouts erfordern, wie das Lesen eines analogen Ziffernblatts oder die Beschreibung der genauen Positionen von Schachfiguren.
  • Zählen: Claude kann ungefähre Zählungen von Objekten in einem Bild geben, ist aber möglicherweise nicht immer genau, besonders bei großen Mengen kleiner Objekte.
  • KI-generierte Bilder: Claude weiß nicht, ob ein Bild KI-generiert ist, und kann falsch liegen, wenn er gefragt wird. Verlassen Sie sich nicht darauf, um gefälschte oder synthetische Bilder zu erkennen.
  • Unangemessene Inhalte: Claude verarbeitet keine unangemessenen oder expliziten Bilder, die gegen die Acceptable Use Policy verstoßen.
  • Gesundheitsanwendungen: Während Claude allgemeine medizinische Bilder analysieren kann, ist es nicht dafür ausgelegt, komplexe diagnostische Scans wie CTs oder MRTs zu interpretieren. Claudes Ausgaben sollten nicht als Ersatz für professionelle medizinische Beratung oder Diagnose angesehen werden.

Überprüfen und verifizieren Sie Claudes Bildinterpretationen immer sorgfältig, besonders bei hochriskanten Anwendungsfällen. Verwenden Sie Claude nicht für Aufgaben, die perfekte Präzision erfordern, oder für sensible Bildanalysen ohne menschliche Aufsicht.


Häufig gestellte Fragen


Tiefer in Vision eintauchen

Bereit, mit Bildern mit Claude zu bauen? Hier sind einige hilfreiche Ressourcen:

  • Multimodales Cookbook: Dieses Cookbook enthält Tipps zum Einstieg in Bilder und Best-Practice-Techniken, um die höchste Qualitätsleistung mit Bildern zu gewährleisten. Sehen Sie, wie Sie Claude effektiv mit Bildern auffordern können, um Aufgaben wie Interpretieren und Analysieren von Diagrammen oder Extrahieren von Inhalten aus Formularen auszuführen.
  • API-Referenz: Dokumentation für die Messages API, einschließlich Beispiel-API-Aufrufe mit Bildern.

Wenn Sie weitere Fragen haben, wenden Sie sich an das Support-Team. Sie können auch der Entwickler-Community beitreten, um sich mit anderen Kreativen zu verbinden und Hilfe von Anthropic-Experten zu erhalten.

import base64
import httpx

# Für Base64-codierte Bilder
image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.standard_b64encode(httpx.get(image2_url).content).decode("utf-8")

# Für URL-basierte Bilder können Sie die URLs direkt in Ihren Anfragen verwenden
image1_data = "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAIAAACQd1PeAAAADElEQVR4nGP4z8AAAAMBAQDJ/pLvAAAAAElFTkSuQmCC"
image1_media_type = "image/png"

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)
print(message)
client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg",
                    },
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)
print(message)
client = anthropic.Anthropic()

# Laden Sie die Bilddatei hoch
with open("image.jpg", "rb") as f:
    file_upload = client.beta.files.upload(file=("image.jpg", f, "image/jpeg"))

# Verwenden Sie die hochgeladene Datei in einer Nachricht
message = client.beta.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    betas=["files-api-2025-04-14"],
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {"type": "file", "file_id": file_upload.id},
                },
                {"type": "text", "text": "Describe this image."},
            ],
        }
    ],
)

print(message.content)