MessagesEntwickeln mit Claude

Stop-Gründe und Fallback

Erfahre, was jeder stop_reason-Wert bedeutet und wie du Abschneidungen, Tool-Nutzung, pausierte Turns und Ablehnungen in deiner Anwendung behandelst.

Jede Antwort der Messages API enthält ein stop_reason-Feld, das dir mitteilt, warum Claude die Generierung beendet hat. Prüfe dieses Feld, um zu entscheiden, ob du die Antwort unverändert verwendest, die Konversation fortsetzt, es erneut versuchst oder auf ein anderes Modell zurückgreifst.

Das vollständige Antwortschema findest du in der Messages API-Referenz.

Schnellreferenz

Wert	Wann er auftritt	Was zu tun ist
`end_turn`	Claude hat seine Antwort auf natürliche Weise beendet.	Verwende die Antwort.
`max_tokens`	Die Antwort hat dein `max_tokens`-Limit erreicht.	Erhöhe `max_tokens` oder setze die Antwort fort.
`stop_sequence`	Claude hat eine deiner `stop_sequences` ausgegeben.	Lies `stop_sequence`, um zu sehen, welche ausgelöst wurde.
`tool_use`	Claude ruft ein Tool auf.	Führe das Tool aus und gib das Ergebnis zurück. Ein Server-Tool-Aufruf, dem noch sein Ergebnisblock fehlt, wird in einer späteren Antwort abgeschlossen.
`pause_turn`	Eine Server-Tool-Schleife hat ihr Iterationslimit erreicht.	Sende den Assistant-Inhalt zurück, um fortzufahren.
`refusal`	Claude hat die Antwort abgelehnt.	Lies `stop_details` und versuche es erneut mit einem Fallback-Modell.
`model_context_window_exceeded`	Die Antwort hat das Kontextfenster des Modells gefüllt.	Behandle die Antwort als abgeschnitten.

Das stop_reason-Feld

Das stop_reason-Feld ist Teil jeder erfolgreichen Messages API-Antwort. Im Gegensatz zu Fehlern, die auf Fehlschläge bei der Verarbeitung deiner Anfrage hinweisen, teilt dir stop_reason mit, warum Claude die Generierung seiner Antwort abgeschlossen hat.

Example response

{
  "id": "msg_01234",
  "type": "message",
  "role": "assistant",
  "content": [
    {
      "type": "text",
      "text": "Here's the answer to your question..."
    }
  ],
  "stop_reason": "end_turn",
  "stop_sequence": null,
  "stop_details": null,
  "usage": {
    "input_tokens": 100,
    "output_tokens": 50
  }
}

Stop-Reason-Werte

end_turn

Der häufigste Stop-Grund. Zeigt an, dass Claude seine Antwort auf natürliche Weise beendet hat.

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello!"}],
)
if response.stop_reason == "end_turn":
    # Verarbeite die vollständige Antwort
    for block in response.content:
        if block.type == "text":
            print(block.text)

max_tokens

Claude hat gestoppt, weil das in deiner Anfrage angegebene max_tokens-Limit erreicht wurde.

client = anthropic.Anthropic()
# Anfrage mit begrenzten Token
response = client.messages.create(
    model="claude-opus-5",
    max_tokens=10,
    messages=[{"role": "user", "content": "Explain quantum physics"}],
)

if response.stop_reason == "max_tokens":
    # Antwort wurde abgeschnitten
    print("Response was cut off at token limit")
    # Erwäge eine weitere Anfrage, um fortzufahren

stop_sequence

Claude ist auf eine deiner benutzerdefinierten Stop-Sequenzen gestoßen.

client = anthropic.Anthropic()
response = client.messages.create(
    model="claude-opus-5",
    max_tokens=1024,
    stop_sequences=["END", "STOP"],
    messages=[{"role": "user", "content": "Generate text until you say END"}],
)

if response.stop_reason == "stop_sequence":
    print(f"Stopped at sequence: {response.stop_sequence}")

tool_use

Claude ruft ein Tool auf und erwartet, dass du es ausführst.

Für die meisten Tool-Use-Implementierungen verwende den Tool Runner, der die Tool-Ausführung, die Ergebnisformatierung und die Konversationsverwaltung automatisch übernimmt.

client = anthropic.Anthropic()
weather_tool = {
    "name": "get_weather",
    "description": "Get the current weather in a given location",
    "input_schema": {
        "type": "object",
        "properties": {
            "location": {"type": "string", "description": "City and state"},
        },
        "required": ["location"],
    },
}


def execute_tool(name, tool_input):
    """Execute a tool and return the result."""
    return f"Weather in {tool_input.get('location', 'unknown')}: 72°F"


response = client.messages.create(
    model="claude-opus-5",
    max_tokens=1024,
    tools=[weather_tool],
    messages=[{"role": "user", "content": "What is the weather in San Francisco?"}],
)

if response.stop_reason == "tool_use":
    # Extrahiere und führe das Tool aus
    for block in response.content:
        if block.type == "tool_use":
            result = execute_tool(block.name, block.input)
            # Gib das Ergebnis an Claude für die finale Antwort zurück

Eine tool_use-Antwort kann auch einen server_tool_use-Block enthalten, dessen id keinen passenden Ergebnisblock hat. Dieser Server-Tool-Aufruf ist nicht abgeschlossen, und diese Antwort enthält sein Ergebnis nicht. Im häufigsten Fall ruft Claude ein Server-Tool und eines deiner Client-Tools in derselben Gruppe paralleler Tool-Aufrufe auf: Die API kehrt zurück, ohne das Server-Tool auszuführen, damit du zuerst die Client-Tools ausführen kannst. Es gibt keinen anderen Marker für diesen Zustand; erkenne ihn, indem du für jede id eines server_tool_use- oder mcp_tool_use-Blocks prüfst, ob ein passender Ergebnisblock vorhanden ist.

Bei programmatischen Tool-Aufrufen bedeutet dieselbe Antwortform etwas anderes. Der Client-tool_use-Block stammt aus Code, der im code_execution-Tool läuft, und nicht direkt von Claude, und sein caller-Feld benennt den code_execution-Block, der ihn aufgerufen hat. Dieser Code wurde bereits gestartet: Er ist pausiert und wartet auf deine tool_result-Blöcke, und das Senden dieser Blöcke setzt die Ausführung fort, anstatt ein aufgeschobenes Tool zu starten. Der eigene Ergebnisblock des code_execution-Blocks kommt an, sobald der Code fertig ist, was mehr als eine Runde von Tool-Ergebnissen dauern kann. Die nachfolgende User-Nachricht selbst ist in beiden Fällen gleich; bei programmatischen Tool-Aufrufen gib außerdem die id aus dem container-Feld der Antwort zurück, wie auf dieser Seite gezeigt.

A mixed tool_use response

{
  "stop_reason": "tool_use",
  "content": [
    {
      "type": "server_tool_use",
      "id": "srvtoolu_01HxbWnMRmbWyMfUtJKC45rA",
      "name": "web_search",
      "input": { "query": "example article" }
    },
    {
      "type": "tool_use",
      "id": "toolu_01PjgRJLbXrXEMZwDNYLnBqk",
      "name": "run_command",
      "input": { "command": "uname -a" }
    }
  ]
}

Die Fortsetzung ist eine User-Nachricht aus tool_result-Blöcken, einer für jeden tool_use-Block in der Antwort (siehe Tool-Aufrufe behandeln), mit zwei zusätzlichen Regeln: Diese Nachricht darf nichts außer den tool_result-Blöcken enthalten, und die Anfrage muss dasselbe tools-Array beibehalten. Eine Fortsetzungsanfrage, die das wartende Server-Tool nicht mehr definiert, schlägt mit einem 400 fehl, dessen Meldung mit but no `web_search` tool was provided endet. Die API hängt deine Ergebnisse an den noch offenen Assistant-Turn an, führt das aufgeschobene Server-Tool aus (bei pausierter Code-Ausführung setzt sie diese fort) und setzt den Turn fort. Bei einem Server-Tool, das Claude direkt aufgerufen hat, beginnt der content der nächsten Antwort mit dem Ergebnisblock, der die server_tool_use-id der vorherigen Antwort beantwortet.

The follow-up user message

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01PjgRJLbXrXEMZwDNYLnBqk",
      "content": "Linux demo-host 6.8.0-52-generic x86_64 GNU/Linux"
    }
  ]
}

Das Hinzufügen von irgendetwas nach den tool_result-Blöcken in dieser User-Nachricht, etwa Text, beendet den Assistant-Turn; bei einem Server-Tool, das Claude direkt aufgerufen hat, schlägt die Anfrage dann mit einem 400 invalid_request_error fehl, der das ungelöste Server-Tool benennt:

`web_search` tool use with id `srvtoolu_01HxbWnMRmbWyMfUtJKC45rA` was found without a corresponding `web_search_tool_result` block

Das Weglassen eines tool_result oder das Platzieren eines solchen nach anderem Inhalt schlägt stattdessen früher mit dem Standardfehler tool_use ids were found without tool_result blocks immediately after fehl. Um Claude mehr Eingaben zu geben, sende sie als separate User-Nachricht, nachdem der Turn abgeschlossen ist.

pause_turn

Wird zurückgegeben, wenn die serverseitige Sampling-Schleife ihr Iterationslimit erreicht, während sie Server-Tools wie die Websuche ausführt. Das Standardlimit beträgt 10 Iterationen pro Anfrage.

Wenn dies passiert, kann die Antwort einen server_tool_use-Block ohne entsprechenden Ergebnisblock enthalten. Damit Claude die Verarbeitung abschließen kann, setze die Konversation fort, indem du die Antwort unverändert zurücksendest. Eine Antwort, die einen Client-tool_use-Block hinterlässt, der auf dich wartet, hat niemals einen stop_reason von pause_turn: Wenn Claude stoppt, um deine Tools aufzurufen, ist stop_reason tool_use, und du setzt fort, indem du die Client-tool_result-Blöcke anstelle der Antwort selbst sendest.

response = client.messages.create(
    model="claude-opus-5",
    max_tokens=4096,
    tools=[{"type": "web_search_20250305", "name": "web_search"}],
    messages=[{"role": "user", "content": "Search for latest AI news"}],
)

if response.stop_reason == "pause_turn":
    # Setze die Konversation fort, indem du die Antwort zurücksendest
    messages = [
        {"role": "user", "content": "Search for latest AI news"},
        {"role": "assistant", "content": response.content},
    ]
    continuation = client.messages.create(
        model="claude-opus-5",
        max_tokens=4096,
        messages=messages,
        tools=[{"type": "web_search_20250305", "name": "web_search"}],
    )

Deine Anwendung sollte pause_turn in jeder Agenten-Schleife behandeln, die Server-Tools verwendet. Füge die Antwort des Assistants zu deinem Messages-Array hinzu und stelle eine weitere API-Anfrage, damit Claude fortfahren kann.

refusal

Claude hat die Generierung einer Antwort abgelehnt. Sicherheitsklassifikatoren geben diesen Stop-Grund als normale HTTP-200-Antwort zurück, nicht als Fehler.

client = anthropic.Anthropic()
response = client.messages.create(
    model="claude-opus-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "[Unsafe request]"}],
)

if response.stop_reason == "refusal":
    # Claude hat die Antwort abgelehnt
    print("Claude was unable to process this request")
    # Erwäge, die Anfrage umzuformulieren oder anzupassen

Wenn du bei der Verwendung von Claude Sonnet 4.5 oder Opus 4.1 (veraltet; siehe Modell-Deprecations) häufig auf refusal-Stop-Gründe stößt, kannst du versuchen, deine API-Aufrufe auf Haiku 4.5 (claude-haiku-4-5-20251001) umzustellen, das andere Nutzungsbeschränkungen hat. Erfahre mehr über das Verständnis der API-Sicherheitsfilter von Sonnet 4.5.

Bei einer Ablehnung identifiziert das stop_details-Objekt die Richtlinienkategorie, die sie ausgelöst hat. Die Kategorien und die vollständige Form der Ablehnungsantwort werden unter Ablehnungen und Fallback behandelt. stop_details ist null für alle Stop-Gründe außer refusal.

Eine abgelehnte Anfrage auf Claude Fable 5 oder Claude Opus 5 kann in der Regel bedient werden, indem sie auf einem anderen Claude-Modell erneut versucht wird, und Ablehnungen und Fallback zeigt, wie du diesen Retry einrichtest, serverseitig oder in deinem Client. Fallback-Guthaben behandelt, wie du vermeidest, die Prompt-Cache-Kosten doppelt zu zahlen, wenn du den Retry selbst baust.

model_context_window_exceeded

Claude hat gestoppt, weil das Kontextfenster-Limit des Modells erreicht wurde. Dies ermöglicht es dir, die maximal mögliche Anzahl an Token anzufordern, ohne die genaue Eingabegröße zu kennen.

Dieser Stop-Grund ist derzeit nur im beta-Namespace der SDKs typisiert, daher rufen die folgenden Beispiele client.beta.messages auf und verwenden die Typen mit Beta-Präfix. Auf Sonnet 4.5 und neueren Modellen gibt die API diesen Wert ohne Beta-Header zurück. Für frühere Modelle füge den Beta-Header model-context-window-exceeded-2025-08-26 hinzu, um ihn zu aktivieren.

# Anfrage mit maximaler Token-Anzahl, um so viel wie möglich zu erhalten
response = client.beta.messages.create(
    model="claude-opus-5",
    max_tokens=20000,  # Python SDK requires streaming for max_tokens above ~21k
    messages=[
        {"role": "user", "content": "Large input that uses most of context window..."}
    ],
)

if response.stop_reason == "model_context_window_exceeded":
    # Antwort hat das Kontextfenster-Limit vor max_tokens erreicht
    print("Response reached model's context window limit")
    # Die Antwort ist weiterhin gültig, wurde aber durch das Kontextfenster begrenzt

Best Practices für den Umgang mit Stop-Gründen

Prüfe immer stop_reason

Mache es dir zur Gewohnheit, den stop_reason in deiner Antwortverarbeitungslogik zu prüfen:

def handle_response(response):
    if response.stop_reason == "tool_use":
        return handle_tool_use(response)
    elif response.stop_reason == "max_tokens":
        return handle_truncation(response)
    elif response.stop_reason == "model_context_window_exceeded":
        return handle_context_limit(response)
    elif response.stop_reason == "pause_turn":
        return handle_pause(response)
    elif response.stop_reason == "refusal":
        return handle_refusal(response)
    else:
        # Behandle end_turn und andere Fälle
        return next(
            (block.text for block in response.content if block.type == "text"), ""
        )

Behandle abgeschnittene Antworten elegant

Wenn eine Antwort aufgrund von Token-Limits oder des Kontextfensters abgeschnitten wird, füge einen Hinweis hinzu, damit der Leser weiß, dass die Ausgabe unvollständig ist. Um stattdessen die Generierung dort fortzusetzen, wo die Antwort aufgehört hat, siehe Vollständige Antworten sicherstellen.

def handle_truncated_response(response):
    text = next((block.text for block in response.content if block.type == "text"), "")
    if response.stop_reason in ["max_tokens", "model_context_window_exceeded"]:
        if response.stop_reason == "max_tokens":
            note = "[Response truncated due to max_tokens limit]"
        else:
            note = "[Response truncated due to context window limit]"
        return f"{text}\n\n{note}"
    return text

Implementiere Retry-Logik für pause_turn

Bei der Verwendung von Server-Tools kann die API pause_turn zurückgeben, wenn die serverseitige Sampling-Schleife ihr Iterationslimit erreicht (Standard: 10). Behandle dies, indem du die Konversation fortsetzt:

def handle_server_tool_conversation(client, user_query, tools, max_continuations=5):
    """
    Handle server tool conversations that may require multiple continuations.

    The server runs a sampling loop when executing server tools. If the loop
    reaches its iteration limit, the API returns pause_turn. Continue the
    conversation by sending the response back to let Claude finish.
    """
    messages = [{"role": "user", "content": user_query}]

    for _ in range(max_continuations):
        response = client.messages.create(
            model="claude-opus-5", max_tokens=4096, messages=messages, tools=tools
        )

        if response.stop_reason != "pause_turn":
            # Claude hat die Verarbeitung abgeschlossen - gib die finale Antwort zurück
            return response

        # pause_turn: ersetze die komplette Nachrichtenliste, um abwechselnde Rollen beizubehalten
        messages = [
            {"role": "user", "content": user_query},
            {"role": "assistant", "content": response.content},
        ]

    # Maximale Fortsetzungen erreicht - gib die letzte Antwort zurück
    return response

Stop-Gründe vs. Fehler

Es ist wichtig, zwischen stop_reason-Werten und tatsächlichen Fehlern zu unterscheiden:

Stop-Gründe (erfolgreiche Antworten)

Teil des Antwortkörpers
Zeigen an, warum die Generierung normal gestoppt wurde
Die Antwort enthält gültigen Inhalt

Fehler (fehlgeschlagene Anfragen)

HTTP-Statuscodes 4xx oder 5xx
Zeigen Fehler bei der Anfrageverarbeitung an
Die Antwort enthält Fehlerdetails

client = anthropic.Anthropic()

try:
    response = client.messages.create(
        model="claude-opus-5",
        max_tokens=1024,
        messages=[{"role": "user", "content": "Hello!"}],
    )

    # Erfolgreiche Antwort mit stop_reason behandeln
    if response.stop_reason == "max_tokens":
        print("Response was truncated")

except anthropic.APIStatusError as e:
    # Tatsächliche Fehler behandeln
    if e.status_code == 429:
        print("Rate limit exceeded")
    elif e.status_code == 500:
        print("Server error")

Überlegungen zum Streaming

Bei der Verwendung von Streaming ist stop_reason:

null im initialen message_start-Event
Im message_delta-Event enthalten
In keinem anderen Event enthalten

client = anthropic.Anthropic()

with client.messages.stream(
    model="claude-opus-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello!"}],
) as stream:
    for event in stream:
        if event.type == "message_delta":
            stop_reason = event.delta.stop_reason
            if stop_reason:
                print(f"Stream ended with: {stop_reason}")

Häufige Muster

Umgang mit Tool-Use-Workflows

Einfacher mit dem Tool Runner: Das folgende Beispiel zeigt die manuelle Tool-Behandlung. Für die meisten Anwendungsfälle übernimmt der Tool Runner die Tool-Ausführung automatisch mit deutlich weniger Code.

def complete_tool_workflow(client, user_query, tools):
    messages = [{"role": "user", "content": user_query}]

    while True:
        response = client.messages.create(
            model="claude-opus-5", max_tokens=1024, messages=messages, tools=tools
        )

        if response.stop_reason == "tool_use":
            # Tools ausführen und fortfahren
            tool_results = execute_tools(response.content)
            messages.append({"role": "assistant", "content": response.content})
            messages.append({"role": "user", "content": tool_results})
        else:
            # Finale Antwort
            return response

Vollständige Antworten sicherstellen

def get_complete_response(client, prompt, max_attempts=3):
    messages = [{"role": "user", "content": prompt}]
    full_response = ""

    for _ in range(max_attempts):
        response = client.messages.create(
            model="claude-opus-5", messages=messages, max_tokens=4096
        )

        full_response += next(
            (block.text for block in response.content if block.type == "text"), ""
        )

        if response.stop_reason != "max_tokens":
            break

        # Dort fortsetzen, wo es aufgehört hat
        messages = [
            {"role": "user", "content": prompt},
            {"role": "assistant", "content": full_response},
            {"role": "user", "content": "Please continue from where you left off."},
        ]

    return full_response

Maximale Token-Anzahl erhalten, ohne die Eingabegröße zu kennen

Mit dem Stop-Grund model_context_window_exceeded kannst du die maximal mögliche Anzahl an Token anfordern, ohne die Eingabegröße zu berechnen:

def get_max_possible_tokens(client, prompt):
    """
    Get as many tokens as possible within the model's context window
    without needing to calculate input token count
    """
    response = client.beta.messages.create(
        model="claude-opus-5",
        messages=[{"role": "user", "content": prompt}],
        max_tokens=20000,  # Python SDK requires streaming for max_tokens above ~21k
    )

    if response.stop_reason == "model_context_window_exceeded":
        # Maximal mögliche Token angesichts der Eingabegröße erhalten
        print(
            f"Generated {response.usage.output_tokens} tokens (context limit reached)"
        )
    elif response.stop_reason == "max_tokens":
        # Genau die angeforderte Anzahl an Token erhalten
        print(f"Generated {response.usage.output_tokens} tokens (max_tokens reached)")
    else:
        # Natürlicher Abschluss
        print(f"Generated {response.usage.output_tokens} tokens (natural completion)")

    return next((block.text for block in response.content if block.type == "text"), "")

Nächste Schritte

Ablehnungen und Fallback

Versuche abgelehnte Anfragen erneut mit einem Fallback-Modell, serverseitig oder in deinem Client.

Tool Runner (SDK)

Lass das SDK die tool_use-Schleife, die Ergebnisformatierung und Retries für dich verwalten.

Streaming von Nachrichten

Lies stop_reason aus dem message_delta-Event beim Streaming.

Fehler

Behandle 4xx- und 5xx-HTTP-Fehler, die sich von Stop-Gründen unterscheiden.

Was this page helpful?

MessagesEntwickeln mit Claude

Stop-Gründe und Fallback

Erfahre, was jeder stop_reason-Wert bedeutet und wie du Abschneidungen, Tool-Nutzung, pausierte Turns und Ablehnungen in deiner Anwendung behandelst.

Das vollständige Antwortschema findest du in der Messages API-Referenz.

Schnellreferenz

Wert	Wann er auftritt	Was zu tun ist
`end_turn`	Claude hat seine Antwort auf natürliche Weise beendet.	Verwende die Antwort.
`max_tokens`	Die Antwort hat dein `max_tokens`-Limit erreicht.	Erhöhe `max_tokens` oder setze die Antwort fort.
`stop_sequence`	Claude hat eine deiner `stop_sequences` ausgegeben.	Lies `stop_sequence`, um zu sehen, welche ausgelöst wurde.
`tool_use`	Claude ruft ein Tool auf.	Führe das Tool aus und gib das Ergebnis zurück. Ein Server-Tool-Aufruf, dem noch sein Ergebnisblock fehlt, wird in einer späteren Antwort abgeschlossen.
`pause_turn`	Eine Server-Tool-Schleife hat ihr Iterationslimit erreicht.	Sende den Assistant-Inhalt zurück, um fortzufahren.
`refusal`	Claude hat die Antwort abgelehnt.	Lies `stop_details` und versuche es erneut mit einem Fallback-Modell.
`model_context_window_exceeded`	Die Antwort hat das Kontextfenster des Modells gefüllt.	Behandle die Antwort als abgeschnitten.

Das stop_reason-Feld

Example response

{
  "id": "msg_01234",
  "type": "message",
  "role": "assistant",
  "content": [
    {
      "type": "text",
      "text": "Here's the answer to your question..."
    }
  ],
  "stop_reason": "end_turn",
  "stop_sequence": null,
  "stop_details": null,
  "usage": {
    "input_tokens": 100,
    "output_tokens": 50
  }
}

Stop-Reason-Werte

end_turn

Der häufigste Stop-Grund. Zeigt an, dass Claude seine Antwort auf natürliche Weise beendet hat.

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello!"}],
)
if response.stop_reason == "end_turn":
    # Verarbeite die vollständige Antwort
    for block in response.content:
        if block.type == "text":
            print(block.text)

max_tokens

Claude hat gestoppt, weil das in deiner Anfrage angegebene max_tokens-Limit erreicht wurde.

client = anthropic.Anthropic()
# Anfrage mit begrenzten Token
response = client.messages.create(
    model="claude-opus-5",
    max_tokens=10,
    messages=[{"role": "user", "content": "Explain quantum physics"}],
)

if response.stop_reason == "max_tokens":
    # Antwort wurde abgeschnitten
    print("Response was cut off at token limit")
    # Erwäge eine weitere Anfrage, um fortzufahren

stop_sequence

Claude ist auf eine deiner benutzerdefinierten Stop-Sequenzen gestoßen.

client = anthropic.Anthropic()
response = client.messages.create(
    model="claude-opus-5",
    max_tokens=1024,
    stop_sequences=["END", "STOP"],
    messages=[{"role": "user", "content": "Generate text until you say END"}],
)

if response.stop_reason == "stop_sequence":
    print(f"Stopped at sequence: {response.stop_sequence}")

tool_use

Claude ruft ein Tool auf und erwartet, dass du es ausführst.

Für die meisten Tool-Use-Implementierungen verwende den Tool Runner, der die Tool-Ausführung, die Ergebnisformatierung und die Konversationsverwaltung automatisch übernimmt.

client = anthropic.Anthropic()
weather_tool = {
    "name": "get_weather",
    "description": "Get the current weather in a given location",
    "input_schema": {
        "type": "object",
        "properties": {
            "location": {"type": "string", "description": "City and state"},
        },
        "required": ["location"],
    },
}


def execute_tool(name, tool_input):
    """Execute a tool and return the result."""
    return f"Weather in {tool_input.get('location', 'unknown')}: 72°F"


response = client.messages.create(
    model="claude-opus-5",
    max_tokens=1024,
    tools=[weather_tool],
    messages=[{"role": "user", "content": "What is the weather in San Francisco?"}],
)

if response.stop_reason == "tool_use":
    # Extrahiere und führe das Tool aus
    for block in response.content:
        if block.type == "tool_use":
            result = execute_tool(block.name, block.input)
            # Gib das Ergebnis an Claude für die finale Antwort zurück

A mixed tool_use response

{
  "stop_reason": "tool_use",
  "content": [
    {
      "type": "server_tool_use",
      "id": "srvtoolu_01HxbWnMRmbWyMfUtJKC45rA",
      "name": "web_search",
      "input": { "query": "example article" }
    },
    {
      "type": "tool_use",
      "id": "toolu_01PjgRJLbXrXEMZwDNYLnBqk",
      "name": "run_command",
      "input": { "command": "uname -a" }
    }
  ]
}

The follow-up user message

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01PjgRJLbXrXEMZwDNYLnBqk",
      "content": "Linux demo-host 6.8.0-52-generic x86_64 GNU/Linux"
    }
  ]
}

`web_search` tool use with id `srvtoolu_01HxbWnMRmbWyMfUtJKC45rA` was found without a corresponding `web_search_tool_result` block

pause_turn

response = client.messages.create(
    model="claude-opus-5",
    max_tokens=4096,
    tools=[{"type": "web_search_20250305", "name": "web_search"}],
    messages=[{"role": "user", "content": "Search for latest AI news"}],
)

if response.stop_reason == "pause_turn":
    # Setze die Konversation fort, indem du die Antwort zurücksendest
    messages = [
        {"role": "user", "content": "Search for latest AI news"},
        {"role": "assistant", "content": response.content},
    ]
    continuation = client.messages.create(
        model="claude-opus-5",
        max_tokens=4096,
        messages=messages,
        tools=[{"type": "web_search_20250305", "name": "web_search"}],
    )

refusal

Claude hat die Generierung einer Antwort abgelehnt. Sicherheitsklassifikatoren geben diesen Stop-Grund als normale HTTP-200-Antwort zurück, nicht als Fehler.

client = anthropic.Anthropic()
response = client.messages.create(
    model="claude-opus-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "[Unsafe request]"}],
)

if response.stop_reason == "refusal":
    # Claude hat die Antwort abgelehnt
    print("Claude was unable to process this request")
    # Erwäge, die Anfrage umzuformulieren oder anzupassen

model_context_window_exceeded

Claude hat gestoppt, weil das Kontextfenster-Limit des Modells erreicht wurde. Dies ermöglicht es dir, die maximal mögliche Anzahl an Token anzufordern, ohne die genaue Eingabegröße zu kennen.

# Anfrage mit maximaler Token-Anzahl, um so viel wie möglich zu erhalten
response = client.beta.messages.create(
    model="claude-opus-5",
    max_tokens=20000,  # Python SDK requires streaming for max_tokens above ~21k
    messages=[
        {"role": "user", "content": "Large input that uses most of context window..."}
    ],
)

if response.stop_reason == "model_context_window_exceeded":
    # Antwort hat das Kontextfenster-Limit vor max_tokens erreicht
    print("Response reached model's context window limit")
    # Die Antwort ist weiterhin gültig, wurde aber durch das Kontextfenster begrenzt

Best Practices für den Umgang mit Stop-Gründen

Prüfe immer stop_reason

Mache es dir zur Gewohnheit, den stop_reason in deiner Antwortverarbeitungslogik zu prüfen:

def handle_response(response):
    if response.stop_reason == "tool_use":
        return handle_tool_use(response)
    elif response.stop_reason == "max_tokens":
        return handle_truncation(response)
    elif response.stop_reason == "model_context_window_exceeded":
        return handle_context_limit(response)
    elif response.stop_reason == "pause_turn":
        return handle_pause(response)
    elif response.stop_reason == "refusal":
        return handle_refusal(response)
    else:
        # Behandle end_turn und andere Fälle
        return next(
            (block.text for block in response.content if block.type == "text"), ""
        )

Behandle abgeschnittene Antworten elegant

def handle_truncated_response(response):
    text = next((block.text for block in response.content if block.type == "text"), "")
    if response.stop_reason in ["max_tokens", "model_context_window_exceeded"]:
        if response.stop_reason == "max_tokens":
            note = "[Response truncated due to max_tokens limit]"
        else:
            note = "[Response truncated due to context window limit]"
        return f"{text}\n\n{note}"
    return text

Implementiere Retry-Logik für pause_turn

def handle_server_tool_conversation(client, user_query, tools, max_continuations=5):
    """
    Handle server tool conversations that may require multiple continuations.

    The server runs a sampling loop when executing server tools. If the loop
    reaches its iteration limit, the API returns pause_turn. Continue the
    conversation by sending the response back to let Claude finish.
    """
    messages = [{"role": "user", "content": user_query}]

    for _ in range(max_continuations):
        response = client.messages.create(
            model="claude-opus-5", max_tokens=4096, messages=messages, tools=tools
        )

        if response.stop_reason != "pause_turn":
            # Claude hat die Verarbeitung abgeschlossen - gib die finale Antwort zurück
            return response

        # pause_turn: ersetze die komplette Nachrichtenliste, um abwechselnde Rollen beizubehalten
        messages = [
            {"role": "user", "content": user_query},
            {"role": "assistant", "content": response.content},
        ]

    # Maximale Fortsetzungen erreicht - gib die letzte Antwort zurück
    return response

Stop-Gründe vs. Fehler

Es ist wichtig, zwischen stop_reason-Werten und tatsächlichen Fehlern zu unterscheiden:

Stop-Gründe (erfolgreiche Antworten)

Teil des Antwortkörpers
Zeigen an, warum die Generierung normal gestoppt wurde
Die Antwort enthält gültigen Inhalt

Fehler (fehlgeschlagene Anfragen)

HTTP-Statuscodes 4xx oder 5xx
Zeigen Fehler bei der Anfrageverarbeitung an
Die Antwort enthält Fehlerdetails

client = anthropic.Anthropic()

try:
    response = client.messages.create(
        model="claude-opus-5",
        max_tokens=1024,
        messages=[{"role": "user", "content": "Hello!"}],
    )

    # Erfolgreiche Antwort mit stop_reason behandeln
    if response.stop_reason == "max_tokens":
        print("Response was truncated")

except anthropic.APIStatusError as e:
    # Tatsächliche Fehler behandeln
    if e.status_code == 429:
        print("Rate limit exceeded")
    elif e.status_code == 500:
        print("Server error")

Überlegungen zum Streaming

Bei der Verwendung von Streaming ist stop_reason:

null im initialen message_start-Event
Im message_delta-Event enthalten
In keinem anderen Event enthalten

client = anthropic.Anthropic()

with client.messages.stream(
    model="claude-opus-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello!"}],
) as stream:
    for event in stream:
        if event.type == "message_delta":
            stop_reason = event.delta.stop_reason
            if stop_reason:
                print(f"Stream ended with: {stop_reason}")

Häufige Muster

Umgang mit Tool-Use-Workflows

def complete_tool_workflow(client, user_query, tools):
    messages = [{"role": "user", "content": user_query}]

    while True:
        response = client.messages.create(
            model="claude-opus-5", max_tokens=1024, messages=messages, tools=tools
        )

        if response.stop_reason == "tool_use":
            # Tools ausführen und fortfahren
            tool_results = execute_tools(response.content)
            messages.append({"role": "assistant", "content": response.content})
            messages.append({"role": "user", "content": tool_results})
        else:
            # Finale Antwort
            return response

Vollständige Antworten sicherstellen

def get_complete_response(client, prompt, max_attempts=3):
    messages = [{"role": "user", "content": prompt}]
    full_response = ""

    for _ in range(max_attempts):
        response = client.messages.create(
            model="claude-opus-5", messages=messages, max_tokens=4096
        )

        full_response += next(
            (block.text for block in response.content if block.type == "text"), ""
        )

        if response.stop_reason != "max_tokens":
            break

        # Dort fortsetzen, wo es aufgehört hat
        messages = [
            {"role": "user", "content": prompt},
            {"role": "assistant", "content": full_response},
            {"role": "user", "content": "Please continue from where you left off."},
        ]

    return full_response

Maximale Token-Anzahl erhalten, ohne die Eingabegröße zu kennen

Mit dem Stop-Grund model_context_window_exceeded kannst du die maximal mögliche Anzahl an Token anfordern, ohne die Eingabegröße zu berechnen:

def get_max_possible_tokens(client, prompt):
    """
    Get as many tokens as possible within the model's context window
    without needing to calculate input token count
    """
    response = client.beta.messages.create(
        model="claude-opus-5",
        messages=[{"role": "user", "content": prompt}],
        max_tokens=20000,  # Python SDK requires streaming for max_tokens above ~21k
    )

    if response.stop_reason == "model_context_window_exceeded":
        # Maximal mögliche Token angesichts der Eingabegröße erhalten
        print(
            f"Generated {response.usage.output_tokens} tokens (context limit reached)"
        )
    elif response.stop_reason == "max_tokens":
        # Genau die angeforderte Anzahl an Token erhalten
        print(f"Generated {response.usage.output_tokens} tokens (max_tokens reached)")
    else:
        # Natürlicher Abschluss
        print(f"Generated {response.usage.output_tokens} tokens (natural completion)")

    return next((block.text for block in response.content if block.type == "text"), "")

Nächste Schritte

Ablehnungen und Fallback

Versuche abgelehnte Anfragen erneut mit einem Fallback-Modell, serverseitig oder in deinem Client.

Tool Runner (SDK)

Lass das SDK die tool_use-Schleife, die Ergebnisformatierung und Retries für dich verwalten.

Streaming von Nachrichten

Lies stop_reason aus dem message_delta-Event beim Streaming.

Fehler

Behandle 4xx- und 5xx-HTTP-Fehler, die sich von Stop-Gründen unterscheiden.

Was this page helpful?

Schnellreferenz

Das stop_reason-Feld

Stop-Reason-Werte

end_turn

Leere Antworten mit end_turn

max_tokens

Unvollständige Tool-Use-Blöcke

stop_sequence

tool_use

pause_turn

refusal

model_context_window_exceeded

Best Practices für den Umgang mit Stop-Gründen

Prüfe immer stop_reason

Behandle abgeschnittene Antworten elegant

Implementiere Retry-Logik für pause_turn

Stop-Gründe vs. Fehler

Stop-Gründe (erfolgreiche Antworten)

Fehler (fehlgeschlagene Anfragen)

Überlegungen zum Streaming

Häufige Muster

Umgang mit Tool-Use-Workflows

Vollständige Antworten sicherstellen

Maximale Token-Anzahl erhalten, ohne die Eingabegröße zu kennen

Nächste Schritte

Schnellreferenz

Das stop_reason-Feld

Stop-Reason-Werte

end_turn

Leere Antworten mit end_turn

max_tokens

Unvollständige Tool-Use-Blöcke

stop_sequence

tool_use

pause_turn

refusal

model_context_window_exceeded

Best Practices für den Umgang mit Stop-Gründen

Prüfe immer stop_reason

Behandle abgeschnittene Antworten elegant

Implementiere Retry-Logik für pause_turn

Stop-Gründe vs. Fehler

Stop-Gründe (erfolgreiche Antworten)

Fehler (fehlgeschlagene Anfragen)

Überlegungen zum Streaming

Häufige Muster

Umgang mit Tool-Use-Workflows

Vollständige Antworten sicherstellen

Maximale Token-Anzahl erhalten, ohne die Eingabegröße zu kennen

Nächste Schritte

Schnellreferenz

Das stop_reason-Feld

Stop-Reason-Werte

end_turn

max_tokens

stop_sequence

tool_use

pause_turn

refusal

model_context_window_exceeded

Best Practices für den Umgang mit Stop-Gründen

Prüfe immer stop_reason

Behandle abgeschnittene Antworten elegant

Implementiere Retry-Logik für pause_turn

Stop-Gründe vs. Fehler

Stop-Gründe (erfolgreiche Antworten)

Fehler (fehlgeschlagene Anfragen)

Überlegungen zum Streaming

Häufige Muster

Umgang mit Tool-Use-Workflows

Vollständige Antworten sicherstellen

Maximale Token-Anzahl erhalten, ohne die Eingabegröße zu kennen

Nächste Schritte

Schnellreferenz

Das stop_reason-Feld

Stop-Reason-Werte

end_turn

max_tokens

stop_sequence

tool_use

pause_turn

refusal

model_context_window_exceeded

Best Practices für den Umgang mit Stop-Gründen

Prüfe immer stop_reason

Behandle abgeschnittene Antworten elegant

Implementiere Retry-Logik für pause_turn

Stop-Gründe vs. Fehler

Stop-Gründe (erfolgreiche Antworten)

Fehler (fehlgeschlagene Anfragen)

Überlegungen zum Streaming

Häufige Muster

Umgang mit Tool-Use-Workflows

Vollständige Antworten sicherstellen

Maximale Token-Anzahl erhalten, ohne die Eingabegröße zu kennen

Nächste Schritte