Der Schnellmodus bietet deutlich schnellere Ausgabe-Token-Generierung für Claude Opus 4.6. Durch Setzen von speed: "fast" in Ihrer API-Anfrage erhalten Sie bis zu 2,5x höhere Ausgabe-Token pro Sekunde vom gleichen Modell zu Premium-Preisen.
Der Schnellmodus befindet sich derzeit in der Forschungsvorschau. Treten Sie der Warteliste bei, um Zugriff anzufordern. Die Verfügbarkeit ist begrenzt, während wir Feedback sammeln.
Der Schnellmodus wird auf den folgenden Modellen unterstützt:
claude-opus-4-6)Der Schnellmodus führt das gleiche Modell mit einer schnelleren Inferenzkonfiguration aus. Es gibt keine Änderung an Intelligenz oder Fähigkeiten.
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"speed": "fast",
"messages": [{
"role": "user",
"content": "Refactor this module to use dependency injection"
}]
}'Der Schnellmodus wird mit 6x Standard-Opus-Sätzen für Prompts ≤200K Token und 12x Standard-Opus-Sätzen für Prompts > 200K Token berechnet. Die folgende Tabelle zeigt die Preisgestaltung für Claude Opus 4.6 mit Schnellmodus:
| Kontextfenster | Eingabe | Ausgabe |
|---|---|---|
| ≤ 200K Eingabe-Token | $30 / MTok | $150 / MTok |
| > 200K Eingabe-Token | $60 / MTok | $225 / MTok |
Die Preisgestaltung des Schnellmodus wird mit anderen Preismodifikatoren kombiniert:
Für vollständige Preisdetails siehe die Preisseite.
Der Schnellmodus hat ein dediziertes Rate Limit, das vom Standard-Opus-Rate-Limit getrennt ist. Im Gegensatz zur Standardgeschwindigkeit, die separate Limits für ≤200K und >200K Eingabe-Token hat, verwendet der Schnellmodus ein einzelnes Rate Limit, das den vollständigen Kontextbereich abdeckt. Wenn Ihr Schnellmodus-Rate-Limit überschritten wird, gibt die API einen 429-Fehler mit einem retry-after-Header zurück, der angibt, wann Kapazität verfügbar sein wird.
Die Antwort enthält Header, die Ihren Schnellmodus-Rate-Limit-Status anzeigen:
| Header | Beschreibung |
|---|---|
anthropic-fast-input-tokens-limit | Maximale Schnellmodus-Eingabe-Token pro Minute |
anthropic-fast-input-tokens-remaining | Verbleibende Schnellmodus-Eingabe-Token |
anthropic-fast-input-tokens-reset | Zeit, wenn das Schnellmodus-Eingabe-Token-Limit zurückgesetzt wird |
anthropic-fast-output-tokens-limit | Maximale Schnellmodus-Ausgabe-Token pro Minute |
anthropic-fast-output-tokens-remaining | Verbleibende Schnellmodus-Ausgabe-Token |
anthropic-fast-output-tokens-reset | Zeit, wenn das Schnellmodus-Ausgabe-Token-Limit zurückgesetzt wird |
Für ebenenspezifische Rate Limits siehe die Rate-Limits-Seite.
Das Antwort-usage-Objekt enthält ein speed-Feld, das angibt, welche Geschwindigkeit verwendet wurde, entweder "fast" oder "standard":
Um die Nutzung und Kosten des Schnellmodus in Ihrer Organisation zu verfolgen, siehe die Nutzungs- und Kosten-API.
Wenn die Rate Limits des Schnellmodus überschritten werden, gibt die API einen 429-Fehler mit einem retry-after-Header zurück. Die Anthropic SDKs wiederholen diese Anfragen automatisch bis zu 2 Mal standardmäßig (konfigurierbar über max_retries), wobei sie vor jeder Wiederholung auf die vom Server angegebene Verzögerung warten. Da der Schnellmodus kontinuierliche Token-Auffüllung verwendet, ist die retry-after-Verzögerung typischerweise kurz und Anfragen sind erfolgreich, sobald Kapazität verfügbar ist.
Wenn Sie lieber zur Standardgeschwindigkeit zurückfallen möchten, anstatt auf Schnellmodus-Kapazität zu warten, fangen Sie den Rate-Limit-Fehler ab und wiederholen Sie die Anfrage ohne speed: "fast". Setzen Sie max_retries auf 0 für die anfängliche schnelle Anfrage, um automatische Wiederholungen zu überspringen und sofort bei Rate-Limit-Fehlern zu fehlschlagen.
Ein Fallback von schnell zu Standardgeschwindigkeit führt zu einem Prompt-Cache Miss. Anfragen mit unterschiedlichen Geschwindigkeiten teilen sich keine zwischengespeicherten Präfixe.
Da das Setzen von max_retries auf 0 auch Wiederholungen für andere vorübergehende Fehler deaktiviert (überlastet, interne Serverfehler), geben die folgenden Beispiele die ursprüngliche Anfrage mit Standard-Wiederholungen für diese Fälle erneut aus.
speed: "fast" mit einem nicht unterstützten Modell gibt einen Fehler zurück.Detaillierte Informationen zur Schnellmodus-Preisgestaltung anzeigen.
Überprüfen Sie Rate-Limit-Ebenen für den Schnellmodus.
Kontrollieren Sie die Token-Nutzung mit dem Effort-Parameter.
Was this page helpful?
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"speed": "fast",
"messages": [{"role": "user", "content": "Hello"}]
}'
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
...
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}import anthropic
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)