Modellfähigkeiten

Schnellmodus (Forschungsvorschau)

Höhere Ausgabegeschwindigkeit für Claude Opus 4.6, mit deutlich schnellerer Token-Generierung für latenzempfindliche und agentenbasierte Workflows.

Der Schnellmodus bietet deutlich schnellere Ausgabe-Token-Generierung für Claude Opus 4.6. Durch Setzen von speed: "fast" in Ihrer API-Anfrage erhalten Sie bis zu 2,5x höhere Ausgabe-Token pro Sekunde vom gleichen Modell zu Premium-Preisen.

Der Schnellmodus befindet sich derzeit in der Forschungsvorschau. Treten Sie der Warteliste bei, um Zugriff anzufordern. Die Verfügbarkeit ist begrenzt, während wir Feedback sammeln.

Unterstützte Modelle

Der Schnellmodus wird auf den folgenden Modellen unterstützt:

Claude Opus 4.6 (claude-opus-4-6)

Wie der Schnellmodus funktioniert

Der Schnellmodus führt das gleiche Modell mit einer schnelleren Inferenzkonfiguration aus. Es gibt keine Änderung an Intelligenz oder Fähigkeiten.

Bis zu 2,5x höhere Ausgabe-Token pro Sekunde im Vergleich zur Standardgeschwindigkeit
Geschwindigkeitsvorteile konzentrieren sich auf Ausgabe-Token pro Sekunde (OTPS), nicht auf Zeit bis zum ersten Token (TTFT)
Gleiche Modellgewichte und Verhalten (nicht ein anderes Modell)

Grundlegende Verwendung

curl https://api.anthropic.com/v1/messages \
    --header "x-api-key: $ANTHROPIC_API_KEY" \
    --header "anthropic-version: 2023-06-01" \
    --header "anthropic-beta: fast-mode-2026-02-01" \
    --header "content-type: application/json" \
    --data '{
        "model": "claude-opus-4-6",
        "max_tokens": 4096,
        "speed": "fast",
        "messages": [{
            "role": "user",
            "content": "Refactor this module to use dependency injection"
        }]
    }'

Preisgestaltung

Der Schnellmodus wird mit 6x Standard-Opus-Sätzen für Prompts ≤200K Token und 12x Standard-Opus-Sätzen für Prompts > 200K Token berechnet. Die folgende Tabelle zeigt die Preisgestaltung für Claude Opus 4.6 mit Schnellmodus:

Kontextfenster	Eingabe	Ausgabe
≤ 200K Eingabe-Token	$30 / MTok	$150 / MTok
> 200K Eingabe-Token	$60 / MTok	$225 / MTok

Die Preisgestaltung des Schnellmodus wird mit anderen Preismodifikatoren kombiniert:

Prompt-Caching-Multiplikatoren gelten zusätzlich zur Schnellmodus-Preisgestaltung
Datenresidenz Multiplikatoren gelten zusätzlich zur Schnellmodus-Preisgestaltung

Für vollständige Preisdetails siehe die Preisseite.

Rate Limits

Der Schnellmodus hat ein dediziertes Rate Limit, das vom Standard-Opus-Rate-Limit getrennt ist. Im Gegensatz zur Standardgeschwindigkeit, die separate Limits für ≤200K und >200K Eingabe-Token hat, verwendet der Schnellmodus ein einzelnes Rate Limit, das den vollständigen Kontextbereich abdeckt. Wenn Ihr Schnellmodus-Rate-Limit überschritten wird, gibt die API einen 429-Fehler mit einem retry-after-Header zurück, der angibt, wann Kapazität verfügbar sein wird.

Die Antwort enthält Header, die Ihren Schnellmodus-Rate-Limit-Status anzeigen:

Header	Beschreibung
`anthropic-fast-input-tokens-limit`	Maximale Schnellmodus-Eingabe-Token pro Minute
`anthropic-fast-input-tokens-remaining`	Verbleibende Schnellmodus-Eingabe-Token
`anthropic-fast-input-tokens-reset`	Zeit, wenn das Schnellmodus-Eingabe-Token-Limit zurückgesetzt wird
`anthropic-fast-output-tokens-limit`	Maximale Schnellmodus-Ausgabe-Token pro Minute
`anthropic-fast-output-tokens-remaining`	Verbleibende Schnellmodus-Ausgabe-Token
`anthropic-fast-output-tokens-reset`	Zeit, wenn das Schnellmodus-Ausgabe-Token-Limit zurückgesetzt wird

Für ebenenspezifische Rate Limits siehe die Rate-Limits-Seite.

Überprüfung, welche Geschwindigkeit verwendet wurde

Das Antwort-usage-Objekt enthält ein speed-Feld, das angibt, welche Geschwindigkeit verwendet wurde, entweder "fast" oder "standard":

Um die Nutzung und Kosten des Schnellmodus in Ihrer Organisation zu verfolgen, siehe die Nutzungs- und Kosten-API.

Wiederholungen und Fallback

Automatische Wiederholungen

Wenn die Rate Limits des Schnellmodus überschritten werden, gibt die API einen 429-Fehler mit einem retry-after-Header zurück. Die Anthropic SDKs wiederholen diese Anfragen automatisch bis zu 2 Mal standardmäßig (konfigurierbar über max_retries), wobei sie vor jeder Wiederholung auf die vom Server angegebene Verzögerung warten. Da der Schnellmodus kontinuierliche Token-Auffüllung verwendet, ist die retry-after-Verzögerung typischerweise kurz und Anfragen sind erfolgreich, sobald Kapazität verfügbar ist.

Fallback zur Standardgeschwindigkeit

Wenn Sie lieber zur Standardgeschwindigkeit zurückfallen möchten, anstatt auf Schnellmodus-Kapazität zu warten, fangen Sie den Rate-Limit-Fehler ab und wiederholen Sie die Anfrage ohne speed: "fast". Setzen Sie max_retries auf 0 für die anfängliche schnelle Anfrage, um automatische Wiederholungen zu überspringen und sofort bei Rate-Limit-Fehlern zu fehlschlagen.

Ein Fallback von schnell zu Standardgeschwindigkeit führt zu einem Prompt-Cache Miss. Anfragen mit unterschiedlichen Geschwindigkeiten teilen sich keine zwischengespeicherten Präfixe.

Da das Setzen von max_retries auf 0 auch Wiederholungen für andere vorübergehende Fehler deaktiviert (überlastet, interne Serverfehler), geben die folgenden Beispiele die ursprüngliche Anfrage mit Standard-Wiederholungen für diese Fälle erneut aus.

Überlegungen

Prompt-Caching: Das Wechseln zwischen schneller und Standardgeschwindigkeit invalidiert den Prompt-Cache. Anfragen mit unterschiedlichen Geschwindigkeiten teilen sich keine zwischengespeicherten Präfixe.
Unterstützte Modelle: Der Schnellmodus wird derzeit nur auf Opus 4.6 unterstützt. Das Senden von speed: "fast" mit einem nicht unterstützten Modell gibt einen Fehler zurück.
TTFT: Die Vorteile des Schnellmodus konzentrieren sich auf Ausgabe-Token pro Sekunde (OTPS), nicht auf Zeit bis zum ersten Token (TTFT).
Batch-API: Der Schnellmodus ist nicht mit der Batch-API verfügbar.
Priority Tier: Der Schnellmodus ist nicht mit Priority Tier verfügbar.

Nächste Schritte

Preisgestaltung

Detaillierte Informationen zur Schnellmodus-Preisgestaltung anzeigen.

Rate Limits

Überprüfen Sie Rate-Limit-Ebenen für den Schnellmodus.

Effort-Parameter

Kontrollieren Sie die Token-Nutzung mit dem Effort-Parameter.

Was this page helpful?

Modellfähigkeiten

Schnellmodus (Forschungsvorschau)

Höhere Ausgabegeschwindigkeit für Claude Opus 4.6, mit deutlich schnellerer Token-Generierung für latenzempfindliche und agentenbasierte Workflows.

Der Schnellmodus befindet sich derzeit in der Forschungsvorschau. Treten Sie der Warteliste bei, um Zugriff anzufordern. Die Verfügbarkeit ist begrenzt, während wir Feedback sammeln.

Unterstützte Modelle

Der Schnellmodus wird auf den folgenden Modellen unterstützt:

Claude Opus 4.6 (claude-opus-4-6)

Wie der Schnellmodus funktioniert

Der Schnellmodus führt das gleiche Modell mit einer schnelleren Inferenzkonfiguration aus. Es gibt keine Änderung an Intelligenz oder Fähigkeiten.

Bis zu 2,5x höhere Ausgabe-Token pro Sekunde im Vergleich zur Standardgeschwindigkeit
Geschwindigkeitsvorteile konzentrieren sich auf Ausgabe-Token pro Sekunde (OTPS), nicht auf Zeit bis zum ersten Token (TTFT)
Gleiche Modellgewichte und Verhalten (nicht ein anderes Modell)

Grundlegende Verwendung

curl https://api.anthropic.com/v1/messages \
    --header "x-api-key: $ANTHROPIC_API_KEY" \
    --header "anthropic-version: 2023-06-01" \
    --header "anthropic-beta: fast-mode-2026-02-01" \
    --header "content-type: application/json" \
    --data '{
        "model": "claude-opus-4-6",
        "max_tokens": 4096,
        "speed": "fast",
        "messages": [{
            "role": "user",
            "content": "Refactor this module to use dependency injection"
        }]
    }'

Preisgestaltung

Kontextfenster	Eingabe	Ausgabe
≤ 200K Eingabe-Token	$30 / MTok	$150 / MTok
> 200K Eingabe-Token	$60 / MTok	$225 / MTok

Die Preisgestaltung des Schnellmodus wird mit anderen Preismodifikatoren kombiniert:

Prompt-Caching-Multiplikatoren gelten zusätzlich zur Schnellmodus-Preisgestaltung
Datenresidenz Multiplikatoren gelten zusätzlich zur Schnellmodus-Preisgestaltung

Für vollständige Preisdetails siehe die Preisseite.

Rate Limits

Die Antwort enthält Header, die Ihren Schnellmodus-Rate-Limit-Status anzeigen:

Header	Beschreibung
`anthropic-fast-input-tokens-limit`	Maximale Schnellmodus-Eingabe-Token pro Minute
`anthropic-fast-input-tokens-remaining`	Verbleibende Schnellmodus-Eingabe-Token
`anthropic-fast-input-tokens-reset`	Zeit, wenn das Schnellmodus-Eingabe-Token-Limit zurückgesetzt wird
`anthropic-fast-output-tokens-limit`	Maximale Schnellmodus-Ausgabe-Token pro Minute
`anthropic-fast-output-tokens-remaining`	Verbleibende Schnellmodus-Ausgabe-Token
`anthropic-fast-output-tokens-reset`	Zeit, wenn das Schnellmodus-Ausgabe-Token-Limit zurückgesetzt wird

Für ebenenspezifische Rate Limits siehe die Rate-Limits-Seite.

Überprüfung, welche Geschwindigkeit verwendet wurde

Das Antwort-usage-Objekt enthält ein speed-Feld, das angibt, welche Geschwindigkeit verwendet wurde, entweder "fast" oder "standard":

Um die Nutzung und Kosten des Schnellmodus in Ihrer Organisation zu verfolgen, siehe die Nutzungs- und Kosten-API.

Wiederholungen und Fallback

Automatische Wiederholungen

Fallback zur Standardgeschwindigkeit

Ein Fallback von schnell zu Standardgeschwindigkeit führt zu einem Prompt-Cache Miss. Anfragen mit unterschiedlichen Geschwindigkeiten teilen sich keine zwischengespeicherten Präfixe.

Überlegungen

Prompt-Caching: Das Wechseln zwischen schneller und Standardgeschwindigkeit invalidiert den Prompt-Cache. Anfragen mit unterschiedlichen Geschwindigkeiten teilen sich keine zwischengespeicherten Präfixe.
Unterstützte Modelle: Der Schnellmodus wird derzeit nur auf Opus 4.6 unterstützt. Das Senden von speed: "fast" mit einem nicht unterstützten Modell gibt einen Fehler zurück.
TTFT: Die Vorteile des Schnellmodus konzentrieren sich auf Ausgabe-Token pro Sekunde (OTPS), nicht auf Zeit bis zum ersten Token (TTFT).
Batch-API: Der Schnellmodus ist nicht mit der Batch-API verfügbar.
Priority Tier: Der Schnellmodus ist nicht mit Priority Tier verfügbar.

Nächste Schritte

Preisgestaltung

Detaillierte Informationen zur Schnellmodus-Preisgestaltung anzeigen.

Rate Limits

Überprüfen Sie Rate-Limit-Ebenen für den Schnellmodus.

Effort-Parameter

Kontrollieren Sie die Token-Nutzung mit dem Effort-Parameter.

Was this page helpful?