Was this page helpful?
Der Fast-Modus bietet eine deutlich schnellere Ausgabe-Token-Generierung für Claude Opus 4.6. Durch das Setzen von speed: "fast" in Ihrer API-Anfrage erhalten Sie bis zu 2,5-mal mehr Ausgabe-Token pro Sekunde vom selben Modell zu Premium-Preisen.
Der Fast-Modus befindet sich in der Beta-Phase (Research Preview). Treten Sie der Warteliste bei, um Zugang anzufordern. Die Verfügbarkeit ist begrenzt, während Anthropic Feedback sammelt.
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
Der Fast-Modus wird auf den folgenden Modellen unterstützt:
claude-opus-4-6)Der Fast-Modus führt dasselbe Modell mit einer schnelleren Inferenzkonfiguration aus. Es gibt keine Änderung an Intelligenz oder Fähigkeiten.
Der Fast-Modus wird zum 6-fachen der Standard-Opus-Tarife über das gesamte Kontextfenster berechnet, einschließlich Anfragen mit mehr als 200.000 Eingabe-Token. Die folgende Tabelle zeigt die Preise für Claude Opus 4.6 mit Fast-Modus:
| Eingabe | Ausgabe |
|---|---|
| $30 / MTok | $150 / MTok |
Die Fast-Modus-Preisgestaltung wird mit anderen Preismodifikatoren kombiniert:
Vollständige Preisdetails finden Sie auf der Preisseite.
Der Fast-Modus hat ein dediziertes Ratenlimit, das von den Standard-Opus-Ratenlimits getrennt ist. Wenn Ihr Fast-Modus-Ratenlimit überschritten wird, gibt die API einen 429-Fehler mit einem retry-after-Header zurück, der angibt, wann Kapazität verfügbar sein wird.
Die Antwort enthält Header, die Ihren Fast-Modus-Ratenlimitstatus anzeigen:
| Header | Beschreibung |
|---|---|
anthropic-fast-input-tokens-limit | Maximale Fast-Modus-Eingabe-Token pro Minute |
anthropic-fast-input-tokens-remaining | Verbleibende Fast-Modus-Eingabe-Token |
anthropic-fast-input-tokens-reset | Zeitpunkt, zu dem das Fast-Modus-Eingabe-Token-Limit zurückgesetzt wird |
anthropic-fast-output-tokens-limit | Maximale Fast-Modus-Ausgabe-Token pro Minute |
anthropic-fast-output-tokens-remaining | Verbleibende Fast-Modus-Ausgabe-Token |
anthropic-fast-output-tokens-reset | Zeitpunkt, zu dem das Fast-Modus-Ausgabe-Token-Limit zurückgesetzt wird |
Für stufenspezifische Ratenlimits siehe die Ratenlimit-Seite.
Das usage-Objekt der Antwort enthält ein speed-Feld, das angibt, welche Geschwindigkeit verwendet wurde, entweder "fast" oder "standard":
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Um die Fast-Modus-Nutzung und -Kosten in Ihrer Organisation zu verfolgen, siehe die Nutzungs- und Kosten-API.
Wenn Fast-Modus-Ratenlimits überschritten werden, gibt die API einen 429-Fehler mit einem retry-after-Header zurück. Die Anthropic SDKs wiederholen diese Anfragen standardmäßig bis zu 2 Mal automatisch (konfigurierbar über max_retries), wobei sie vor jedem Wiederholungsversuch die vom Server angegebene Verzögerung abwarten. Da der Fast-Modus eine kontinuierliche Token-Auffüllung verwendet, ist die retry-after-Verzögerung typischerweise kurz und Anfragen gelingen, sobald Kapazität verfügbar ist.
Wenn Sie lieber auf die Standardgeschwindigkeit zurückfallen möchten, anstatt auf Fast-Modus-Kapazität zu warten, fangen Sie den Ratenlimitfehler ab und wiederholen Sie ohne speed: "fast". Setzen Sie max_retries auf 0 bei der ursprünglichen Fast-Anfrage, um automatische Wiederholungsversuche zu überspringen und bei Ratenlimitfehlern sofort fehlzuschlagen.
Ein Fallback von Fast auf Standardgeschwindigkeit führt zu einem Prompt-Cache-Fehltreffer. Anfragen bei unterschiedlichen Geschwindigkeiten teilen keine gecachten Präfixe.
Da das Setzen von max_retries auf 0 auch Wiederholungsversuche für andere vorübergehende Fehler (Überlastung, interne Serverfehler) deaktiviert, stellen die folgenden Beispiele die ursprüngliche Anfrage mit Standard-Wiederholungsversuchen für diese Fälle erneut aus.
speed: "fast" mit einem nicht unterstützten Modell gibt einen Fehler zurück.client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)