Loading...
  • Erstellen
  • Admin
  • Modelle & Preise
  • Client-SDKs
  • API-Referenz
Search...
⌘K
Log in
Schnellmodus (Beta: Forschungsvorschau)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Erstellen/Modellfähigkeiten

Fast-Modus (Beta: Research Preview)

Höhere Ausgabegeschwindigkeit für Claude Opus 4.6, die eine deutlich schnellere Token-Generierung für latenzempfindliche und agentische Workflows liefert.

Was this page helpful?

  • Unterstützte Modelle
  • Wie der Fast-Modus funktioniert
  • Grundlegende Verwendung
  • Preisgestaltung
  • Ratenlimits
  • Überprüfen, welche Geschwindigkeit verwendet wurde
  • Wiederholungsversuche und Fallback
  • Automatische Wiederholungsversuche
  • Fallback auf Standardgeschwindigkeit
  • Überlegungen
  • Nächste Schritte

Der Fast-Modus bietet eine deutlich schnellere Ausgabe-Token-Generierung für Claude Opus 4.6. Durch das Setzen von speed: "fast" in Ihrer API-Anfrage erhalten Sie bis zu 2,5-mal mehr Ausgabe-Token pro Sekunde vom selben Modell zu Premium-Preisen.

Der Fast-Modus befindet sich in der Beta-Phase (Research Preview). Treten Sie der Warteliste bei, um Zugang anzufordern. Die Verfügbarkeit ist begrenzt, während Anthropic Feedback sammelt.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

Unterstützte Modelle

Der Fast-Modus wird auf den folgenden Modellen unterstützt:

  • Claude Opus 4.6 (claude-opus-4-6)

Wie der Fast-Modus funktioniert

Der Fast-Modus führt dasselbe Modell mit einer schnelleren Inferenzkonfiguration aus. Es gibt keine Änderung an Intelligenz oder Fähigkeiten.

  • Bis zu 2,5-mal mehr Ausgabe-Token pro Sekunde im Vergleich zur Standardgeschwindigkeit
  • Geschwindigkeitsvorteile konzentrieren sich auf Ausgabe-Token pro Sekunde (OTPS), nicht auf die Zeit bis zum ersten Token (TTFT)
  • Gleiche Modellgewichte und gleiches Verhalten (kein anderes Modell)

Grundlegende Verwendung

Preisgestaltung

Der Fast-Modus wird zum 6-fachen der Standard-Opus-Tarife über das gesamte Kontextfenster berechnet, einschließlich Anfragen mit mehr als 200.000 Eingabe-Token. Die folgende Tabelle zeigt die Preise für Claude Opus 4.6 mit Fast-Modus:

EingabeAusgabe
$30 / MTok$150 / MTok

Die Fast-Modus-Preisgestaltung wird mit anderen Preismodifikatoren kombiniert:

  • Prompt-Caching-Multiplikatoren werden auf die Fast-Modus-Preise aufgeschlagen
  • Datenresidenz-Multiplikatoren werden auf die Fast-Modus-Preise aufgeschlagen

Vollständige Preisdetails finden Sie auf der Preisseite.

Ratenlimits

Der Fast-Modus hat ein dediziertes Ratenlimit, das von den Standard-Opus-Ratenlimits getrennt ist. Wenn Ihr Fast-Modus-Ratenlimit überschritten wird, gibt die API einen 429-Fehler mit einem retry-after-Header zurück, der angibt, wann Kapazität verfügbar sein wird.

Die Antwort enthält Header, die Ihren Fast-Modus-Ratenlimitstatus anzeigen:

HeaderBeschreibung
anthropic-fast-input-tokens-limitMaximale Fast-Modus-Eingabe-Token pro Minute
anthropic-fast-input-tokens-remainingVerbleibende Fast-Modus-Eingabe-Token
anthropic-fast-input-tokens-resetZeitpunkt, zu dem das Fast-Modus-Eingabe-Token-Limit zurückgesetzt wird
anthropic-fast-output-tokens-limitMaximale Fast-Modus-Ausgabe-Token pro Minute
anthropic-fast-output-tokens-remainingVerbleibende Fast-Modus-Ausgabe-Token
anthropic-fast-output-tokens-resetZeitpunkt, zu dem das Fast-Modus-Ausgabe-Token-Limit zurückgesetzt wird

Für stufenspezifische Ratenlimits siehe die Ratenlimit-Seite.

Überprüfen, welche Geschwindigkeit verwendet wurde

Das usage-Objekt der Antwort enthält ein speed-Feld, das angibt, welche Geschwindigkeit verwendet wurde, entweder "fast" oder "standard":

Output
{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

Um die Fast-Modus-Nutzung und -Kosten in Ihrer Organisation zu verfolgen, siehe die Nutzungs- und Kosten-API.

Wiederholungsversuche und Fallback

Automatische Wiederholungsversuche

Wenn Fast-Modus-Ratenlimits überschritten werden, gibt die API einen 429-Fehler mit einem retry-after-Header zurück. Die Anthropic SDKs wiederholen diese Anfragen standardmäßig bis zu 2 Mal automatisch (konfigurierbar über max_retries), wobei sie vor jedem Wiederholungsversuch die vom Server angegebene Verzögerung abwarten. Da der Fast-Modus eine kontinuierliche Token-Auffüllung verwendet, ist die retry-after-Verzögerung typischerweise kurz und Anfragen gelingen, sobald Kapazität verfügbar ist.

Fallback auf Standardgeschwindigkeit

Wenn Sie lieber auf die Standardgeschwindigkeit zurückfallen möchten, anstatt auf Fast-Modus-Kapazität zu warten, fangen Sie den Ratenlimitfehler ab und wiederholen Sie ohne speed: "fast". Setzen Sie max_retries auf 0 bei der ursprünglichen Fast-Anfrage, um automatische Wiederholungsversuche zu überspringen und bei Ratenlimitfehlern sofort fehlzuschlagen.

Ein Fallback von Fast auf Standardgeschwindigkeit führt zu einem Prompt-Cache-Fehltreffer. Anfragen bei unterschiedlichen Geschwindigkeiten teilen keine gecachten Präfixe.

Da das Setzen von max_retries auf 0 auch Wiederholungsversuche für andere vorübergehende Fehler (Überlastung, interne Serverfehler) deaktiviert, stellen die folgenden Beispiele die ursprüngliche Anfrage mit Standard-Wiederholungsversuchen für diese Fälle erneut aus.

Überlegungen

  • Prompt-Caching: Das Wechseln zwischen Fast- und Standardgeschwindigkeit macht den Prompt-Cache ungültig. Anfragen bei unterschiedlichen Geschwindigkeiten teilen keine gecachten Präfixe.
  • Unterstützte Modelle: Der Fast-Modus wird derzeit nur auf Opus 4.6 unterstützt. Das Senden von speed: "fast" mit einem nicht unterstützten Modell gibt einen Fehler zurück.
  • TTFT: Die Vorteile des Fast-Modus konzentrieren sich auf Ausgabe-Token pro Sekunde (OTPS), nicht auf die Zeit bis zum ersten Token (TTFT).
  • Batch-API: Der Fast-Modus ist nicht mit der Batch-API verfügbar.
  • Priority Tier: Der Fast-Modus ist nicht mit dem Priority Tier verfügbar.

Nächste Schritte

Preisgestaltung

Detaillierte Fast-Modus-Preisinformationen anzeigen.

Ratenlimits

Ratenlimit-Stufen für den Fast-Modus prüfen.

Effort-Parameter

Token-Nutzung mit dem Effort-Parameter steuern.

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)
response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"
client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)