Loading...
    • Entwicklerleitfaden
    • API-Referenz
    • MCP
    • Ressourcen
    • Versionshinweise
    Search...
    ⌘K
    Erste Schritte
    Einführung in ClaudeSchnelleinstieg
    Modelle & Preise
    ModellübersichtModell auswählenNeuerungen in Claude 4.6MigrationsleitfadenModellabschreibungenPreise
    Mit Claude entwickeln
    FunktionsübersichtMessages API verwendenStop-Gründe verarbeitenBest Practices für Prompts
    Modellfähigkeiten
    Extended ThinkingAdaptive ThinkingAufwandFast Mode (Research Preview)Strukturierte AusgabenZitateStreaming MessagesBatch-VerarbeitungPDF-UnterstützungSuchergebnisseMehrsprachige UnterstützungEmbeddingsVision
    Tools
    ÜbersichtTool-Nutzung implementierenWeb-Such-ToolWeb-Abruf-ToolCode-Ausführungs-ToolMemory-ToolBash-ToolComputer-Use-ToolText-Editor-Tool
    Tool-Infrastruktur
    Tool-SucheProgrammgesteuerte Tool-AufrufeFeingranulares Tool-Streaming
    Kontextverwaltung
    KontextfensterKomprimierungKontextbearbeitungPrompt CachingToken-Zählung
    Dateien & Assets
    Files API
    Agent Skills
    ÜbersichtSchnelleinstiegBest PracticesSkills für UnternehmenSkills mit der API verwenden
    Agent SDK
    ÜbersichtSchnelleinstiegTypeScript SDKTypeScript V2 (Preview)Python SDKMigrationsleitfaden
    MCP in der API
    MCP-ConnectorRemote MCP-Server
    Claude auf Plattformen von Drittanbietern
    Amazon BedrockMicrosoft FoundryVertex AI
    Prompt Engineering
    ÜbersichtPrompt-GeneratorPrompt-Vorlagen verwendenPrompt-VerbessererKlar und direkt seinBeispiele verwenden (Multishot Prompting)Claude denken lassen (CoT)XML-Tags verwendenClaude eine Rolle geben (System Prompts)Komplexe Prompts verkettenTipps für lange KontexteTipps für Extended Thinking
    Testen & Evaluieren
    Erfolgskriterien definierenTestfälle entwickelnEvaluierungstool verwendenLatenz reduzieren
    Schutzmaßnahmen verstärken
    Halluzinationen reduzierenAusgabekonsistenz erhöhenJailbreaks abschwächenStreaming-AblehnungenPrompt-Lecks reduzierenClaude im Charakter halten
    Verwaltung und Überwachung
    Admin API ÜbersichtDatenspeicherortArbeitsbereicheUsage and Cost APIClaude Code Analytics APIZero Data Retention
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Modellfähigkeiten

    Schnellmodus (Forschungsvorschau)

    Höhere Ausgabegeschwindigkeit für Claude Opus 4.6, mit deutlich schnellerer Token-Generierung für latenzempfindliche und agentenbasierte Workflows.

    Der Schnellmodus bietet deutlich schnellere Ausgabe-Token-Generierung für Claude Opus 4.6. Durch Setzen von speed: "fast" in Ihrer API-Anfrage erhalten Sie bis zu 2,5x höhere Ausgabe-Token pro Sekunde vom gleichen Modell zu Premium-Preisen.

    Der Schnellmodus befindet sich derzeit in der Forschungsvorschau. Treten Sie der Warteliste bei, um Zugriff anzufordern. Die Verfügbarkeit ist begrenzt, während wir Feedback sammeln.

    Unterstützte Modelle

    Der Schnellmodus wird auf den folgenden Modellen unterstützt:

    • Claude Opus 4.6 (claude-opus-4-6)

    Wie der Schnellmodus funktioniert

    Der Schnellmodus führt das gleiche Modell mit einer schnelleren Inferenzkonfiguration aus. Es gibt keine Änderung an Intelligenz oder Fähigkeiten.

    • Bis zu 2,5x höhere Ausgabe-Token pro Sekunde im Vergleich zur Standardgeschwindigkeit
    • Geschwindigkeitsvorteile konzentrieren sich auf Ausgabe-Token pro Sekunde (OTPS), nicht auf Zeit bis zum ersten Token (TTFT)
    • Gleiche Modellgewichte und Verhalten (nicht ein anderes Modell)

    Grundlegende Verwendung

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 4096,
            "speed": "fast",
            "messages": [{
                "role": "user",
                "content": "Refactor this module to use dependency injection"
            }]
        }'

    Preisgestaltung

    Der Schnellmodus wird mit 6x Standard-Opus-Sätzen für Prompts ≤200K Token und 12x Standard-Opus-Sätzen für Prompts > 200K Token berechnet. Die folgende Tabelle zeigt die Preisgestaltung für Claude Opus 4.6 mit Schnellmodus:

    KontextfensterEingabeAusgabe
    ≤ 200K Eingabe-Token$30 / MTok$150 / MTok
    > 200K Eingabe-Token$60 / MTok$225 / MTok

    Die Preisgestaltung des Schnellmodus wird mit anderen Preismodifikatoren kombiniert:

    • Prompt-Caching-Multiplikatoren gelten zusätzlich zur Schnellmodus-Preisgestaltung
    • Datenresidenz Multiplikatoren gelten zusätzlich zur Schnellmodus-Preisgestaltung

    Für vollständige Preisdetails siehe die Preisseite.

    Rate Limits

    Der Schnellmodus hat ein dediziertes Rate Limit, das vom Standard-Opus-Rate-Limit getrennt ist. Im Gegensatz zur Standardgeschwindigkeit, die separate Limits für ≤200K und >200K Eingabe-Token hat, verwendet der Schnellmodus ein einzelnes Rate Limit, das den vollständigen Kontextbereich abdeckt. Wenn Ihr Schnellmodus-Rate-Limit überschritten wird, gibt die API einen 429-Fehler mit einem retry-after-Header zurück, der angibt, wann Kapazität verfügbar sein wird.

    Die Antwort enthält Header, die Ihren Schnellmodus-Rate-Limit-Status anzeigen:

    HeaderBeschreibung
    anthropic-fast-input-tokens-limitMaximale Schnellmodus-Eingabe-Token pro Minute
    anthropic-fast-input-tokens-remainingVerbleibende Schnellmodus-Eingabe-Token
    anthropic-fast-input-tokens-resetZeit, wenn das Schnellmodus-Eingabe-Token-Limit zurückgesetzt wird
    anthropic-fast-output-tokens-limitMaximale Schnellmodus-Ausgabe-Token pro Minute
    anthropic-fast-output-tokens-remainingVerbleibende Schnellmodus-Ausgabe-Token
    anthropic-fast-output-tokens-resetZeit, wenn das Schnellmodus-Ausgabe-Token-Limit zurückgesetzt wird

    Für ebenenspezifische Rate Limits siehe die Rate-Limits-Seite.

    Überprüfung, welche Geschwindigkeit verwendet wurde

    Das Antwort-usage-Objekt enthält ein speed-Feld, das angibt, welche Geschwindigkeit verwendet wurde, entweder "fast" oder "standard":

    Um die Nutzung und Kosten des Schnellmodus in Ihrer Organisation zu verfolgen, siehe die Nutzungs- und Kosten-API.

    Wiederholungen und Fallback

    Automatische Wiederholungen

    Wenn die Rate Limits des Schnellmodus überschritten werden, gibt die API einen 429-Fehler mit einem retry-after-Header zurück. Die Anthropic SDKs wiederholen diese Anfragen automatisch bis zu 2 Mal standardmäßig (konfigurierbar über max_retries), wobei sie vor jeder Wiederholung auf die vom Server angegebene Verzögerung warten. Da der Schnellmodus kontinuierliche Token-Auffüllung verwendet, ist die retry-after-Verzögerung typischerweise kurz und Anfragen sind erfolgreich, sobald Kapazität verfügbar ist.

    Fallback zur Standardgeschwindigkeit

    Wenn Sie lieber zur Standardgeschwindigkeit zurückfallen möchten, anstatt auf Schnellmodus-Kapazität zu warten, fangen Sie den Rate-Limit-Fehler ab und wiederholen Sie die Anfrage ohne speed: "fast". Setzen Sie max_retries auf 0 für die anfängliche schnelle Anfrage, um automatische Wiederholungen zu überspringen und sofort bei Rate-Limit-Fehlern zu fehlschlagen.

    Ein Fallback von schnell zu Standardgeschwindigkeit führt zu einem Prompt-Cache Miss. Anfragen mit unterschiedlichen Geschwindigkeiten teilen sich keine zwischengespeicherten Präfixe.

    Da das Setzen von max_retries auf 0 auch Wiederholungen für andere vorübergehende Fehler deaktiviert (überlastet, interne Serverfehler), geben die folgenden Beispiele die ursprüngliche Anfrage mit Standard-Wiederholungen für diese Fälle erneut aus.

    Überlegungen

    • Prompt-Caching: Das Wechseln zwischen schneller und Standardgeschwindigkeit invalidiert den Prompt-Cache. Anfragen mit unterschiedlichen Geschwindigkeiten teilen sich keine zwischengespeicherten Präfixe.
    • Unterstützte Modelle: Der Schnellmodus wird derzeit nur auf Opus 4.6 unterstützt. Das Senden von speed: "fast" mit einem nicht unterstützten Modell gibt einen Fehler zurück.
    • TTFT: Die Vorteile des Schnellmodus konzentrieren sich auf Ausgabe-Token pro Sekunde (OTPS), nicht auf Zeit bis zum ersten Token (TTFT).
    • Batch-API: Der Schnellmodus ist nicht mit der Batch-API verfügbar.
    • Priority Tier: Der Schnellmodus ist nicht mit Priority Tier verfügbar.

    Nächste Schritte

    Preisgestaltung

    Detaillierte Informationen zur Schnellmodus-Preisgestaltung anzeigen.

    Rate Limits

    Überprüfen Sie Rate-Limit-Ebenen für den Schnellmodus.

    Effort-Parameter

    Kontrollieren Sie die Token-Nutzung mit dem Effort-Parameter.

    Was this page helpful?

    • Unterstützte Modelle
    • Wie der Schnellmodus funktioniert
    • Grundlegende Verwendung
    • Preisgestaltung
    • Rate Limits
    • Überprüfung, welche Geschwindigkeit verwendet wurde
    • Wiederholungen und Fallback
    • Automatische Wiederholungen
    • Fallback zur Standardgeschwindigkeit
    • Überlegungen
    • Nächste Schritte
    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 1024,
            "speed": "fast",
            "messages": [{"role": "user", "content": "Hello"}]
        }'
    
    {
      "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
      "type": "message",
      "role": "assistant",
      ...
      "usage": {
        "input_tokens": 523,
        "output_tokens": 1842,
        "speed": "fast"
      }
    }
    import anthropic
    
    client = anthropic.Anthropic()
    
    
    def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
        try:
            return client.beta.messages.create(**params, max_retries=max_retries)
        except anthropic.RateLimitError:
            if params.get("speed") == "fast":
                del params["speed"]
                return create_message_with_fast_fallback(**params)
            raise
        except (
            anthropic.InternalServerError,
            anthropic.OverloadedError,
            anthropic.APIConnectionError,
        ):
            if max_attempts > 1:
                return create_message_with_fast_fallback(
                    max_attempts=max_attempts - 1, **params
                )
            raise
    
    
    message = create_message_with_fast_fallback(
        model="claude-opus-4-6",
        max_tokens=1024,
        messages=[{"role": "user", "content": "Hello"}],
        betas=["fast-mode-2026-02-01"],
        speed="fast",
        max_retries=0,
    )