Loading...
    • Erstellen
    • Admin
    • Modelle & Preise
    • Client SDKs
    • API-Referenz
    Search...
    ⌘K
    Erste Schritte
    Einführung in ClaudeSchnellstart
    Entwickeln mit Claude
    FunktionsübersichtVerwendung der Messages APIStoppgründe behandeln
    Modellfähigkeiten
    Erweitertes DenkenAdaptives DenkenAufwandSchnellmodus (Beta: Forschungsvorschau)Strukturierte AusgabenZitateStreaming-NachrichtenStapelverarbeitungSuchergebnisseStreaming-AblehnungenMehrsprachige UnterstützungEmbeddings
    Tools
    ÜbersichtWie Tool-Nutzung funktioniertWeb-SuchtoolWeb-AbruftoolCode-AusführungstoolSpeichertoolBash-ToolComputer-Use-ToolTexteditor-Tool
    Tool-Infrastruktur
    Tool-SucheProgrammatisches Tool-AufrufenFeingranulares Tool-Streaming
    Kontextverwaltung
    KontextfensterKomprimierungKontextbearbeitungPrompt-CachingToken-Zählung
    Mit Dateien arbeiten
    Files APIPDF-UnterstützungBilder und Vision
    Skills
    ÜbersichtSchnellstartBest PracticesSkills für UnternehmenSkills in der API
    MCP
    Remote-MCP-ServerMCP-Connector
    Prompt-Engineering
    ÜbersichtBest Practices für PromptsConsole-Prompting-Tools
    Testen und Evaluieren
    Erfolg definieren und Evaluierungen erstellenDas Evaluierungstool in der Console verwendenLatenz reduzieren
    Leitplanken stärken
    Halluzinationen reduzierenAusgabekonsistenz erhöhenJailbreaks abmildernPrompt-Lecks reduzieren
    Ressourcen
    Glossar
    Versionshinweise
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Testen und Evaluieren

    Latenz reduzieren

    Erfahren Sie, wie Sie die Latenz bei der Verwendung von Claude reduzieren können, einschließlich Modellauswahl, Prompt-Optimierung und Streaming.

    Latenz bezieht sich auf die Zeit, die das Modell benötigt, um einen Prompt zu verarbeiten und eine Ausgabe zu generieren. Die Latenz kann durch verschiedene Faktoren beeinflusst werden, wie z. B. die Größe des Modells, die Komplexität des Prompts und die zugrunde liegende Infrastruktur, die das Modell und den Interaktionspunkt unterstützt.

    Es ist immer besser, zunächst einen Prompt zu entwickeln, der ohne Modell- oder Prompt-Einschränkungen gut funktioniert, und dann später Latenzreduktionsstrategien auszuprobieren. Der Versuch, die Latenz zu früh zu reduzieren, könnte Sie daran hindern, herauszufinden, wie Top-Performance aussieht.


    So messen Sie Latenz

    Wenn Sie über Latenz sprechen, können Sie auf mehrere Begriffe und Messungen stoßen:

    • Basis-Latenz: Dies ist die Zeit, die das Modell benötigt, um den Prompt zu verarbeiten und die Antwort zu generieren, ohne die Eingabe- und Ausgabe-Token pro Sekunde zu berücksichtigen. Sie gibt eine allgemeine Vorstellung von der Geschwindigkeit des Modells.
    • Zeit bis zum ersten Token (TTFT): Diese Metrik misst die Zeit, die das Modell benötigt, um das erste Token der Antwort zu generieren, von dem Moment an, in dem der Prompt gesendet wurde. Sie ist besonders relevant, wenn Sie Streaming verwenden (mehr dazu später) und Ihren Benutzern ein responsives Erlebnis bieten möchten.

    Für ein tieferes Verständnis dieser Begriffe schauen Sie sich unser Glossar an.


    So reduzieren Sie Latenz

    1. Wählen Sie das richtige Modell

    Eine der einfachsten Möglichkeiten, die Latenz zu reduzieren, besteht darin, das geeignete Modell für Ihren Anwendungsfall auszuwählen. Anthropic bietet eine Reihe von Modellen mit unterschiedlichen Fähigkeiten und Leistungsmerkmalen. Berücksichtigen Sie Ihre spezifischen Anforderungen und wählen Sie das Modell, das Ihren Anforderungen in Bezug auf Geschwindigkeit und Ausgabequalität am besten entspricht.

    Für geschwindigkeitskritische Anwendungen bietet Claude Haiku 4.5 die schnellsten Antwortzeiten bei Beibehaltung hoher Intelligenz:

    Python
    import anthropic
    
    client = anthropic.Anthropic()
    
    # For time-sensitive applications, use Claude Haiku 4.5
    message = client.messages.create(
        model="claude-haiku-4-5",
        max_tokens=100,
        messages=[
            {
                "role": "user",
                "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
            }
        ],
    )

    Weitere Details zu Modellmetriken finden Sie auf unserer Seite Modellübersicht.

    2. Optimieren Sie Prompt- und Ausgabelänge

    Minimieren Sie die Anzahl der Token sowohl in Ihrem Eingabe-Prompt als auch in der erwarteten Ausgabe, während Sie gleichzeitig hohe Leistung beibehalten. Je weniger Token das Modell verarbeiten und generieren muss, desto schneller wird die Antwort.

    Hier sind einige Tipps, die Ihnen helfen, Ihre Prompts und Ausgaben zu optimieren:

    • Seien Sie klar, aber prägnant: Versuchen Sie, Ihre Absicht klar und prägnant im Prompt zu vermitteln. Vermeiden Sie unnötige Details oder redundante Informationen, denken Sie aber daran, dass Claude keinen Kontext zu Ihrem Anwendungsfall hat und möglicherweise nicht die beabsichtigten Logiksprünge macht, wenn die Anweisungen unklar sind.
    • Fordern Sie kürzere Antworten an: Bitten Sie Claude direkt, prägnant zu sein. Die Claude 3-Familie von Modellen hat eine verbesserte Steuerbarkeit gegenüber früheren Generationen. Wenn Claude unerwünschte Länge ausgibt, bitten Sie Claude, seine Geschwätzigkeit zu zügeln.
      Da LLMs Token statt Wörter zählen, ist das Anfordern einer genauen Wortanzahl oder einer Wortanzahlgrenze nicht so effektiv wie das Anfordern von Absatz- oder Satzanzahlgrenzen.
    • Legen Sie angemessene Ausgabegrenzen fest: Verwenden Sie den Parameter max_tokens, um eine harte Grenze für die maximale Länge der generierten Antwort festzulegen. Dies verhindert, dass Claude übermäßig lange Ausgaben generiert.

      Hinweis: Wenn die Antwort max_tokens Token erreicht, wird die Antwort abgeschnitten, möglicherweise mitten im Satz oder mitten im Wort. Dies ist eine grobe Technik, die möglicherweise eine Nachbearbeitung erfordert und normalerweise am besten für Multiple-Choice- oder Kurzantwort-Antworten geeignet ist, bei denen die Antwort gleich am Anfang kommt.

    • Experimentieren Sie mit Temperatur: Der Parameter temperature parameter steuert die Zufälligkeit der Ausgabe. Niedrigere Werte (z. B. 0,2) können manchmal zu fokussierteren und kürzeren Antworten führen, während höhere Werte (z. B. 0,8) zu vielfältigeren, aber möglicherweise längeren Ausgaben führen können.

    Das Finden des richtigen Gleichgewichts zwischen Prompt-Klarheit, Ausgabequalität und Token-Anzahl erfordert möglicherweise einige Experimente.

    3. Nutzen Sie Streaming

    Streaming ist eine Funktion, die es dem Modell ermöglicht, mit dem Senden seiner Antwort zu beginnen, bevor die vollständige Ausgabe abgeschlossen ist. Dies kann die wahrgenommene Responsivität Ihrer Anwendung erheblich verbessern, da Benutzer die Ausgabe des Modells in Echtzeit sehen können.

    Mit aktiviertem Streaming können Sie die Ausgabe des Modells bei ihrer Ankunft verarbeiten, Ihre Benutzeroberfläche aktualisieren oder andere Aufgaben parallel ausführen. Dies kann das Benutzererlebnis erheblich verbessern und Ihre Anwendung interaktiver und responsiver wirken lassen.

    Besuchen Sie Streaming Messages, um zu erfahren, wie Sie Streaming für Ihren Anwendungsfall implementieren können.

    Was this page helpful?

    • So messen Sie Latenz
    • So reduzieren Sie Latenz
    • 1. Wählen Sie das richtige Modell
    • 2. Optimieren Sie Prompt- und Ausgabelänge
    • 3. Nutzen Sie Streaming