Loading...
    • Entwicklerleitfaden
    • API-Referenz
    • MCP
    • Ressourcen
    • Versionshinweise
    Search...
    ⌘K

    Erste Schritte

    Einführung in ClaudeSchnellstart

    Modelle & Preise

    ModellübersichtEin Modell wählenWas ist neu in Claude 4.5Migration zu Claude 4.5ModellabschreibungenPreise

    Mit Claude entwickeln

    FunktionsübersichtArbeiten mit der Messages APIKontextfensterBest Practices für Prompting

    Funktionen

    Prompt-CachingKontextbearbeitungErweitertes DenkenStreaming-NachrichtenBatch-VerarbeitungZitateMehrsprachige UnterstützungToken-ZählungEmbeddingsVisionPDF-UnterstützungFiles APISuchergebnisseGoogle Sheets Add-on

    Werkzeuge

    ÜbersichtWie man Tool-Nutzung implementiertToken-effiziente WerkzeugnutzungFeinkörniges Tool-StreamingBash-ToolCode-AusführungstoolComputer-Use-ToolText-Editor-ToolWeb-Abruf-ToolWeb-SuchwerkzeugMemory-Tool

    Agent-Fähigkeiten

    ÜbersichtErste Schritte mit Agent Skills in der APIBest Practices für die Skill-ErstellungSkills verwenden

    Agent SDK

    ÜbersichtAgent SDK-Referenz - TypeScriptPython SDK

    Leitfäden

    Streaming-EingabeBerechtigungen verwaltenSession-VerwaltungHosting des Agent SDKSystem-Prompts modifizierenMCP im SDKBenutzerdefinierte ToolsSubagenten im SDKSlash-Befehle im SDKAgent Skills im SDKKosten und Nutzung verfolgenTodo-ListenPlugins im SDK

    MCP in der API

    MCP-ConnectorRemote MCP-Server

    Claude auf Drittanbieter-Plattformen

    Amazon BedrockVertex AI

    Prompt-Engineering

    ÜbersichtPrompt-GeneratorPrompt-Vorlagen verwendenPrompt-VerbessererSei klar und direktBeispiele verwenden (Multishot-Prompting) um Claudes Verhalten zu steuernClaude denken lassen (CoT)XML-Tags verwendenClaude eine Rolle geben (System-Prompts)Vorausfüllen von Claudes AntwortKomplexe Prompts verkettenTipps für langen KontextTipps für erweiterte Denkprozesse

    Testen & bewerten

    Erfolgskriterien definierenTestfälle entwickelnVerwendung des Evaluierungs-ToolsLatenz reduzieren

    Schutzmaßnahmen verstärken

    Halluzinationen reduzierenAusgabekonsistenz erhöhenJailbreaks abwehrenhandle-streaming-refusalsPrompt-Leaks reduzierenClaude im Charakter halten

    Verwaltung und Überwachung

    Admin API ÜbersichtNutzungs- und Kosten-APIClaude Code Analytics API
    Console
    Testen & bewerten

    Starke empirische Evaluierungen erstellen

    Entwickeln Sie Testfälle zur Messung der LLM-Leistung gegen Ihre Erfolgskriterien.

    Nach der Definition Ihrer Erfolgskriterien ist der nächste Schritt die Gestaltung von Evaluierungen zur Messung der LLM-Leistung gegen diese Kriterien. Dies ist ein wichtiger Teil des Prompt-Engineering-Zyklus.

    Dieser Leitfaden konzentriert sich darauf, wie Sie Ihre Testfälle entwickeln.

    Evals und Testfälle erstellen

    Eval-Designprinzipien

    1. Aufgabenspezifisch sein: Entwerfen Sie Evals, die Ihre reale Aufgabenverteilung widerspiegeln. Vergessen Sie nicht, Grenzfälle zu berücksichtigen!

    2. Automatisieren wenn möglich: Strukturieren Sie Fragen so, dass automatisierte Bewertung möglich ist (z.B. Multiple-Choice, String-Match, Code-bewertet, LLM-bewertet).
    3. Volumen über Qualität priorisieren: Mehr Fragen mit etwas niedrigerem Signal bei automatisierter Bewertung ist besser als weniger Fragen mit hochwertigen manuell bewerteten Evals.

    Beispiel-Evals

    Hunderte von Testfällen von Hand zu schreiben kann schwierig sein! Lassen Sie Claude Ihnen dabei helfen, mehr aus einem Basissatz von Beispiel-Testfällen zu generieren.
    Wenn Sie nicht wissen, welche Eval-Methoden nützlich sein könnten, um Ihre Erfolgskriterien zu bewerten, können Sie auch mit Claude brainstormen!

    Evals bewerten

    Bei der Entscheidung, welche Methode zur Bewertung von Evals verwendet werden soll, wählen Sie die schnellste, zuverlässigste, skalierbarste Methode:

    1. Code-basierte Bewertung: Am schnellsten und zuverlässigsten, extrem skalierbar, aber fehlt auch Nuancierung für komplexere Beurteilungen, die weniger regelbasierte Starrheit erfordern.

      • Exakte Übereinstimmung: output == golden_answer
      • String-Übereinstimmung: key_phrase in output
    2. Menschliche Bewertung: Am flexibelsten und hochwertigsten, aber langsam und teuer. Vermeiden Sie es wenn möglich.

    3. LLM-basierte Bewertung: Schnell und flexibel, skalierbar und geeignet für komplexe Beurteilungen. Testen Sie zuerst die Zuverlässigkeit, dann skalieren Sie.

    Tipps für LLM-basierte Bewertung

    • Detaillierte, klare Rubriken haben: "Die Antwort sollte immer 'Acme Inc.' im ersten Satz erwähnen. Wenn sie das nicht tut, wird die Antwort automatisch als 'falsch' bewertet."
      Ein gegebener Anwendungsfall oder sogar ein spezifisches Erfolgskriterium für diesen Anwendungsfall könnte mehrere Rubriken für eine ganzheitliche Bewertung erfordern.
    • Empirisch oder spezifisch: Weisen Sie das LLM beispielsweise an, nur 'korrekt' oder 'falsch' auszugeben oder auf einer Skala von 1-5 zu beurteilen. Rein qualitative Bewertungen sind schwer schnell und im großen Maßstab zu bewerten.
    • Begründung fördern: Bitten Sie das LLM, zuerst zu denken, bevor es eine Bewertungspunktzahl entscheidet, und verwerfen Sie dann die Begründung. Dies erhöht die Bewertungsleistung, insbesondere für Aufgaben, die komplexe Beurteilungen erfordern.

    Nächste Schritte

    Evaluierungen brainstormen

    Lernen Sie, wie Sie Prompts erstellen, die Ihre Eval-Werte maximieren.

    Evals-Kochbuch

    Mehr Code-Beispiele für menschlich-, code- und LLM-bewertete Evals.

    • Evals und Testfälle erstellen
    • Eval-Designprinzipien
    • Beispiel-Evals
    • Evals bewerten
    • Tipps für LLM-basierte Bewertung
    © 2025 ANTHROPIC PBC

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    © 2025 ANTHROPIC PBC