Das „Context window" bezieht sich auf die Menge an Text, auf die ein Sprachmodell zurückblicken und verweisen kann, wenn es neuen Text generiert. Dies unterscheidet sich vom großen Datenbestand, auf dem das Sprachmodell trainiert wurde, und stellt stattdessen einen „Arbeitsspeicher" für das Modell dar. Ein größeres Context window ermöglicht es dem Modell, komplexere und längere Prompts zu verstehen und darauf zu reagieren, während ein kleineres Context window die Fähigkeit des Modells einschränken kann, längere Prompts zu verarbeiten oder die Kohärenz über längere Gespräche hinweg zu bewahren.
Siehe unseren Leitfaden zum Verständnis von Context Windows, um mehr zu erfahren.
Fine-tuning ist der Prozess des weiteren Trainings eines vortrainierten Sprachmodells mit zusätzlichen Daten. Dies führt dazu, dass das Modell beginnt, die Muster und Merkmale des Fine-tuning-Datensatzes darzustellen und nachzuahmen. Claude ist kein bloßes Sprachmodell; es wurde bereits fine-tuned, um ein hilfreicher Assistent zu sein. Unsere API bietet derzeit kein Fine-tuning an, aber bitte kontaktieren Sie Ihren Anthropic-Ansprechpartner, wenn Sie daran interessiert sind, diese Option zu erkunden. Fine-tuning kann nützlich sein, um ein Sprachmodell an eine bestimmte Domäne, Aufgabe oder einen bestimmten Schreibstil anzupassen, erfordert aber eine sorgfältige Überlegung der Fine-tuning-Daten und der möglichen Auswirkungen auf die Leistung und Verzerrungen des Modells.
Diese drei H's repräsentieren Anthropics Ziele, um sicherzustellen, dass Claude der Gesellschaft zugute kommt:
Latency bezieht sich im Kontext von generativer KI und großen Sprachmodellen auf die Zeit, die das Modell benötigt, um auf einen bestimmten Prompt zu reagieren. Es ist die Verzögerung zwischen dem Absenden eines Prompts und dem Empfang der generierten Ausgabe. Eine niedrigere Latency zeigt schnellere Antwortzeiten an, was für Echtzeitanwendungen, Chatbots und interaktive Erfahrungen entscheidend ist. Faktoren, die die Latency beeinflussen können, sind die Modellgröße, Hardwarefähigkeiten, Netzwerkbedingungen und die Komplexität des Prompts und der generierten Antwort.
Large Language Models (LLMs) sind KI-Sprachmodelle mit vielen Parametern, die in der Lage sind, eine Vielzahl überraschend nützlicher Aufgaben auszuführen. Diese Modelle werden auf riesigen Mengen von Textdaten trainiert und können menschenähnliche Texte generieren, Fragen beantworten, Informationen zusammenfassen und vieles mehr. Claude ist ein Gesprächsassistent, der auf einem großen Sprachmodell basiert, das mit RLHF fine-tuned und trainiert wurde, um hilfreicher, ehrlicher und harmloser zu sein.
Model Context Protocol (MCP) ist ein offenes Protokoll, das standardisiert, wie Anwendungen Kontext für LLMs bereitstellen. Wie ein USB-C-Anschluss für KI-Anwendungen bietet MCP eine einheitliche Möglichkeit, KI-Modelle mit verschiedenen Datenquellen und Tools zu verbinden. MCP ermöglicht es KI-Systemen, einen konsistenten Kontext über Interaktionen hinweg zu bewahren und auf externe Ressourcen auf standardisierte Weise zuzugreifen. Siehe unsere MCP-Dokumentation, um mehr zu erfahren.
Der MCP connector ist eine Funktion, die API-Benutzern ermöglicht, sich direkt von der Messages API aus mit MCP-Servern zu verbinden, ohne einen MCP-Client zu erstellen. Dies ermöglicht eine nahtlose Integration mit MCP-kompatiblen Tools und Services über die Claude API. Der MCP connector unterstützt Funktionen wie Tool Calling und ist in der Beta-Phase verfügbar. Siehe die MCP-Connector-Dokumentation, um mehr zu erfahren.
Pretraining ist der anfängliche Prozess des Trainings von Sprachmodellen auf einem großen, nicht beschrifteten Textkorpus. Im Fall von Claude werden autoregressive Sprachmodelle (wie Claudes zugrunde liegendes Modell) vortrainiert, um das nächste Wort vorherzusagen, gegeben den vorherigen Kontext des Textes im Dokument. Diese vortrainierten Modelle sind nicht von Natur aus gut darin, Fragen zu beantworten oder Anweisungen zu befolgen, und erfordern oft tiefe Fähigkeiten im Prompt Engineering, um gewünschte Verhaltensweisen hervorzurufen. Fine-tuning und RLHF werden verwendet, um diese vortrainierten Modelle zu verfeinern und sie für eine breite Palette von Aufgaben nützlicher zu machen.
Retrieval augmented generation (RAG) ist eine Technik, die Informationsbeschaffung mit der Generierung von Sprachmodellen kombiniert, um die Genauigkeit und Relevanz des generierten Textes zu verbessern und die Antwort des Modells besser in Evidenz zu verankern. Bei RAG wird ein Sprachmodell mit einer externen Wissensdatenbank oder einer Reihe von Dokumenten erweitert, die in das Context window übergeben werden. Die Daten werden zur Laufzeit abgerufen, wenn eine Abfrage an das Modell gesendet wird, obwohl das Modell selbst die Daten nicht unbedingt abruft (aber mit Tool Use und einer Abruffunktion kann). Bei der Textgenerierung müssen zunächst relevante Informationen aus der Wissensdatenbank basierend auf dem Eingabeprompt abgerufen und dann zusammen mit der ursprünglichen Abfrage an das Modell übergeben werden. Das Modell nutzt diese Informationen, um die Ausgabe zu lenken, die es generiert. Dies ermöglicht es dem Modell, auf Informationen zuzugreifen und diese zu nutzen, die über seine Trainingsdaten hinausgehen, wodurch die Abhängigkeit von Memorisierung verringert wird und die faktische Genauigkeit des generierten Textes verbessert wird. RAG kann besonders nützlich für Aufgaben sein, die aktuelle Informationen, domänenspezifisches Wissen oder explizite Quellenangaben erfordern. Die Effektivität von RAG hängt jedoch von der Qualität und Relevanz der externen Wissensdatenbank und des Wissens ab, das zur Laufzeit abgerufen wird.
Reinforcement Learning from Human Feedback (RLHF) ist eine Technik, die verwendet wird, um ein vortrainiertes Sprachmodell so zu trainieren, dass es sich auf eine Weise verhält, die mit menschlichen Vorlieben übereinstimmt. Dies kann dem Modell helfen, Anweisungen effektiver zu befolgen oder sich mehr wie ein Chatbot zu verhalten. Menschliches Feedback besteht darin, zwei oder mehr Beispieltexte zu bewerten, und der Reinforcement-Learning-Prozess ermutigt das Modell, Ausgaben zu bevorzugen, die den höher bewerteten ähnlich sind. Claude wurde mit RLHF trainiert, um ein hilfreicher Assistent zu sein. Weitere Details finden Sie in Anthropics Papier zu diesem Thema.
Temperature ist ein Parameter, der die Zufälligkeit der Vorhersagen eines Modells während der Textgenerierung steuert. Höhere Temperaturen führen zu kreativeren und vielfältigeren Ausgaben und ermöglichen mehrere Variationen in der Formulierung und im Fall von Fiktion auch Variationen in den Antworten. Niedrigere Temperaturen führen zu konservativeren und deterministischeren Ausgaben, die sich an die wahrscheinlichste Formulierung und Antworten halten. Durch die Anpassung der Temperature können Benutzer ein Sprachmodell dazu ermutigen, seltene, ungewöhnliche oder überraschende Wortwahlmöglichkeiten und Sequenzen zu erkunden, anstatt nur die wahrscheinlichsten Vorhersagen auszuwählen.
Benutzer können auf Nicht-Determinismus in APIs stoßen. Selbst wenn die Temperature auf 0 gesetzt ist, sind die Ergebnisse nicht vollständig deterministisch und identische Eingaben können über API-Aufrufe hinweg unterschiedliche Ausgaben erzeugen. Dies gilt sowohl für Anthropics First-Party-Inferenzdienst als auch für Inferenzen über Third-Party-Cloud-Provider.
Time to First Token (TTFT) ist eine Leistungsmetrik, die die Zeit misst, die ein Sprachmodell benötigt, um das erste Token seiner Ausgabe zu generieren, nachdem es einen Prompt erhalten hat. Es ist ein wichtiger Indikator für die Reaktionsfähigkeit des Modells und ist besonders relevant für interaktive Anwendungen, Chatbots und Echtzeitsysteme, bei denen Benutzer schnelles initiales Feedback erwarten. Ein niedrigeres TTFT zeigt an, dass das Modell schneller mit der Generierung einer Antwort beginnen kann und ein nahtloseres und ansprechenderes Benutzererlebnis bietet. Faktoren, die TTFT beeinflussen können, sind die Modellgröße, Hardwarefähigkeiten, Netzwerkbedingungen und die Komplexität des Prompts.
Tokens sind die kleinsten einzelnen Einheiten eines Sprachmodells und können Wörtern, Subwörtern, Zeichen oder sogar Bytes (im Fall von Unicode) entsprechen. Für Claude stellt ein Token ungefähr 3,5 englische Zeichen dar, obwohl die genaue Anzahl je nach verwendeter Sprache variieren kann. Tokens sind normalerweise verborgen, wenn mit Sprachmodellen auf der „Text"-Ebene interagiert wird, werden aber relevant, wenn die genauen Eingaben und Ausgaben eines Sprachmodells untersucht werden. Wenn Claude Text zur Bewertung bereitgestellt wird, wird der Text (bestehend aus einer Reihe von Zeichen) in eine Reihe von Tokens für das Modell zur Verarbeitung kodiert. Größere Tokens ermöglichen Dateneffizienz während der Inferenz und des Pretrainings (und werden wenn möglich genutzt), während kleinere Tokens es einem Modell ermöglichen, ungewöhnliche oder noch nie zuvor gesehene Wörter zu verarbeiten. Die Wahl der Tokenisierungsmethode kann die Leistung des Modells, die Vokabulargröße und die Fähigkeit, mit Wörtern außerhalb des Vokabulars umzugehen, beeinflussen.
Was this page helpful?