Glossar

Context window

Das „Context window" bezieht sich auf die Menge an Text, auf die ein Sprachmodell zurückblicken und verweisen kann, wenn es neuen Text generiert. Dies unterscheidet sich vom großen Datenbestand, auf dem das Sprachmodell trainiert wurde, und stellt stattdessen einen „Arbeitsspeicher" für das Modell dar. Ein größeres Context window ermöglicht es dem Modell, komplexere und längere Eingabeaufforderungen zu verstehen und darauf zu reagieren, während ein kleineres Context window die Fähigkeit des Modells, längere Eingabeaufforderungen zu verarbeiten oder die Kohärenz über längere Gespräche hinweg zu bewahren, einschränken kann.

Siehe unseren Leitfaden zum Verständnis von Context Windows, um mehr zu erfahren.

Fine-tuning

Fine-tuning ist der Prozess des weiteren Trainings eines vortrainierten Sprachmodells mit zusätzlichen Daten. Dies führt dazu, dass das Modell beginnt, die Muster und Merkmale des Fine-tuning-Datensatzes darzustellen und nachzuahmen. Claude ist kein reines Sprachmodell; es wurde bereits fine-tuned, um ein hilfreicher Assistent zu sein. Unsere API bietet derzeit kein Fine-tuning an, aber bitte kontaktieren Sie Ihren Anthropic-Ansprechpartner, wenn Sie daran interessiert sind, diese Option zu erkunden. Fine-tuning kann nützlich sein, um ein Sprachmodell an eine bestimmte Domäne, Aufgabe oder einen bestimmten Schreibstil anzupassen, erfordert aber eine sorgfältige Überlegung der Fine-tuning-Daten und der möglichen Auswirkungen auf die Leistung und Verzerrungen des Modells.

HHH

Diese drei H's stellen Anthropics Ziele dar, um sicherzustellen, dass Claude der Gesellschaft zugute kommt:

Ein hilfreicher KI wird versuchen, die Aufgabe auszuführen oder die gestellte Frage nach besten Kräften zu beantworten und relevante und nützliche Informationen bereitzustellen.
Eine ehrliche KI wird genaue Informationen geben und nicht halluzinieren oder konfabulieren. Sie wird ihre Grenzen und Unsicherheiten angemessen anerkennen.
Eine harmlose KI wird nicht beleidigend oder diskriminierend sein, und wenn sie aufgefordert wird, bei einer gefährlichen oder unethischen Handlung zu helfen, sollte die KI höflich ablehnen und erklären, warum sie nicht zustimmen kann.

Latency

Latency bezieht sich im Kontext von generativer KI und großen Sprachmodellen auf die Zeit, die das Modell benötigt, um auf eine gegebene Eingabeaufforderung zu reagieren. Es ist die Verzögerung zwischen dem Absenden einer Eingabeaufforderung und dem Empfang der generierten Ausgabe. Eine niedrigere Latency deutet auf schnellere Antwortzeiten hin, was für Echtzeitanwendungen, Chatbots und interaktive Erfahrungen entscheidend ist. Faktoren, die die Latency beeinflussen können, sind die Modellgröße, Hardwarefunktionen, Netzwerkbedingungen und die Komplexität der Eingabeaufforderung und der generierten Antwort.

LLM

Large Language Models (LLMs) sind KI-Sprachmodelle mit vielen Parametern, die eine Vielzahl überraschend nützlicher Aufgaben ausführen können. Diese Modelle werden auf großen Mengen von Textdaten trainiert und können menschenähnliche Texte generieren, Fragen beantworten, Informationen zusammenfassen und vieles mehr. Claude ist ein Konversationsassistent, der auf einem großen Sprachmodell basiert, das mit RLHF fine-tuned und trainiert wurde, um hilfreicher, ehrlicher und harmloser zu sein.

MCP (Model Context Protocol)

Model Context Protocol (MCP) ist ein offenes Protokoll, das standardisiert, wie Anwendungen Kontext für LLMs bereitstellen. Wie ein USB-C-Anschluss für KI-Anwendungen bietet MCP eine einheitliche Möglichkeit, KI-Modelle mit verschiedenen Datenquellen und Tools zu verbinden. MCP ermöglicht es KI-Systemen, einen konsistenten Kontext über Interaktionen hinweg zu bewahren und auf externe Ressourcen auf standardisierte Weise zuzugreifen. Siehe unsere MCP-Dokumentation, um mehr zu erfahren.

MCP connector

Der MCP connector ist eine Funktion, die es API-Benutzern ermöglicht, sich direkt von der Messages API aus mit MCP-Servern zu verbinden, ohne einen MCP-Client zu erstellen. Dies ermöglicht eine nahtlose Integration mit MCP-kompatiblen Tools und Services über die Claude API. Der MCP connector unterstützt Funktionen wie Tool Calling und ist in öffentlicher Beta verfügbar. Siehe unsere MCP-Connector-Dokumentation, um mehr zu erfahren.

Pretraining

Pretraining ist der anfängliche Prozess des Trainings von Sprachmodellen auf einem großen, nicht gekennzeichneten Textkorpus. Im Fall von Claude werden autoregressive Sprachmodelle (wie Claudes zugrunde liegendes Modell) vortrainiert, um das nächste Wort vorherzusagen, gegeben den vorherigen Kontext des Textes im Dokument. Diese vortrainierten Modelle sind nicht von Natur aus gut darin, Fragen zu beantworten oder Anweisungen zu befolgen, und erfordern oft tiefe Fähigkeiten im Prompt Engineering, um gewünschte Verhaltensweisen hervorzurufen. Fine-tuning und RLHF werden verwendet, um diese vortrainierten Modelle zu verfeinern und sie für eine breite Palette von Aufgaben nützlicher zu machen.

RAG (Retrieval augmented generation)

Retrieval augmented generation (RAG) ist eine Technik, die Informationsbeschaffung mit Sprachmodellgenerierung kombiniert, um die Genauigkeit und Relevanz des generierten Textes zu verbessern und die Antwort des Modells besser in Evidenz zu verankern. Bei RAG wird ein Sprachmodell mit einer externen Wissensdatenbank oder einer Reihe von Dokumenten erweitert, die in das Context window übergeben werden. Die Daten werden zur Laufzeit abgerufen, wenn eine Abfrage an das Modell gesendet wird, obwohl das Modell selbst die Daten nicht unbedingt abruft (aber mit Tool Use und einer Abruffunktion kann). Bei der Textgenerierung müssen zunächst relevante Informationen aus der Wissensdatenbank basierend auf der Eingabeaufforderung abgerufen und dann zusammen mit der ursprünglichen Abfrage an das Modell übergeben werden. Das Modell nutzt diese Informationen, um die Ausgabe zu lenken, die es generiert. Dies ermöglicht es dem Modell, auf Informationen zuzugreifen und diese zu nutzen, die über seine Trainingsdaten hinausgehen, wodurch die Abhängigkeit von Memorisierung verringert und die faktische Genauigkeit des generierten Textes verbessert wird. RAG kann besonders nützlich für Aufgaben sein, die aktuelle Informationen, domänenspezifisches Wissen oder explizite Quellenangaben erfordern. Die Effektivität von RAG hängt jedoch von der Qualität und Relevanz der externen Wissensdatenbank und des Wissens ab, das zur Laufzeit abgerufen wird.

RLHF

Reinforcement Learning from Human Feedback (RLHF) ist eine Technik, die verwendet wird, um ein vortrainiertes Sprachmodell so zu trainieren, dass es sich auf eine Weise verhält, die mit menschlichen Vorlieben übereinstimmt. Dies kann dem Modell helfen, Anweisungen effektiver zu befolgen oder sich mehr wie ein Chatbot zu verhalten. Menschliches Feedback besteht darin, eine Reihe von zwei oder mehr Beispieltexten zu bewerten, und der Reinforcement-Learning-Prozess ermutigt das Modell, Ausgaben zu bevorzugen, die den höher bewerteten ähnlich sind. Claude wurde mit RLHF trainiert, um ein hilfreicher Assistent zu sein. Weitere Details finden Sie in Anthropics Papier zu diesem Thema.

Temperature

Temperature ist ein Parameter, der die Zufälligkeit der Vorhersagen eines Modells während der Textgenerierung steuert. Höhere Temperaturen führen zu kreativeren und vielfältigeren Ausgaben und ermöglichen mehrere Variationen in der Formulierung und im Fall von Fiktion auch Variationen in den Antworten. Niedrigere Temperaturen führen zu konservativeren und deterministischeren Ausgaben, die sich an die wahrscheinlichste Formulierung und Antworten halten. Durch die Anpassung der Temperature können Benutzer ein Sprachmodell dazu ermutigen, seltene, ungewöhnliche oder überraschende Wortwahlmöglichkeiten und Sequenzen zu erkunden, anstatt nur die wahrscheinlichsten Vorhersagen auszuwählen.

Benutzer können auf Nicht-Determinismus in APIs stoßen. Selbst wenn die Temperature auf 0 eingestellt ist, sind die Ergebnisse nicht vollständig deterministisch und identische Eingaben können über API-Aufrufe hinweg unterschiedliche Ausgaben erzeugen. Dies gilt sowohl für Anthropics First-Party-Inferenzdienst als auch für Inferenzen über Cloud-Provider von Drittanbietern.

TTFT (Time to first token)

Time to First Token (TTFT) ist eine Leistungsmetrik, die die Zeit misst, die ein Sprachmodell benötigt, um das erste Token seiner Ausgabe zu generieren, nachdem es eine Eingabeaufforderung erhalten hat. Es ist ein wichtiger Indikator für die Reaktionsfähigkeit des Modells und ist besonders relevant für interaktive Anwendungen, Chatbots und Echtzeitssysteme, in denen Benutzer schnelles initiales Feedback erwarten. Ein niedrigeres TTFT zeigt an, dass das Modell schneller mit der Generierung einer Antwort beginnen kann und ein nahtloseres und ansprechenderes Benutzererlebnis bietet. Faktoren, die TTFT beeinflussen können, sind die Modellgröße, Hardwarefunktionen, Netzwerkbedingungen und die Komplexität der Eingabeaufforderung.

Tokens

Tokens sind die kleinsten einzelnen Einheiten eines Sprachmodells und können Wörtern, Subwörtern, Zeichen oder sogar Bytes (im Fall von Unicode) entsprechen. Für Claude stellt ein Token ungefähr 3,5 englische Zeichen dar, obwohl die genaue Anzahl je nach verwendeter Sprache variieren kann. Tokens sind normalerweise verborgen, wenn mit Sprachmodellen auf der „Text"-Ebene interagiert wird, werden aber relevant, wenn die genauen Eingaben und Ausgaben eines Sprachmodells untersucht werden. Wenn Claude Text zur Bewertung bereitgestellt wird, wird der Text (bestehend aus einer Reihe von Zeichen) in eine Reihe von Tokens für das Modell zur Verarbeitung kodiert. Größere Tokens ermöglichen Dateneffizienz während Inferenz und Pretraining (und werden wenn möglich genutzt), während kleinere Tokens es einem Modell ermöglichen, ungewöhnliche oder noch nie zuvor gesehene Wörter zu verarbeiten. Die Wahl der Tokenisierungsmethode kann die Leistung des Modells, die Vokabulargröße und die Fähigkeit, mit Wörtern außerhalb des Vokabulars umzugehen, beeinflussen.