La « context window » (fenêtre de contexte) fait référence à la quantité de texte qu'un modèle de langage peut consulter et référencer lors de la génération de nouveau texte. Ceci est différent du grand corpus de données sur lequel le modèle de langage a été entraîné, et représente plutôt une « mémoire de travail » pour le modèle. Une fenêtre de contexte plus grande permet au modèle de comprendre et de répondre à des prompts plus complexes et plus longs, tandis qu'une fenêtre de contexte plus petite peut limiter la capacité du modèle à traiter des prompts plus longs ou à maintenir la cohérence sur des conversations prolongées.
Consultez notre guide pour comprendre les fenêtres de contexte pour en savoir plus.
Le « fine-tuning » (ajustement fin) est le processus d'entraînement supplémentaire d'un modèle de langage préentraîné en utilisant des données supplémentaires. Cela amène le modèle à commencer à représenter et imiter les modèles et caractéristiques de l'ensemble de données d'ajustement fin. Claude n'est pas un modèle de langage brut ; il a déjà été ajusté finement pour être un assistant utile. Notre API n'offre actuellement pas d'ajustement fin, mais veuillez contacter votre contact Anthropic si vous êtes intéressé par l'exploration de cette option. L'ajustement fin peut être utile pour adapter un modèle de langage à un domaine, une tâche ou un style d'écriture spécifique, mais il nécessite une considération attentive des données d'ajustement fin et de l'impact potentiel sur les performances et les biais du modèle.
Ces trois H représentent les objectifs d'Anthropic pour s'assurer que Claude est bénéfique pour la société :
La « latency » (latence), dans le contexte de l'IA générative et des grands modèles de langage, fait référence au temps qu'il faut au modèle pour répondre à un prompt donné. C'est le délai entre la soumission d'un prompt et la réception de la sortie générée. Une latence plus faible indique des temps de réponse plus rapides, ce qui est crucial pour les applications en temps réel, les chatbots et les expériences interactives. Les facteurs qui peuvent affecter la latence incluent la taille du modèle, les capacités matérielles, les conditions du réseau et la complexité du prompt et de la réponse générée.
Les « large language models » (grands modèles de langage), ou LLM, sont des modèles de langage d'IA dotés de nombreux paramètres, capables d'exécuter une variété de tâches étonnamment utiles. Ces modèles sont entraînés sur de vastes quantités de données textuelles et peuvent générer du texte semblable à celui d'un humain, répondre à des questions, résumer des informations, et bien plus encore. Claude est un assistant conversationnel basé sur un grand modèle de langage qui a été ajusté finement et entraîné à l'aide du RLHF pour être plus utile, honnête et inoffensif.
Le « Model Context Protocol », ou MCP, est un protocole ouvert qui standardise la manière dont les applications fournissent du contexte aux LLM. Tel un port USB-C pour les applications d'IA, MCP offre un moyen unifié de connecter les modèles d'IA à différentes sources de données et outils. MCP permet aux systèmes d'IA de maintenir un contexte cohérent au fil des interactions et d'accéder à des ressources externes de manière standardisée. Consultez notre documentation MCP pour en savoir plus.
Le connecteur MCP est une fonctionnalité qui permet aux utilisateurs de l'API de se connecter à des serveurs MCP directement depuis l'API Messages sans avoir à créer un client MCP. Cela permet une intégration transparente avec les outils et services compatibles MCP via l'API Claude. Le connecteur MCP prend en charge des fonctionnalités telles que l'appel d'outils et est disponible en version bêta. Consultez la documentation du connecteur MCP pour en savoir plus.
Le « pretraining » (préentraînement) est le processus initial d'entraînement des modèles de langage sur un grand corpus de texte non étiqueté. Dans le cas de Claude, les modèles de langage autorégressifs (comme le modèle sous-jacent de Claude) sont préentraînés pour prédire le mot suivant, compte tenu du contexte précédent du texte dans le document. Ces modèles préentraînés ne sont pas intrinsèquement bons pour répondre aux questions ou suivre des instructions, et nécessitent souvent une expertise approfondie en ingénierie de prompts pour obtenir les comportements souhaités. L'ajustement fin et le RLHF sont utilisés pour affiner ces modèles préentraînés, les rendant plus utiles pour un large éventail de tâches.
La « retrieval augmented generation » (génération augmentée par récupération), ou RAG, est une technique qui combine la récupération d'informations avec la génération par modèle de langage pour améliorer l'exactitude et la pertinence du texte généré, et pour mieux ancrer la réponse du modèle dans des preuves. Dans le RAG, un modèle de langage est augmenté d'une base de connaissances externe ou d'un ensemble de documents qui est transmis dans la fenêtre de contexte. Les données sont récupérées au moment de l'exécution lorsqu'une requête est envoyée au modèle, bien que le modèle lui-même ne récupère pas nécessairement les données (mais peut le faire avec l'utilisation d'outils et une fonction de récupération). Lors de la génération de texte, les informations pertinentes doivent d'abord être récupérées de la base de connaissances en fonction du prompt d'entrée, puis transmises au modèle avec la requête originale. Le modèle utilise ces informations pour guider la sortie qu'il génère. Cela permet au modèle d'accéder à des informations au-delà de ses données d'entraînement et de les utiliser, réduisant ainsi la dépendance à la mémorisation et améliorant l'exactitude factuelle du texte généré. Le RAG peut être particulièrement utile pour les tâches qui nécessitent des informations à jour, des connaissances spécifiques à un domaine ou la citation explicite de sources. Cependant, l'efficacité du RAG dépend de la qualité et de la pertinence de la base de connaissances externe et des connaissances récupérées au moment de l'exécution.
Le « Reinforcement Learning from Human Feedback » (apprentissage par renforcement à partir de rétroaction humaine), ou RLHF, est une technique utilisée pour entraîner un modèle de langage préentraîné à se comporter de manière cohérente avec les préférences humaines. Cela peut inclure aider le modèle à suivre les instructions plus efficacement ou à agir davantage comme un chatbot. La rétroaction humaine consiste à classer un ensemble de deux textes d'exemple ou plus, et le processus d'apprentissage par renforcement encourage le modèle à préférer les sorties similaires à celles les mieux classées. Claude a été entraîné à l'aide du RLHF pour être un assistant plus utile. Pour plus de détails, vous pouvez lire l'article d'Anthropic sur le sujet.
La « temperature » (température) est un paramètre qui contrôle le caractère aléatoire des prédictions d'un modèle lors de la génération de texte. Des températures plus élevées conduisent à des sorties plus créatives et diversifiées, permettant de multiples variations dans la formulation et, dans le cas de la fiction, des variations dans les réponses également. Des températures plus basses produisent des sorties plus conservatrices et déterministes qui s'en tiennent aux formulations et réponses les plus probables. L'ajustement de la température permet aux utilisateurs d'encourager un modèle de langage à explorer des choix et des séquences de mots rares, inhabituels ou surprenants, plutôt que de sélectionner uniquement les prédictions les plus probables.
Les utilisateurs peuvent rencontrer du non-déterminisme dans les API. Même avec une température réglée à 0, les résultats ne seront pas entièrement déterministes et des entrées identiques peuvent produire des sorties différentes d'un appel d'API à l'autre. Cela s'applique à la fois au service d'inférence propriétaire d'Anthropic et à l'inférence via des fournisseurs cloud tiers.
Le « Time to First Token » (temps jusqu'au premier token), ou TTFT, est une métrique de performance qui mesure le temps nécessaire à un modèle de langage pour générer le premier token de sa sortie après avoir reçu un prompt. C'est un indicateur important de la réactivité du modèle et il est particulièrement pertinent pour les applications interactives, les chatbots et les systèmes en temps réel où les utilisateurs attendent un retour initial rapide. Un TTFT plus faible indique que le modèle peut commencer à générer une réponse plus rapidement, offrant une expérience utilisateur plus fluide et engageante. Les facteurs qui peuvent influencer le TTFT incluent la taille du modèle, les capacités matérielles, les conditions du réseau et la complexité du prompt.
Les « tokens » (jetons) sont les plus petites unités individuelles d'un modèle de langage et peuvent correspondre à des mots, des sous-mots, des caractères ou même des octets (dans le cas d'Unicode). Pour Claude, un token représente approximativement 3,5 caractères anglais, bien que le nombre exact puisse varier selon la langue utilisée. Les tokens sont généralement masqués lors de l'interaction avec les modèles de langage au niveau « texte », mais deviennent pertinents lors de l'examen des entrées et sorties exactes d'un modèle de langage. Lorsque Claude reçoit du texte à évaluer, le texte (constitué d'une série de caractères) est encodé en une série de tokens que le modèle doit traiter. Des tokens plus grands permettent une efficacité des données lors de l'inférence et du préentraînement (et sont utilisés lorsque c'est possible), tandis que des tokens plus petits permettent à un modèle de gérer des mots peu courants ou jamais vus auparavant. Le choix de la méthode de tokenisation peut avoir un impact sur les performances du modèle, la taille du vocabulaire et la capacité à gérer les mots hors vocabulaire.
Was this page helpful?