La "ventana de contexto" se refiere a la cantidad de texto que un modelo de lenguaje puede revisar y referenciar al generar texto nuevo. Esto es diferente del gran corpus de datos con el que se entrenó el modelo de lenguaje, y en su lugar representa una "memoria de trabajo" para el modelo. Una ventana de contexto más grande permite que el modelo entienda y responda a indicaciones más complejas y extensas, mientras que una ventana de contexto más pequeña puede limitar la capacidad del modelo para manejar indicaciones más largas o mantener coherencia en conversaciones extendidas.
Consulta nuestra guía para entender las ventanas de contexto para obtener más información.
El ajuste fino es el proceso de entrenar aún más un modelo de lenguaje preentrenado utilizando datos adicionales. Esto hace que el modelo comience a representar e imitar los patrones y características del conjunto de datos de ajuste fino. Claude no es un modelo de lenguaje básico; ya ha sido ajustado para ser un asistente útil. Nuestra API actualmente no ofrece ajuste fino, pero por favor contacta a tu representante de Anthropic si estás interesado en explorar esta opción. El ajuste fino puede ser útil para adaptar un modelo de lenguaje a un dominio específico, tarea o estilo de escritura, pero requiere una consideración cuidadosa de los datos de ajuste fino y el impacto potencial en el rendimiento y sesgos del modelo.
Estas tres H representan los objetivos de Anthropic para asegurar que Claude sea beneficioso para la sociedad:
Was this page helpful?
La latencia, en el contexto de la IA generativa y los modelos de lenguaje grandes, se refiere al tiempo que tarda el modelo en responder a un indicador dado. Es el retraso entre enviar un indicador y recibir la salida generada. Una latencia más baja indica tiempos de respuesta más rápidos, lo cual es crucial para aplicaciones en tiempo real, chatbots y experiencias interactivas. Los factores que pueden afectar la latencia incluyen el tamaño del modelo, las capacidades del hardware, las condiciones de la red y la complejidad del indicador y la respuesta generada.
Los modelos de lenguaje grandes (LLMs) son modelos de lenguaje de IA con muchos parámetros que son capaces de realizar una variedad de tareas sorprendentemente útiles. Estos modelos se entrenan en vastas cantidades de datos de texto y pueden generar texto similar al humano, responder preguntas, resumir información y más. Claude es un asistente conversacional basado en un modelo de lenguaje grande que ha sido ajustado y entrenado usando RLHF para ser más útil, honesto e inofensivo.
El Protocolo de Contexto del Modelo (MCP) es un protocolo abierto que estandariza cómo las aplicaciones proporcionan contexto a los LLMs. Como un puerto USB-C para aplicaciones de IA, MCP proporciona una forma unificada de conectar modelos de IA a diferentes fuentes de datos y herramientas. MCP permite que los sistemas de IA mantengan contexto consistente entre interacciones y accedan a recursos externos de manera estandarizada. Consulta nuestra documentación de MCP para obtener más información.
El conector MCP es una característica que permite a los usuarios de la API conectarse a servidores MCP directamente desde la API de Mensajes sin construir un cliente MCP. Esto permite la integración sin problemas con herramientas y servicios compatibles con MCP a través de la API de Claude. El conector MCP admite características como llamadas de herramientas y está disponible en beta pública. Consulta nuestra documentación del conector MCP para obtener más información.
El preentrenamiento es el proceso inicial de entrenar modelos de lenguaje en un gran corpus de texto sin etiquetar. En el caso de Claude, los modelos de lenguaje autorregresivos (como el modelo subyacente de Claude) se preentrenan para predecir la siguiente palabra, dado el contexto anterior del texto en el documento. Estos modelos preentrenados no son inherentemente buenos para responder preguntas o seguir instrucciones, y a menudo requieren una habilidad profunda en ingeniería de indicadores para obtener los comportamientos deseados. El ajuste fino y RLHF se utilizan para refinar estos modelos preentrenados, haciéndolos más útiles para una amplia gama de tareas.
La generación aumentada por recuperación (RAG) es una técnica que combina la recuperación de información con la generación de modelos de lenguaje para mejorar la precisión y relevancia del texto generado, y para fundamentar mejor la respuesta del modelo en evidencia. En RAG, un modelo de lenguaje se aumenta con una base de conocimiento externa o un conjunto de documentos que se pasa a la ventana de contexto. Los datos se recuperan en tiempo de ejecución cuando se envía una consulta al modelo, aunque el modelo en sí no necesariamente recupera los datos (pero puede hacerlo con uso de herramientas y una función de recuperación). Al generar texto, primero se debe recuperar información relevante de la base de conocimiento basada en el indicador de entrada, y luego pasarla al modelo junto con la consulta original. El modelo utiliza esta información para guiar la salida que genera. Esto permite que el modelo acceda y utilice información más allá de sus datos de entrenamiento, reduciendo la dependencia de la memorización y mejorando la precisión factual del texto generado. RAG puede ser particularmente útil para tareas que requieren información actualizada, conocimiento específico del dominio o citas explícitas de fuentes. Sin embargo, la efectividad de RAG depende de la calidad y relevancia de la base de conocimiento externa y del conocimiento que se recupera en tiempo de ejecución.
El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) es una técnica utilizada para entrenar un modelo de lenguaje preentrenado para que se comporte de maneras consistentes con las preferencias humanas. Esto puede incluir ayudar al modelo a seguir instrucciones de manera más efectiva o actuar más como un chatbot. La retroalimentación humana consiste en clasificar un conjunto de dos o más textos de ejemplo, y el proceso de aprendizaje por refuerzo anima al modelo a preferir salidas que sean similares a las clasificadas más alto. Claude ha sido entrenado usando RLHF para ser un asistente más útil. Para más detalles, puedes leer el artículo de Anthropic sobre el tema.
La temperatura es un parámetro que controla la aleatoriedad de las predicciones de un modelo durante la generación de texto. Las temperaturas más altas conducen a salidas más creativas y diversas, permitiendo múltiples variaciones en la redacción y, en el caso de la ficción, variación en las respuestas también. Las temperaturas más bajas resultan en salidas más conservadoras y deterministas que se adhieren a la redacción y respuestas más probables. Ajustar la temperatura permite a los usuarios alentar a un modelo de lenguaje a explorar opciones de palabras y secuencias raras, inusuales o sorprendentes, en lugar de solo seleccionar las predicciones más probables.
Los usuarios pueden encontrar no determinismo en las APIs. Incluso con la temperatura establecida en 0, los resultados no serán completamente deterministas e inputs idénticos pueden producir outputs diferentes en llamadas a la API. Esto se aplica tanto al servicio de inferencia de primera parte de Anthropic como a la inferencia a través de proveedores de nube de terceros.
Tiempo al Primer Token (TTFT) es una métrica de rendimiento que mide el tiempo que tarda un modelo de lenguaje en generar el primer token de su salida después de recibir un indicador. Es un indicador importante de la capacidad de respuesta del modelo y es particularmente relevante para aplicaciones interactivas, chatbots y sistemas en tiempo real donde los usuarios esperan una retroalimentación inicial rápida. Un TTFT más bajo indica que el modelo puede comenzar a generar una respuesta más rápidamente, proporcionando una experiencia de usuario más fluida y atractiva. Los factores que pueden influir en TTFT incluyen el tamaño del modelo, las capacidades del hardware, las condiciones de la red y la complejidad del indicador.
Los tokens son las unidades individuales más pequeñas de un modelo de lenguaje, y pueden corresponder a palabras, subpalabras, caracteres o incluso bytes (en el caso de Unicode). Para Claude, un token aproximadamente representa 3.5 caracteres en inglés, aunque el número exacto puede variar dependiendo del idioma utilizado. Los tokens típicamente están ocultos cuando se interactúa con modelos de lenguaje a nivel de "texto" pero se vuelven relevantes cuando se examinan los inputs y outputs exactos de un modelo de lenguaje. Cuando a Claude se le proporciona texto para evaluar, el texto (que consiste en una serie de caracteres) se codifica en una serie de tokens para que el modelo procese. Los tokens más grandes permiten eficiencia de datos durante la inferencia y el preentrenamiento (y se utilizan cuando es posible), mientras que los tokens más pequeños permiten que un modelo maneje palabras inusuales o nunca antes vistas. La elección del método de tokenización puede impactar el rendimiento del modelo, el tamaño del vocabulario y la capacidad de manejar palabras fuera del vocabulario.