El "context window" (ventana de contexto) se refiere a la cantidad de texto que un modelo de lenguaje puede revisar y referenciar al generar texto nuevo. Esto es diferente del gran corpus de datos con el que se entrenó el modelo de lenguaje, y en su lugar representa una "memoria de trabajo" para el modelo. Una ventana de contexto más grande permite que el modelo comprenda y responda a indicaciones más complejas y extensas, mientras que una ventana de contexto más pequeña puede limitar la capacidad del modelo para manejar indicaciones más largas o mantener coherencia en conversaciones extendidas.
Consulta nuestra guía para entender las ventanas de contexto para obtener más información.
El "fine-tuning" (ajuste fino) es el proceso de entrenar aún más un modelo de lenguaje preentrenado utilizando datos adicionales. Esto hace que el modelo comience a representar e imitar los patrones y características del conjunto de datos de fine-tuning. Claude no es un modelo de lenguaje básico; ya ha sido ajustado para ser un asistente útil. Nuestra API actualmente no ofrece fine-tuning, pero por favor contacta a tu representante de Anthropic si estás interesado en explorar esta opción. El fine-tuning puede ser útil para adaptar un modelo de lenguaje a un dominio específico, tarea o estilo de escritura, pero requiere una consideración cuidadosa de los datos de fine-tuning y el impacto potencial en el rendimiento y los sesgos del modelo.
Estas tres H representan los objetivos de Anthropic para asegurar que Claude sea beneficioso para la sociedad:
La "latency" (latencia), en el contexto de la IA generativa y los modelos de lenguaje grandes, se refiere al tiempo que tarda el modelo en responder a una indicación dada. Es el retraso entre enviar una indicación y recibir la salida generada. Una latencia más baja indica tiempos de respuesta más rápidos, lo cual es crucial para aplicaciones en tiempo real, chatbots y experiencias interactivas. Los factores que pueden afectar la latencia incluyen el tamaño del modelo, las capacidades del hardware, las condiciones de la red y la complejidad de la indicación y la respuesta generada.
Los "large language models" (modelos de lenguaje grandes), o LLMs, son modelos de lenguaje de IA con muchos parámetros que son capaces de realizar una variedad de tareas sorprendentemente útiles. Estos modelos se entrenan con grandes cantidades de datos de texto y pueden generar texto similar al humano, responder preguntas, resumir información y más. Claude es un asistente conversacional basado en un modelo de lenguaje grande que ha sido ajustado y entrenado usando RLHF para ser más útil, honesto e inofensivo.
"Model Context Protocol", o MCP, es un protocolo abierto que estandariza cómo las aplicaciones proporcionan contexto a los LLMs. Como un puerto USB-C para aplicaciones de IA, MCP proporciona una forma unificada de conectar modelos de IA a diferentes fuentes de datos y herramientas. MCP permite que los sistemas de IA mantengan un contexto consistente a lo largo de las interacciones y accedan a recursos externos de manera estandarizada. Consulta nuestra documentación de MCP para obtener más información.
El conector MCP es una función que permite a los usuarios de la API conectarse a servidores MCP directamente desde la Messages API sin necesidad de construir un cliente MCP. Esto permite una integración fluida con herramientas y servicios compatibles con MCP a través de la API de Claude. El conector MCP admite funciones como la llamada a herramientas y está disponible en versión beta. Consulta la documentación del conector MCP para obtener más información.
El "pretraining" (preentrenamiento) es el proceso inicial de entrenar modelos de lenguaje en un gran corpus de texto sin etiquetar. En el caso de Claude, los modelos de lenguaje autorregresivos (como el modelo subyacente de Claude) se preentrenan para predecir la siguiente palabra, dado el contexto previo de texto en el documento. Estos modelos preentrenados no son inherentemente buenos para responder preguntas o seguir instrucciones, y a menudo requieren una gran habilidad en ingeniería de prompts para obtener los comportamientos deseados. El fine-tuning y el RLHF se utilizan para refinar estos modelos preentrenados, haciéndolos más útiles para una amplia gama de tareas.
"Retrieval augmented generation" (generación aumentada por recuperación), o RAG, es una técnica que combina la recuperación de información con la generación de modelos de lenguaje para mejorar la precisión y relevancia del texto generado, y para fundamentar mejor la respuesta del modelo en evidencia. En RAG, un modelo de lenguaje se complementa con una base de conocimiento externa o un conjunto de documentos que se pasa a la ventana de contexto. Los datos se recuperan en tiempo de ejecución cuando se envía una consulta al modelo, aunque el modelo en sí no necesariamente recupera los datos (pero puede hacerlo con el uso de herramientas y una función de recuperación). Al generar texto, primero se debe recuperar información relevante de la base de conocimiento según la indicación de entrada, y luego pasarla al modelo junto con la consulta original. El modelo utiliza esta información para guiar la salida que genera. Esto permite que el modelo acceda y utilice información más allá de sus datos de entrenamiento, reduciendo la dependencia de la memorización y mejorando la precisión factual del texto generado. RAG puede ser particularmente útil para tareas que requieren información actualizada, conocimiento específico de un dominio o citación explícita de fuentes. Sin embargo, la efectividad de RAG depende de la calidad y relevancia de la base de conocimiento externa y del conocimiento que se recupera en tiempo de ejecución.
"Reinforcement Learning from Human Feedback" (aprendizaje por refuerzo a partir de retroalimentación humana), o RLHF, es una técnica utilizada para entrenar un modelo de lenguaje preentrenado para que se comporte de maneras consistentes con las preferencias humanas. Esto puede incluir ayudar al modelo a seguir instrucciones de manera más efectiva o actuar más como un chatbot. La retroalimentación humana consiste en clasificar un conjunto de dos o más textos de ejemplo, y el proceso de aprendizaje por refuerzo alienta al modelo a preferir salidas que sean similares a las mejor clasificadas. Claude ha sido entrenado usando RLHF para ser un asistente más útil. Para más detalles, puedes leer el artículo de Anthropic sobre el tema.
La "temperature" (temperatura) es un parámetro que controla la aleatoriedad de las predicciones de un modelo durante la generación de texto. Temperaturas más altas conducen a salidas más creativas y diversas, permitiendo múltiples variaciones en la redacción y, en el caso de la ficción, variación en las respuestas también. Temperaturas más bajas resultan en salidas más conservadoras y deterministas que se apegan a la redacción y respuestas más probables. Ajustar la temperatura permite a los usuarios alentar a un modelo de lenguaje a explorar elecciones y secuencias de palabras raras, poco comunes o sorprendentes, en lugar de seleccionar solo las predicciones más probables.
Los usuarios pueden encontrar no determinismo en las APIs. Incluso con la temperatura establecida en 0, los resultados no serán completamente deterministas y entradas idénticas pueden producir salidas diferentes entre llamadas a la API. Esto aplica tanto al servicio de inferencia propio de Anthropic como a la inferencia a través de proveedores de nube de terceros.
"Time to First Token" (tiempo hasta el primer token), o TTFT, es una métrica de rendimiento que mide el tiempo que tarda un modelo de lenguaje en generar el primer token de su salida después de recibir una indicación. Es un indicador importante de la capacidad de respuesta del modelo y es particularmente relevante para aplicaciones interactivas, chatbots y sistemas en tiempo real donde los usuarios esperan una retroalimentación inicial rápida. Un TTFT más bajo indica que el modelo puede comenzar a generar una respuesta más rápido, proporcionando una experiencia de usuario más fluida y atractiva. Los factores que pueden influir en el TTFT incluyen el tamaño del modelo, las capacidades del hardware, las condiciones de la red y la complejidad de la indicación.
Los tokens son las unidades individuales más pequeñas de un modelo de lenguaje, y pueden corresponder a palabras, subpalabras, caracteres o incluso bytes (en el caso de Unicode). Para Claude, un token representa aproximadamente 3.5 caracteres en inglés, aunque el número exacto puede variar según el idioma utilizado. Los tokens generalmente están ocultos al interactuar con modelos de lenguaje a nivel de "texto", pero se vuelven relevantes al examinar las entradas y salidas exactas de un modelo de lenguaje. Cuando se proporciona texto a Claude para evaluar, el texto (que consiste en una serie de caracteres) se codifica en una serie de tokens para que el modelo lo procese. Los tokens más grandes permiten eficiencia de datos durante la inferencia y el preentrenamiento (y se utilizan cuando es posible), mientras que los tokens más pequeños permiten que un modelo maneje palabras poco comunes o nunca antes vistas. La elección del método de tokenización puede afectar el rendimiento del modelo, el tamaño del vocabulario y la capacidad de manejar palabras fuera del vocabulario.
Was this page helpful?