Recursos

Glossário

Esses conceitos não são únicos aos modelos de linguagem da Anthropic, mas apresentamos um breve resumo dos termos-chave abaixo.

Context window

O "context window" refere-se à quantidade de texto que um modelo de linguagem pode consultar e referenciar ao gerar novo texto. Isso é diferente do grande corpus de dados em que o modelo de linguagem foi treinado e, em vez disso, representa uma "memória de trabalho" para o modelo. Um context window maior permite que o modelo compreenda e responda a prompts mais complexos e longos, enquanto um context window menor pode limitar a capacidade do modelo de lidar com prompts mais longos ou manter coerência em conversas estendidas.

Consulte nosso guia para entender context windows para saber mais.

Fine-tuning

Fine-tuning é o processo de treinar ainda mais um modelo de linguagem pré-treinado usando dados adicionais. Isso faz com que o modelo comece a representar e imitar os padrões e características do conjunto de dados de fine-tuning. Claude não é um modelo de linguagem puro; já foi ajustado para ser um assistente útil. Nossa API não oferece atualmente fine-tuning, mas entre em contato com seu representante da Anthropic se estiver interessado em explorar essa opção. Fine-tuning pode ser útil para adaptar um modelo de linguagem a um domínio, tarefa ou estilo de escrita específico, mas requer consideração cuidadosa dos dados de fine-tuning e do impacto potencial no desempenho e vieses do modelo.

HHH

Esses três H's representam os objetivos da Anthropic em garantir que Claude seja benéfico para a sociedade:

Uma IA útil tentará executar a tarefa ou responder à pergunta formulada da melhor forma possível, fornecendo informações relevantes e úteis.
Uma IA honesta fornecerá informações precisas e não alucinará ou confabulará. Ela reconhecerá suas limitações e incertezas quando apropriado.
Uma IA inofensiva não será ofensiva ou discriminatória, e quando solicitada a auxiliar em um ato perigoso ou antiético, a IA deve recusar educadamente e explicar por que não pode cumprir.

Latency

Latency, no contexto de IA generativa e modelos de linguagem grandes, refere-se ao tempo que leva para o modelo responder a um prompt fornecido. É o atraso entre enviar um prompt e receber a saída gerada. Latency mais baixa indica tempos de resposta mais rápidos, o que é crucial para aplicações em tempo real, chatbots e experiências interativas. Fatores que podem afetar a latency incluem tamanho do modelo, capacidades de hardware, condições de rede e a complexidade do prompt e da resposta gerada.

LLM

Modelos de linguagem grandes (LLMs) são modelos de linguagem de IA com muitos parâmetros que são capazes de executar uma variedade de tarefas surpreendentemente úteis. Esses modelos são treinados em grandes quantidades de dados de texto e podem gerar texto semelhante ao humano, responder perguntas, resumir informações e muito mais. Claude é um assistente conversacional baseado em um modelo de linguagem grande que foi ajustado e treinado usando RLHF para ser mais útil, honesto e inofensivo.

MCP (Model Context Protocol)

Model Context Protocol (MCP) é um protocolo aberto que padroniza como os aplicativos fornecem contexto aos LLMs. Como uma porta USB-C para aplicações de IA, MCP fornece uma forma unificada de conectar modelos de IA a diferentes fontes de dados e ferramentas. MCP permite que sistemas de IA mantenham contexto consistente entre interações e acessem recursos externos de forma padronizada. Consulte nossa documentação do MCP para saber mais.

MCP connector

O MCP connector é um recurso que permite que usuários da API se conectem aos servidores MCP diretamente da Messages API sem construir um cliente MCP. Isso permite integração perfeita com ferramentas e serviços compatíveis com MCP através da Claude API. O MCP connector suporta recursos como chamada de ferramentas e está disponível em beta público. Consulte nossa documentação do MCP connector para saber mais.

Pretraining

Pretraining é o processo inicial de treinar modelos de linguagem em um grande corpus não rotulado de texto. No caso do Claude, modelos de linguagem autorregressivos (como o modelo subjacente do Claude) são pré-treinados para prever a próxima palavra, dado o contexto anterior do texto no documento. Esses modelos pré-treinados não são inerentemente bons em responder perguntas ou seguir instruções, e frequentemente requerem habilidade profunda em engenharia de prompts para eliciar comportamentos desejados. Fine-tuning e RLHF são usados para refinar esses modelos pré-treinados, tornando-os mais úteis para uma ampla gama de tarefas.

RAG (Retrieval augmented generation)

Retrieval augmented generation (RAG) é uma técnica que combina recuperação de informações com geração de modelo de linguagem para melhorar a precisão e relevância do texto gerado e para fundamentar melhor a resposta do modelo em evidências. Em RAG, um modelo de linguagem é aumentado com uma base de conhecimento externa ou um conjunto de documentos que é passado para o context window. Os dados são recuperados em tempo de execução quando uma consulta é enviada ao modelo, embora o modelo em si não necessariamente recupere os dados (mas pode com tool use e uma função de recuperação). Ao gerar texto, informações relevantes devem primeiro ser recuperadas da base de conhecimento com base no prompt de entrada e, em seguida, passadas ao modelo junto com a consulta original. O modelo usa essas informações para guiar a saída que gera. Isso permite que o modelo acesse e utilize informações além de seus dados de treinamento, reduzindo a dependência de memorização e melhorando a precisão factual do texto gerado. RAG pode ser particularmente útil para tarefas que requerem informações atualizadas, conhecimento específico do domínio ou citação explícita de fontes. No entanto, a eficácia do RAG depende da qualidade e relevância da base de conhecimento externa e do conhecimento que é recuperado em tempo de execução.

RLHF

Reinforcement Learning from Human Feedback (RLHF) é uma técnica usada para treinar um modelo de linguagem pré-treinado para se comportar de maneiras consistentes com as preferências humanas. Isso pode incluir ajudar o modelo a seguir instruções de forma mais eficaz ou agir mais como um chatbot. O feedback humano consiste em classificar um conjunto de dois ou mais textos de exemplo, e o processo de aprendizado por reforço incentiva o modelo a preferir saídas semelhantes às de classificação mais alta. Claude foi treinado usando RLHF para ser um assistente mais útil. Para mais detalhes, você pode ler o artigo da Anthropic sobre o assunto.

Temperature

Temperature é um parâmetro que controla a aleatoriedade das previsões de um modelo durante a geração de texto. Temperaturas mais altas levam a saídas mais criativas e diversas, permitindo múltiplas variações em fraseado e, no caso de ficção, variação em respostas também. Temperaturas mais baixas resultam em saídas mais conservadoras e determinísticas que se aderem ao fraseado e respostas mais prováveis. Ajustar a temperature permite que os usuários incentivem um modelo de linguagem a explorar escolhas de palavras e sequências raras, incomuns ou surpreendentes, em vez de apenas selecionar as previsões mais prováveis.

Os usuários podem encontrar não-determinismo em APIs. Mesmo com temperature definida como 0, os resultados não serão totalmente determinísticos e entradas idênticas podem produzir saídas diferentes em chamadas de API. Isso se aplica tanto ao serviço de inferência de primeira parte da Anthropic quanto à inferência através de provedores de nuvem de terceiros.

TTFT (Time to first token)

Time to First Token (TTFT) é uma métrica de desempenho que mede o tempo que leva para um modelo de linguagem gerar o primeiro token de sua saída após receber um prompt. É um indicador importante da responsividade do modelo e é particularmente relevante para aplicações interativas, chatbots e sistemas em tempo real onde os usuários esperam feedback inicial rápido. Um TTFT mais baixo indica que o modelo pode começar a gerar uma resposta mais rapidamente, proporcionando uma experiência de usuário mais perfeita e envolvente. Fatores que podem influenciar TTFT incluem tamanho do modelo, capacidades de hardware, condições de rede e a complexidade do prompt.

Tokens

Tokens são as menores unidades individuais de um modelo de linguagem e podem corresponder a palavras, subpalavras, caracteres ou até bytes (no caso de Unicode). Para Claude, um token aproximadamente representa 3,5 caracteres em inglês, embora o número exato possa variar dependendo do idioma usado. Tokens são tipicamente ocultos ao interagir com modelos de linguagem no nível de "texto", mas se tornam relevantes ao examinar as entradas e saídas exatas de um modelo de linguagem. Quando Claude recebe texto para avaliar, o texto (consistindo em uma série de caracteres) é codificado em uma série de tokens para o modelo processar. Tokens maiores permitem eficiência de dados durante inferência e pretraining (e são utilizados quando possível), enquanto tokens menores permitem que um modelo lide com palavras incomuns ou nunca vistas antes. A escolha do método de tokenização pode impactar o desempenho do modelo, tamanho do vocabulário e capacidade de lidar com palavras fora do vocabulário.

Was this page helpful?