Glossario

Context window

Il "context window" si riferisce alla quantità di testo che un modello linguistico può consultare e referenziare quando genera nuovo testo. Questo è diverso dal grande corpus di dati su cui il modello linguistico è stato addestrato, e rappresenta invece una "memoria di lavoro" per il modello. Un context window più ampio consente al modello di comprendere e rispondere a prompt più complessi e lunghi, mentre un context window più piccolo può limitare la capacità del modello di gestire prompt più lunghi o mantenere la coerenza su conversazioni estese.

Consulta la nostra guida per comprendere i context window per saperne di più.

Fine-tuning

Il fine-tuning è il processo di ulteriore addestramento di un modello linguistico preaddestrato utilizzando dati aggiuntivi. Questo causa al modello di iniziare a rappresentare e imitare i modelli e le caratteristiche del dataset di fine-tuning. Claude non è un modello linguistico bare; è già stato sottoposto a fine-tuning per essere un assistente utile. La nostra API attualmente non offre fine-tuning, ma contatta il tuo referente Anthropic se sei interessato a esplorare questa opzione. Il fine-tuning può essere utile per adattare un modello linguistico a un dominio specifico, un compito o uno stile di scrittura, ma richiede una considerazione attenta dei dati di fine-tuning e del potenziale impatto sulle prestazioni e i bias del modello.

HHH

Queste tre H rappresentano gli obiettivi di Anthropic nel garantire che Claude sia vantaggioso per la società:

Un'IA utile cercherà di eseguire il compito o rispondere alla domanda posta al meglio delle sue capacità, fornendo informazioni rilevanti e utili.
Un'IA onesta fornirà informazioni accurate e non allucinazioni o confabulazioni. Riconoscerà i suoi limiti e le sue incertezze quando appropriato.
Un'IA innocua non sarà offensiva o discriminatoria, e quando le viene chiesto di aiutare in un atto pericoloso o non etico, l'IA dovrebbe educatamente rifiutare e spiegare perché non può conformarsi.

Latency

La latency, nel contesto dell'IA generativa e dei grandi modelli linguistici, si riferisce al tempo necessario al modello per rispondere a un determinato prompt. È il ritardo tra l'invio di un prompt e la ricezione dell'output generato. Una latency inferiore indica tempi di risposta più veloci, che è cruciale per applicazioni in tempo reale, chatbot ed esperienze interattive. I fattori che possono influenzare la latency includono la dimensione del modello, le capacità hardware, le condizioni di rete e la complessità del prompt e della risposta generata.

LLM

I grandi modelli linguistici (LLM) sono modelli linguistici di IA con molti parametri che sono capaci di eseguire una varietà di compiti sorprendentemente utili. Questi modelli sono addestrati su vaste quantità di dati testuali e possono generare testo simile a quello umano, rispondere a domande, riassumere informazioni e altro ancora. Claude è un assistente conversazionale basato su un grande modello linguistico che è stato sottoposto a fine-tuning e addestrato utilizzando RLHF per essere più utile, onesto e innocuo.

MCP (Model Context Protocol)

Model Context Protocol (MCP) è un protocollo aperto che standardizza il modo in cui le applicazioni forniscono contesto agli LLM. Come una porta USB-C per le applicazioni di IA, MCP fornisce un modo unificato per connettere i modelli di IA a diverse fonti di dati e strumenti. MCP consente ai sistemi di IA di mantenere un contesto coerente tra le interazioni e accedere alle risorse esterne in modo standardizzato. Consulta la nostra documentazione MCP per saperne di più.

MCP connector

L'MCP connector è una funzionalità che consente agli utenti dell'API di connettersi ai server MCP direttamente dall'API Messages senza costruire un client MCP. Questo abilita l'integrazione senza soluzione di continuità con strumenti e servizi compatibili con MCP attraverso l'API Claude. L'MCP connector supporta funzionalità come il tool calling ed è disponibile in beta pubblica. Consulta la nostra documentazione dell'MCP connector per saperne di più.

Pretraining

Il pretraining è il processo iniziale di addestramento dei modelli linguistici su un grande corpus di testo non etichettato. Nel caso di Claude, i modelli linguistici autoregressivi (come il modello sottostante di Claude) sono preaddestrati per predire la parola successiva, dato il contesto precedente del testo nel documento. Questi modelli preaddestrati non sono intrinsecamente bravi a rispondere a domande o seguire istruzioni, e spesso richiedono una profonda competenza nell'ingegneria dei prompt per elicitare i comportamenti desiderati. Il fine-tuning e l'RLHF sono utilizzati per perfezionare questi modelli preaddestrati, rendendoli più utili per un'ampia gamma di compiti.

RAG (Retrieval augmented generation)

La retrieval augmented generation (RAG) è una tecnica che combina il recupero di informazioni con la generazione di modelli linguistici per migliorare l'accuratezza e la rilevanza del testo generato, e per ancorare meglio la risposta del modello alle prove. In RAG, un modello linguistico è aumentato con una base di conoscenza esterna o un insieme di documenti che viene passato nel context window. I dati vengono recuperati al momento dell'esecuzione quando una query viene inviata al modello, anche se il modello stesso non necessariamente recupera i dati (ma può farlo con tool use e una funzione di recupero). Quando genera testo, le informazioni rilevanti devono prima essere recuperate dalla base di conoscenza in base al prompt di input, e poi passate al modello insieme alla query originale. Il modello utilizza queste informazioni per guidare l'output che genera. Questo consente al modello di accedere e utilizzare informazioni oltre i suoi dati di addestramento, riducendo la dipendenza dalla memorizzazione e migliorando l'accuratezza fattuale del testo generato. RAG può essere particolarmente utile per compiti che richiedono informazioni aggiornate, conoscenza specifica del dominio o citazione esplicita delle fonti. Tuttavia, l'efficacia di RAG dipende dalla qualità e dalla rilevanza della base di conoscenza esterna e dalla conoscenza che viene recuperata al momento dell'esecuzione.

RLHF

Reinforcement Learning from Human Feedback (RLHF) è una tecnica utilizzata per addestrare un modello linguistico preaddestrato a comportarsi in modi coerenti con le preferenze umane. Questo può includere aiutare il modello a seguire le istruzioni più efficacemente o agire più come un chatbot. Il feedback umano consiste nel classificare un insieme di due o più testi di esempio, e il processo di apprendimento per rinforzo incoraggia il modello a preferire output simili a quelli classificati più in alto. Claude è stato addestrato utilizzando RLHF per essere un assistente più utile. Per ulteriori dettagli, puoi leggere il documento di Anthropic sull'argomento.

Temperature

La temperature è un parametro che controlla la casualità delle previsioni di un modello durante la generazione di testo. Temperature più elevate portano a output più creativi e diversi, consentendo molteplici variazioni nella formulazione e, nel caso della narrativa, variazione nelle risposte pure. Temperature più basse risultano in output più conservativi e deterministici che si attengono alla formulazione e alle risposte più probabili. L'adattamento della temperature consente agli utenti di incoraggiare un modello linguistico a esplorare scelte di parole e sequenze rare, insolite o sorprendenti, piuttosto che selezionare solo le previsioni più probabili.

Gli utenti possono incontrare non-determinismo nelle API. Anche con temperature impostata a 0, i risultati non saranno completamente deterministici e input identici possono produrre output diversi tra le chiamate API. Questo si applica sia al servizio di inferenza di prima parte di Anthropic che all'inferenza attraverso provider cloud di terze parti.

TTFT (Time to first token)

Time to First Token (TTFT) è una metrica di prestazione che misura il tempo necessario a un modello linguistico per generare il primo token del suo output dopo aver ricevuto un prompt. È un indicatore importante della reattività del modello ed è particolarmente rilevante per applicazioni interattive, chatbot e sistemi in tempo reale dove gli utenti si aspettano un feedback iniziale rapido. Un TTFT inferiore indica che il modello può iniziare a generare una risposta più velocemente, fornendo un'esperienza utente più fluida e coinvolgente. I fattori che possono influenzare il TTFT includono la dimensione del modello, le capacità hardware, le condizioni di rete e la complessità del prompt.

Tokens

I token sono le più piccole unità individuali di un modello linguistico e possono corrispondere a parole, subword, caratteri o persino byte (nel caso di Unicode). Per Claude, un token rappresenta approssimativamente 3,5 caratteri inglesi, anche se il numero esatto può variare a seconda della lingua utilizzata. I token sono tipicamente nascosti quando si interagisce con modelli linguistici a livello di "testo" ma diventano rilevanti quando si esaminano gli input e gli output esatti di un modello linguistico. Quando a Claude viene fornito testo da valutare, il testo (costituito da una serie di caratteri) viene codificato in una serie di token per il modello da elaborare. Token più grandi consentono l'efficienza dei dati durante l'inferenza e il pretraining (e vengono utilizzati quando possibile), mentre token più piccoli consentono a un modello di gestire parole insolite o mai viste prima. La scelta del metodo di tokenizzazione può influenzare le prestazioni del modello, la dimensione del vocabolario e la capacità di gestire parole fuori dal vocabolario.