「context window」(コンテキストウィンドウ)とは、言語モデルが新しいテキストを生成する際に参照できる、遡って確認できるテキストの量を指します。これは言語モデルが訓練された大規模なデータコーパスとは異なり、モデルの「作業メモリ」を表します。より大きなコンテキストウィンドウにより、モデルはより複雑で長いプロンプトを理解して応答できるようになりますが、より小さなコンテキストウィンドウはモデルが長いプロンプトを処理したり、長時間の会話全体で一貫性を保つ能力を制限する可能性があります。
詳細については、コンテキストウィンドウの理解に関するガイドを参照してください。
「fine-tuning」(ファインチューニング)は、追加のデータを使用して事前訓練された言語モデルをさらに訓練するプロセスです。これにより、モデルはファインチューニングデータセットのパターンと特性を表現および模倣し始めます。Claudeは単なる言語モデルではなく、すでに有用なアシスタントになるようにファインチューニングされています。当社のAPIは現在ファインチューニングを提供していませんが、このオプションの検討に関心がある場合はAnthropicの担当者にお問い合わせください。ファインチューニングは言語モデルを特定のドメイン、タスク、または執筆スタイルに適応させるのに役立つ場合がありますが、ファインチューニングデータと、モデルのパフォーマンスおよびバイアスへの潜在的な影響を慎重に検討する必要があります。
これら3つのHは、Claudeが社会に有益であることを確保するためのAnthropicの目標を表しています。
生成AIおよび大規模言語モデルの文脈における「latency」(レイテンシ)とは、モデルが与えられたプロンプトに応答するのにかかる時間を指します。これはプロンプトを送信してから生成された出力を受け取るまでの遅延です。レイテンシが低いほど応答時間が速くなり、これはリアルタイムアプリケーション、チャットボット、およびインタラクティブな体験にとって重要です。レイテンシに影響を与える可能性のある要因には、モデルサイズ、ハードウェア機能、ネットワーク条件、およびプロンプトと生成された応答の複雑さが含まれます。
「large language model」(大規模言語モデル)、すなわちLLMは、多くのパラメータを持つAI言語モデルで、驚くほど有用なさまざまなタスクを実行できます。これらのモデルは膨大な量のテキストデータで訓練されており、人間のようなテキストを生成したり、質問に答えたり、情報を要約したりできます。ClaudeはLLMをベースにした対話型アシスタントで、RLHFを用いてファインチューニングおよび訓練され、より有用で、正直で、無害なものになっています。
「Model Context Protocol」、すなわちMCPは、アプリケーションがLLMにコンテキストを提供する方法を標準化するオープンプロトコルです。AIアプリケーション向けのUSB-Cポートのように、MCPはAIモデルをさまざまなデータソースやツールに接続するための統一された手段を提供します。MCPにより、AIシステムはインタラクション全体で一貫したコンテキストを維持し、標準化された方法で外部リソースにアクセスできます。詳細については、MCPドキュメントを参照してください。
MCPコネクタは、APIユーザーがMCPクライアントを構築することなく、Messages APIから直接MCPサーバーに接続できる機能です。これにより、Claude APIを通じてMCP互換のツールやサービスとのシームレスな統合が可能になります。MCPコネクタはツール呼び出しなどの機能をサポートしており、ベータ版として利用可能です。詳細については、MCPコネクタのドキュメントを参照してください。
「pretraining」(事前訓練)は、ラベル付けされていない大規模なテキストコーパスで言語モデルを訓練する初期プロセスです。Claudeの場合、自己回帰言語モデル(Claudeの基盤となるモデルなど)は、ドキュメント内の前のテキストコンテキストを与えられた上で次の単語を予測するように事前訓練されています。これらの事前訓練されたモデルは、本質的に質問への回答や指示への従順さに優れているわけではなく、望ましい動作を引き出すためにはプロンプトエンジニアリングの深いスキルが必要になることがよくあります。ファインチューニングとRLHFは、これらの事前訓練されたモデルを改良し、幅広いタスクでより有用なものにするために使用されます。
「retrieval augmented generation」(検索拡張生成)、すなわちRAGは、情報検索と言語モデル生成を組み合わせて、生成されたテキストの正確性と関連性を向上させ、モデルの応答をより確実に根拠に基づかせる手法です。RAGでは、言語モデルは外部の知識ベースまたはコンテキストウィンドウに渡されるドキュメントのセットで拡張されます。データはクエリがモデルに送信されたときに実行時に取得されますが、モデル自体が必ずしもデータを取得するわけではありません(ただし、ツール使用と検索関数を使用すれば可能です)。テキストを生成する際、まず入力プロンプトに基づいて知識ベースから関連情報を取得し、元のクエリとともにモデルに渡す必要があります。モデルはこの情報を使用して、生成する出力を導きます。これにより、モデルは訓練データを超えた情報にアクセスして活用でき、記憶への依存を減らし、生成されたテキストの事実の正確性を向上させます。RAGは、最新の情報、ドメイン固有の知識、または出典の明示的な引用を必要とするタスクに特に有用です。ただし、RAGの有効性は、外部知識ベースの品質と関連性、および実行時に取得される知識に依存します。
「reinforcement learning from human feedback」(人間のフィードバックによる強化学習)、すなわちRLHFは、事前訓練された言語モデルを人間の好みと一致する方法で動作するように訓練するために使用される手法です。これには、モデルがより効果的に指示に従うようにしたり、よりチャットボットのように動作させたりすることが含まれます。人間のフィードバックは、2つ以上のサンプルテキストのセットをランク付けすることで構成され、強化学習プロセスは、より高くランク付けされたものに類似した出力をモデルが好むように促します。Claudeは、より有用なアシスタントになるようにRLHFを使用して訓練されています。詳細については、このテーマに関するAnthropicの論文をお読みください。
「temperature」(温度)は、テキスト生成中のモデルの予測のランダム性を制御するパラメータです。温度が高いほど、より創造的で多様な出力が得られ、言い回しに複数のバリエーションが可能になり、フィクションの場合は回答にもバリエーションが生まれます。温度が低いほど、より保守的で決定論的な出力が得られ、最も可能性の高い言い回しと回答に固執します。温度を調整することで、ユーザーは言語モデルに、最も可能性の高い予測のみを選択するのではなく、まれな、珍しい、または驚くような単語の選択やシーケンスを探索するよう促すことができます。
ユーザーはAPIで非決定性に遭遇する場合があります。温度を0に設定しても、結果は完全に決定論的にはならず、同一の入力でもAPI呼び出しごとに異なる出力が生成される可能性があります。これは、Anthropicのファーストパーティ推論サービスと、サードパーティのクラウドプロバイダーを通じた推論の両方に適用されます。
「time to first token」(最初のトークンまでの時間)、すなわちTTFTは、言語モデルがプロンプトを受け取ってから出力の最初のトークンを生成するまでにかかる時間を測定するパフォーマンス指標です。これはモデルの応答性の重要な指標であり、ユーザーが迅速な初期フィードバックを期待するインタラクティブアプリケーション、チャットボット、およびリアルタイムシステムに特に関連します。TTFTが低いほど、モデルがより速く応答の生成を開始できることを示し、よりシームレスで魅力的なユーザー体験を提供します。TTFTに影響を与える可能性のある要因には、モデルサイズ、ハードウェア機能、ネットワーク条件、およびプロンプトの複雑さが含まれます。
「token」(トークン)は言語モデルの最小の個別単位であり、単語、サブワード、文字、またはバイト(Unicodeの場合)に対応することがあります。Claudeの場合、1トークンは約3.5英字に相当しますが、正確な数は使用される言語によって異なる場合があります。トークンは通常、「テキスト」レベルで言語モデルと対話する際には隠されていますが、言語モデルの正確な入力と出力を調べる際に関連してきます。Claudeに評価するテキストが提供されると、テキスト(一連の文字で構成される)はモデルが処理するために一連のトークンにエンコードされます。より大きなトークンは推論および事前訓練中のデータ効率を可能にし(可能な場合に利用されます)、より小さなトークンはモデルが珍しい単語や未知の単語を処理できるようにします。トークン化方法の選択は、モデルのパフォーマンス、語彙サイズ、および語彙外の単語を処理する能力に影響を与える可能性があります。
Was this page helpful?