「コンテキストウィンドウ」とは、言語モデルが新しいテキストを生成する際に参照できる、遡って確認できるテキストの量を指します。これは言語モデルが訓練された大規模なデータコーパスとは異なり、モデルの「作業メモリ」を表します。より大きなコンテキストウィンドウにより、モデルはより複雑で長いプロンプトを理解して応答できるようになりますが、より小さなコンテキストウィンドウはモデルが長いプロンプトを処理したり、拡張された会話全体で一貫性を保つ能力を制限する可能性があります。
詳細については、コンテキストウィンドウの理解に関するガイドを参照してください。
ファインチューニングは、追加のデータを使用して事前訓練された言語モデルをさらに訓練するプロセスです。これにより、モデルはファインチューニングデータセットのパターンと特性を表現および模倣し始めます。Claudeは単なる言語モデルではなく、すでに有用なアシスタントになるようにファインチューニングされています。当社のAPIは現在ファインチューニングを提供していませんが、このオプションの検討に関心がある場合はAnthropicの担当者にお問い合わせください。ファインチューニングは言語モデルを特定のドメイン、タスク、または執筆スタイルに適応させるのに役立つ場合がありますが、ファインチューニングデータと、モデルのパフォーマンスおよびバイアスへの潜在的な影響を慎重に検討する必要があります。
これら3つのHは、Claudeが社会に有益であることを確保するためのAnthropicの目標を表しています。
生成AIおよび大規模言語モデルの文脈におけるレイテンシとは、モデルが与えられたプロンプトに応答するのにかかる時間を指します。これはプロンプトを送信してから生成された出力を受け取るまでの遅延です。レイテンシが低いほど応答時間が速くなり、これはリアルタイムアプリケーション、チャットボット、およびインタラクティブな体験にとって重要です。レイテンシに影響を与える可能性のある要因には、モデルサイズ、ハードウェア機能、ネットワーク条件、およびプロンプトと生成された応答の複雑さが含まれます。
大規模言語モデル(LLM)は、多くのパラメータを持つAI言語モデルであり、驚くほど有用なさまざまなタスクを実行できます。これらのモデルは膨大な量のテキストデータで訓練され、人間のようなテキストを生成し、質問に答え、情報を要約するなどができます。Claudeは、RLHFを使用して訓練および微調整された大規模言語モデルに基づく会話型アシスタントであり、より有用で正直で無害になるようにされています。
モデルコンテキストプロトコル(MCP)は、アプリケーションがLLMにコンテキストを提供する方法を標準化するオープンプロトコルです。AIアプリケーション用のUSB-Cポートのように、MCPはAIモデルをさまざまなデータソースとツールに接続する統一された方法を提供します。MCPにより、AIシステムはインタラクション全体で一貫したコンテキストを維持し、標準化された方法で外部リソースにアクセスできます。詳細については、MCPドキュメントを参照してください。
MCPコネクタは、APIユーザーがMCPクライアントを構築することなく、Messages APIから直接MCPサーバーに接続できる機能です。これにより、Claude APIを通じてMCP互換のツールおよびサービスとのシームレスな統合が可能になります。MCPコネクタはツール呼び出しなどの機能をサポートしており、ベータ版で利用可能です。詳細については、MCPコネクタドキュメントを参照してください。
事前訓練は、大規模なラベルなしテキストコーパスで言語モデルを訓練する初期プロセスです。Claudeの場合、自己回帰言語モデル(Claudeの基礎となるモデルのような)は、ドキュメント内のテキストの前のコンテキストが与えられた場合に次の単語を予測するために事前訓練されます。これらの事前訓練されたモデルは本質的に質問に答えたり指示に従ったりするのに優れていないため、多くの場合、望ましい動作を引き出すためにプロンプトエンジニアリングの深いスキルが必要です。ファインチューニングとRLHFは、これらの事前訓練されたモデルを改善し、幅広いタスクに対してより有用にするために使用されます。
検索拡張生成(RAG)は、情報検索と言語モデル生成を組み合わせて、生成されたテキストの精度と関連性を向上させ、モデルの応答をより良く証拠に基づかせるテクニックです。RAGでは、言語モデルは外部ナレッジベースまたはコンテキストウィンドウに渡されるドキュメントのセットで拡張されます。データはクエリがモデルに送信されるときに実行時に取得されますが、モデル自体は必ずしもデータを取得しません(ただしツール使用と検索関数で取得できます)。テキストを生成する場合、入力プロンプトに基づいてナレッジベースから関連情報を最初に取得し、その後元のクエリと共にモデルに渡す必要があります。モデルはこの情報を使用して、生成する出力をガイドします。これにより、モデルは訓練データを超えた情報にアクセスして利用でき、暗記への依存を減らし、生成されたテキストの事実精度を向上させることができます。RAGは、最新の情報、ドメイン固有の知識、またはソースの明示的な引用が必要なタスクに特に役立つ場合があります。ただし、RAGの有効性は外部ナレッジベースの品質と関連性、および実行時に取得される知識に依存します。
人間フィードバックからの強化学習(RLHF)は、事前訓練された言語モデルを人間の好みと一致する方法で動作するように訓練するために使用されるテクニックです。これには、モデルが指示をより効果的に従うのを支援したり、チャットボットのようにより動作したりするのを含めることができます。人間フィードバックは2つ以上のサンプルテキストのセットをランク付けすることで構成され、強化学習プロセスはモデルがより高くランク付けされたものと同様の出力を優先するよう促します。Claudeはより有用なアシスタントになるようにRLHFを使用して訓練されています。詳細については、このテーマに関するAnthropicの論文を読むことができます。
温度は、テキスト生成中のモデルの予測のランダム性を制御するパラメータです。より高い温度はより創造的で多様な出力につながり、フレーズの複数のバリエーション、および小説の場合は回答のバリエーションも可能になります。より低い温度はより保守的で決定論的な出力をもたらし、最も可能性の高いフレーズと回答に固執します。温度を調整することで、ユーザーは言語モデルに最も可能性の高い予測のみを選択するのではなく、珍しい、一般的でない、または驚くべき単語の選択とシーケンスを探索するよう促すことができます。
ユーザーはAPI内で非決定性に遭遇する可能性があります。温度が0に設定されている場合でも、結果は完全に決定論的ではなく、同じ入力がAPI呼び出し全体で異なる出力を生成する可能性があります。これはAnthropicのファーストパーティ推論サービスとサードパーティクラウドプロバイダーを通じた推論の両方に適用されます。
最初のトークンまでの時間(TTFT)は、言語モデルがプロンプトを受け取った後に出力の最初のトークンを生成するのにかかる時間を測定するパフォーマンスメトリックです。これはモデルの応答性の重要な指標であり、ユーザーが迅速な初期フィードバックを期待するインタラクティブアプリケーション、チャットボット、およびリアルタイムシステムに特に関連しています。TTFTが低いほど、モデルはより速く応答の生成を開始でき、より円滑で魅力的なユーザー体験を提供します。TTFTに影響を与える可能性のある要因には、モデルサイズ、ハードウェア機能、ネットワーク条件、およびプロンプトの複雑さが含まれます。
トークンは言語モデルの最小の個別単位であり、単語、部分単語、文字、またはバイト(Unicodeの場合)に対応できます。Claudeの場合、トークンはおよそ3.5の英語文字を表しますが、正確な数は使用される言語によって異なる場合があります。トークンは通常、言語モデルと「テキスト」レベルでインタラクションするときは隠されていますが、言語モデルの正確な入力と出力を検査するときに関連性が生じます。Claudeにテキストを評価するために提供される場合、テキスト(一連の文字で構成される)はモデルが処理するための一連のトークンにエンコードされます。より大きなトークンは推論と事前訓練中のデータ効率を可能にし(可能な場合は利用されます)、より小さなトークンはモデルが一般的でない、またはこれまで見たことのない単語を処理できるようにします。トークン化方法の選択は、モデルのパフォーマンス、語彙サイズ、および語彙外の単語を処理する能力に影響を与える可能性があります。
Was this page helpful?