「コンテキストウィンドウ」とは、言語モデルが新しいテキストを生成する際に参照できるテキストの量を指します。これは言語モデルが訓練された大規模なデータコーパスとは異なり、モデルの「ワーキングメモリ」を表します。コンテキストウィンドウが大きいほど、モデルはより複雑で長いプロンプトを理解して応答できますが、コンテキストウィンドウが小さいと、長いプロンプトの処理や長い会話にわたる一貫性の維持が制限される場合があります。
詳しくはコンテキストウィンドウの理解ガイドをご覧ください。
ファインチューニングとは、事前学習済みの言語モデルを追加データを使用してさらに訓練するプロセスです。これにより、モデルはファインチューニングデータセットのパターンや特性を表現し模倣するようになります。Claudeは素の言語モデルではなく、すでに有用なアシスタントとなるようファインチューニングされています。現在、当社のAPIではファインチューニングを提供していませんが、このオプションの検討に興味がある場合はAnthropicの担当者にお問い合わせください。ファインチューニングは、言語モデルを特定のドメイン、タスク、または文体に適応させるのに役立ちますが、ファインチューニングデータとモデルのパフォーマンスやバイアスへの潜在的な影響を慎重に検討する必要があります。
これら3つのHは、Claudeが社会にとって有益であることを確保するためのAnthropicの目標を表しています:
生成AIおよび大規模言語モデルの文脈におけるレイテンシとは、モデルが与えられたプロンプトに応答するまでにかかる時間を指します。プロンプトを送信してから生成された出力を受け取るまでの遅延です。レイテンシが低いほど応答時間が速いことを示し、これはリアルタイムアプリケーション、チャットボット、インタラクティブな体験にとって重要です。レイテンシに影響を与える要因には、モデルのサイズ、ハードウェアの性能、ネットワーク状況、プロンプトと生成される応答の複雑さなどがあります。
大規模言語モデル(LLM)は、多くのパラメータを持つAI言語モデルであり、驚くほど有用なさまざまなタスクを実行できます。これらのモデルは膨大な量のテキストデータで訓練され、人間のようなテキストの生成、質問への回答、情報の要約などが可能です。Claudeは、RLHFを使用してファインチューニングおよび訓練され、より有用で、正直で、無害になるよう調整された大規模言語モデルに基づく会話型アシスタントです。
Model Context Protocol(MCP)は、アプリケーションがLLMにコンテキストを提供する方法を標準化するオープンプロトコルです。AIアプリケーション向けのUSB-Cポートのように、MCPはAIモデルをさまざまなデータソースやツールに接続するための統一された方法を提供します。MCPにより、AIシステムはインタラクション間で一貫したコンテキストを維持し、標準化された方法で外部リソースにアクセスできます。詳しくはMCPドキュメントをご覧ください。
MCPコネクタは、APIユーザーがMCPクライアントを構築することなく、Messages APIから直接MCPサーバーに接続できる機能です。これにより、Claude APIを通じてMCP対応のツールやサービスとのシームレスな統合が可能になります。MCPコネクタはツール呼び出しなどの機能をサポートしており、パブリックベータで利用可能です。詳しくはMCPコネクタのドキュメントをご覧ください。
事前学習とは、大規模なラベルなしテキストコーパスで言語モデルを最初に訓練するプロセスです。Claudeの場合、自己回帰言語モデル(Claudeの基盤モデルのような)は、ドキュメント内の前のテキストのコンテキストが与えられた場合に次の単語を予測するよう事前学習されます。これらの事前学習済みモデルは、本質的に質問への回答や指示に従うことが得意ではなく、望ましい動作を引き出すためにプロンプトエンジニアリングの深い技術が必要になることが多いです。ファインチューニングとRLHFは、これらの事前学習済みモデルを改良し、幅広いタスクにより有用にするために使用されます。
検索拡張生成(RAG)は、情報検索と言語モデルの生成を組み合わせて、生成されるテキストの精度と関連性を向上させ、モデルの応答をエビデンスにより適切に基づかせる技術です。RAGでは、言語モデルが外部の知識ベースまたはコンテキストウィンドウに渡されるドキュメントのセットで拡張されます。データはモデルにクエリが送信された実行時に取得されますが、モデル自体が必ずしもデータを取得するわけではありません(ただし、ツール使用と検索関数を使用すれば可能です)。テキストを生成する際、まず入力プロンプトに基づいて知識ベースから関連情報を取得し、元のクエリとともにモデルに渡す必要があります。モデルはこの情報を使用して生成する出力をガイドします。これにより、モデルは訓練データを超えた情報にアクセスして活用でき、記憶への依存を減らし、生成されるテキストの事実の正確性を向上させます。RAGは、最新の情報、ドメイン固有の知識、またはソースの明示的な引用が必要なタスクに特に有用です。ただし、RAGの有効性は、外部知識ベースの品質と関連性、および実行時に取得される知識に依存します。
人間のフィードバックからの強化学習(RLHF)は、事前学習済みの言語モデルを人間の好みに一致する方法で動作するよう訓練するために使用される技術です。これには、モデルがより効果的に指示に従うようにしたり、よりチャットボットのように振る舞うようにしたりすることが含まれます。人間のフィードバックは、2つ以上のサンプルテキストのセットをランク付けすることで構成され、強化学習プロセスは、より高くランク付けされたものに類似した出力をモデルが好むよう促します。Claudeは、より有用なアシスタントとなるようRLHFを使用して訓練されています。詳細については、このテーマに関するAnthropicの論文をお読みください。
Temperatureは、テキスト生成時のモデルの予測のランダム性を制御するパラメータです。高いtemperatureはより創造的で多様な出力をもたらし、表現のバリエーションや、フィクションの場合は回答のバリエーションも可能にします。低いtemperatureは、最も確率の高い表現や回答に固執する、より保守的で決定論的な出力をもたらします。temperatureを調整することで、ユーザーは言語モデルに対して、最も可能性の高い予測のみを選択するのではなく、珍しい、一般的でない、または意外な単語の選択やシーケンスを探索するよう促すことができます。
ユーザーはAPIで非決定性に遭遇する場合があります。temperatureを0に設定しても、結果は完全に決定論的にはならず、同一の入力でもAPI呼び出しごとに異なる出力が生成される可能性があります。これは、Anthropicのファーストパーティ推論サービスと、サードパーティのクラウドプロバイダーを通じた推論の両方に当てはまります。
最初のトークンまでの時間(TTFT)は、言語モデルがプロンプトを受け取ってから出力の最初のトークンを生成するまでにかかる時間を測定するパフォーマンス指標です。モデルの応答性の重要な指標であり、ユーザーが迅速な初期フィードバックを期待するインタラクティブなアプリケーション、チャットボット、リアルタイムシステムに特に関連します。TTFTが低いほど、モデルがより速く応答の生成を開始でき、よりシームレスで魅力的なユーザー体験を提供できることを示します。TTFTに影響を与える要因には、モデルのサイズ、ハードウェアの性能、ネットワーク状況、プロンプトの複雑さなどがあります。
トークンは言語モデルの最小の個別単位であり、単語、サブワード、文字、またはバイト(Unicodeの場合)に対応できます。Claudeの場合、1トークンは約3.5英語文字に相当しますが、正確な数は使用する言語によって異なります。トークンは通常、「テキスト」レベルで言語モデルとやり取りする際には隠されていますが、言語モデルの正確な入力と出力を調べる際に関連性が出てきます。Claudeに評価するテキストが提供されると、テキスト(一連の文字で構成される)はモデルが処理するための一連のトークンにエンコードされます。大きなトークンは推論と事前学習時のデータ効率を可能にし(可能な場合に利用されます)、小さなトークンはモデルが珍しい単語や未知の単語を処理できるようにします。トークン化方法の選択は、モデルのパフォーマンス、語彙サイズ、および語彙外の単語を処理する能力に影響を与える可能性があります。
Was this page helpful?