Loading...
  • ビルド
  • 管理
  • モデルと料金
  • クライアントSDK
  • APIリファレンス
Search...
⌘K
Log in
埋め込み
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
ビルド/モデル機能

埋め込み

テキスト埋め込みはテキストの数値表現であり、意味的類似性を測定することができます。このガイドでは、埋め込みの概要、その応用、および検索、推奨、異常検出などのタスクに埋め込みモデルを使用する方法を紹介します。

埋め込みを実装する前に

埋め込みプロバイダーを選択する際には、ニーズと好みに応じて検討できるいくつかの要因があります。

  • データセットサイズとドメイン固有性:モデルトレーニングデータセットのサイズと、埋め込みたいドメインへの関連性。一般的に、より大きいまたはより多くのドメイン固有のデータは、より良いドメイン内埋め込みを生成します
  • 推論パフォーマンス:埋め込みルックアップ速度とエンドツーエンドレイテンシー。これは大規模な本番環境デプロイメントにおいて特に重要な考慮事項です
  • カスタマイズ:プライベートデータでの継続的なトレーニングオプション、または非常に特定のドメイン向けのモデルの特殊化。これは独自の語彙でのパフォーマンスを向上させることができます

Anthropicで埋め込みを取得する方法

Anthropicは独自の埋め込みモデルを提供していません。上記のすべての考慮事項を網羅する幅広いオプションと機能を持つ埋め込みプロバイダーの1つはVoyage AIです。

Voyage AIは最先端の埋め込みモデルを作成し、金融やヘルスケアなどの特定の業界ドメイン向けのカスタマイズされたモデル、または個々の顧客向けのカスタムファインチューニングモデルを提供しています。

このガイドの残りはVoyage AIに関するものですが、特定のユースケースに最適なものを見つけるために、さまざまな埋め込みベンダーを評価する必要があります。

利用可能なモデル

Voyageは以下のテキスト埋め込みモデルの使用を推奨しています。

モデルコンテキスト長埋め込み次元説明
voyage-3-large32,0001024(デフォルト)、256、512、2048最高の汎用および多言語検索品質。詳細はブログ投稿を参照してください。
voyage-3.532,0001024(デフォルト)、256、512、2048汎用および多言語検索品質に最適化。詳細はブログ投稿を参照してください。
voyage-3.5-lite32,0001024(デフォルト)、256、512、2048レイテンシーとコストに最適化。詳細はブログ投稿を参照してください。
voyage-code-332,0001024(デフォルト)、256、512、2048コード検索に最適化。詳細はブログ投稿を参照してください。
voyage-finance-232,0001024金融検索とRAGに最適化。詳細はブログ投稿を参照してください。
voyage-law-216,0001024法律および長いコンテキスト検索とRAGに最適化。すべてのドメイン全体でパフォーマンスも向上。詳細はブログ投稿を参照してください。

さらに、以下のマルチモーダル埋め込みモデルが推奨されています。

モデルコンテキスト長埋め込み次元説明
voyage-multimodal-3320001024PDFのスクリーンショット、スライド、テーブル、図など、インターリーブされたテキストとコンテンツリッチな画像をベクトル化できるリッチなマルチモーダル埋め込みモデル。詳細はブログ投稿を参照してください。

どのテキスト埋め込みモデルを使用するか決めるのに役立つ情報をお探しですか?FAQをご覧ください。

Voyage AIの開始

Voyage埋め込みにアクセスするには:

  1. Voyage AIのウェブサイトにサインアップします
  2. APIキーを取得します
  3. 便宜上、APIキーを環境変数として設定します:
export VOYAGE_API_KEY="<your secret key>"

公式のvoyageai PythonパッケージまたはHTTPリクエストを使用して埋め込みを取得できます。詳細は以下で説明します。

Voyage Pythonライブラリ

voyageaiパッケージは以下のコマンドを使用してインストールできます:

pip install -U voyageai

その後、クライアントオブジェクトを作成して、テキストを埋め込むために使用を開始できます:

import voyageai

vo = voyageai.Client()
# This will automatically use the environment variable VOYAGE_API_KEY.
# Alternatively, you can use vo = voyageai.Client(api_key="<your secret key>")

texts = ["Sample text 1", "Sample text 2"]

result = vo.embed(texts, model="voyage-3.5", input_type="document")
print(result.embeddings[0])
print(result.embeddings[1])

result.embeddingsは2つの埋め込みベクトルのリストになり、各ベクトルは1024個の浮動小数点数を含みます。上記のコードを実行した後、2つの埋め込みが画面に出力されます:

[-0.013131560757756233, 0.019828535616397858, ...]   # embedding for "Sample text 1"
[-0.0069352793507277966, 0.020878976210951805, ...]  # embedding for "Sample text 2"

埋め込みを作成する際、embed()関数に他のいくつかの引数を指定できます。

Voyage Pythonパッケージの詳細については、Voyageドキュメントを参照してください。

Voyage HTTP API

Voyage HTTP APIをリクエストして埋め込みを取得することもできます。たとえば、ターミナルでcurlコマンドを使用してHTTPリクエストを送信できます:

curl https://api.voyageai.com/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $VOYAGE_API_KEY" \
  -d '{
    "input": ["Sample text 1", "Sample text 2"],
    "model": "voyage-3.5"
  }'

受け取るレスポンスは、埋め込みとトークン使用量を含むJSONオブジェクトです:

{
  "object": "list",
  "data": [
    {
      "embedding": [-0.013131560757756233, 0.019828535616397858 /* ... */],
      "index": 0
    },
    {
      "embedding": [-0.0069352793507277966, 0.020878976210951805 /* ... */],
      "index": 1
    }
  ],
  "model": "voyage-3.5",
  "usage": {
    "total_tokens": 10
  }
}

Voyage HTTP APIの詳細については、Voyageドキュメントを参照してください。

AWS Marketplace

Voyage埋め込みはAWS Marketplaceで利用可能です。AWSでVoyageにアクセスするための手順は、Voyage AWS Marketplaceドキュメントで利用可能です。

クイックスタート例

以下の簡潔な例は、埋め込みの使用方法を示しています。

6つのドキュメントの小さなコーパスから検索したいとします

documents = [
    "The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.",
    "Photosynthesis in plants converts light energy into glucose and produces essential oxygen.",
    "20th-century innovations, from radios to smartphones, centered on electronic advancements.",
    "Rivers provide water, irrigation, and habitat for aquatic species, vital for ecosystems.",
    "Apple's conference call to discuss fourth fiscal quarter results and business updates is scheduled for Thursday, November 2, 2023 at 2:00 p.m. PT / 5:00 p.m. ET.",
    "Shakespeare's works, like 'Hamlet' and 'A Midsummer Night's Dream,' endure in literature.",
]

まず、Voyageを使用して各ドキュメントを埋め込みベクトルに変換します

import voyageai

vo = voyageai.Client()

# Embed the documents
doc_embds = vo.embed(documents, model="voyage-3.5", input_type="document").embeddings

埋め込みにより、ベクトル空間でセマンティック検索/検索を実行できます。クエリの例が与えられた場合、

query = "When is Apple's conference call scheduled?"

次に、それを埋め込みに変換し、最近傍検索を実施して、埋め込み空間での距離に基づいて最も関連性の高いドキュメントを見つけます。

import numpy as np

# Embed the query
query_embd = vo.embed([query], model="voyage-3.5", input_type="query").embeddings[0]

# Compute the similarity
# Voyage embeddings are normalized to length 1, therefore dot-product
# and cosine similarity are the same.
similarities = np.dot(doc_embds, query_embd)

retrieved_id = np.argmax(similarities)
print(documents[retrieved_id])

input_type="document"とinput_type="query"は、それぞれドキュメントとクエリを埋め込むために使用されることに注意してください。詳細な仕様は、Voyage Pythonパッケージセクションにあります。

出力は5番目のドキュメントになり、これはクエリに最も関連性があります:

Apple's conference call to discuss fourth fiscal quarter results and business updates is scheduled for Thursday, November 2, 2023 at 2:00 p.m. PT / 5:00 p.m. ET.

埋め込みを使用したRAGの詳細なクックブックセット(ベクトルデータベースを含む)をお探しの場合は、RAGクックブックをご覧ください。

FAQ

価格

最新の価格詳細については、Voyageの価格ページをご覧ください。

Was this page helpful?

  • Anthropicで埋め込みを取得する方法
  • Voyage AIの開始
  • Voyage Pythonライブラリ
  • Voyage HTTP API
  • AWS Marketplace
  • FAQ