Loading...
    • 開発者ガイド
    • API リファレンス
    • MCP
    • リソース
    • リリースノート
    Search...
    ⌘K
    はじめに
    Claude の紹介クイックスタート
    モデルと料金
    モデル概要モデルの選び方Claude 4.6 の新機能移行ガイドモデルの廃止料金
    Claude で構築する
    機能概要Messages API の使用停止理由の処理プロンプトのベストプラクティス
    コンテキスト管理
    コンテキストウィンドウコンパクションコンテキスト編集
    機能
    プロンプトキャッシング拡張思考適応型思考エフォートメッセージのストリーミングバッチ処理引用多言語サポートトークンカウントエンベディングビジョンPDF サポートFiles API検索結果構造化出力
    ツール
    概要ツール使用の実装方法きめ細かいツールストリーミングBash ツールコード実行ツールプログラムによるツール呼び出しコンピュータ使用ツールテキストエディタツールWeb フェッチツールWeb 検索ツールメモリツールツール検索ツール
    Agent Skills
    概要クイックスタートベストプラクティスエンタープライズ向け SkillsAPI での Skills の使用
    Agent SDK
    概要クイックスタートTypeScript SDKTypeScript V2(プレビュー)Python SDK移行ガイド
    API での MCP
    MCP コネクタリモート MCP サーバー
    サードパーティプラットフォームの Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    プロンプトエンジニアリング
    概要プロンプトジェネレータープロンプトテンプレートの使用プロンプト改善ツール明確かつ直接的に例を使う(マルチショットプロンプティング)Claude に考えさせる(CoT)XML タグを使うClaude に役割を与える(システムプロンプト)複雑なプロンプトを連鎖させる長文コンテキストのヒント拡張思考のヒント
    テストと評価
    成功基準の定義テストケースの開発評価ツールの使用レイテンシの削減
    ガードレールの強化
    ハルシネーションの削減出力の一貫性を高めるジェイルブレイクの軽減ストリーミング拒否プロンプト漏洩の防止Claude をキャラクターに保つ
    管理とモニタリング
    Admin API 概要データレジデンシーワークスペースUsage and Cost APIClaude Code Analytics APIゼロデータリテンション
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    機能

    エンベディング

    テキストエンベディングは、意味的類似性の測定を可能にするテキストの数値表現です。このガイドでは、エンベディング、その応用、および検索、レコメンデーション、異常検出などのタスクにエンベディングモデルを使用する方法を紹介します。

    エンベディングを実装する前に

    エンベディングプロバイダーを選択する際、ニーズや好みに応じて考慮できるいくつかの要素があります:

    • データセットのサイズとドメイン固有性:モデルのトレーニングデータセットのサイズと、エンベディングしたいドメインとの関連性。より大きい、またはよりドメイン固有のデータは、一般的にドメイン内でより良いエンベディングを生成します
    • 推論パフォーマンス:エンベディングの検索速度とエンドツーエンドのレイテンシ。これは大規模な本番デプロイメントにおいて特に重要な考慮事項です
    • カスタマイズ:プライベートデータでの継続的なトレーニング、または非常に特定のドメインに対するモデルの特殊化のオプション。これにより、独自の語彙に対するパフォーマンスが向上する可能性があります

    Anthropicでエンベディングを取得する方法

    Anthropicは独自のエンベディングモデルを提供していません。上記のすべての考慮事項を網羅する幅広いオプションと機能を持つエンベディングプロバイダーの1つがVoyage AIです。

    Voyage AIは最先端のエンベディングモデルを作成し、金融やヘルスケアなどの特定の業界ドメイン向けのカスタマイズモデル、または個々の顧客向けのオーダーメイドのファインチューニングモデルを提供しています。

    このガイドの残りの部分はVoyage AIについてですが、特定のユースケースに最適なものを見つけるために、さまざまなエンベディングベンダーを評価することをお勧めします。

    利用可能なモデル

    Voyageは以下のテキストエンベディングモデルの使用を推奨しています:

    モデルコンテキスト長エンベディング次元説明
    voyage-3-large32,0001024(デフォルト)、256、512、2048最高の汎用および多言語検索品質。詳細はブログ記事をご覧ください。
    voyage-3.532,0001024(デフォルト)、256、512、2048汎用および多言語検索品質に最適化。詳細はブログ記事をご覧ください。
    voyage-3.5-lite32,0001024(デフォルト)、256、512、2048レイテンシとコストに最適化。詳細はブログ記事をご覧ください。
    voyage-code-332,0001024(デフォルト)、256、512、2048コード検索に最適化。詳細はブログ記事をご覧ください。
    voyage-finance-232,0001024金融検索とRAGに最適化。詳細はブログ記事をご覧ください。
    voyage-law-216,0001024法律および長文コンテキストの検索とRAGに最適化。すべてのドメインでパフォーマンスも向上。詳細はブログ記事をご覧ください。

    さらに、以下のマルチモーダルエンベディングモデルが推奨されています:

    モデルコンテキスト長エンベディング次元説明
    voyage-multimodal-3320001024インターリーブされたテキストと、PDF、スライド、テーブル、図などのスクリーンショットなどのコンテンツリッチな画像をベクトル化できるリッチなマルチモーダルエンベディングモデル。詳細はブログ記事をご覧ください。

    どのテキストエンベディングモデルを使用するか決めるのに助けが必要ですか?FAQをご確認ください。

    Voyage AIを始める

    Voyageエンベディングにアクセスするには:

    1. Voyage AIのウェブサイトでサインアップ
    2. APIキーを取得
    3. 便利なように環境変数としてAPIキーを設定:
    export VOYAGE_API_KEY="<your secret key>"

    以下に説明するように、公式のvoyageai PythonパッケージまたはHTTPリクエストを使用してエンベディングを取得できます。

    Voyage Pythonライブラリ

    voyageaiパッケージは以下のコマンドでインストールできます:

    pip install -U voyageai

    次に、クライアントオブジェクトを作成し、テキストのエンベディングを開始できます:

    import voyageai
    
    vo = voyageai.Client()
    # これは自動的に環境変数VOYAGE_API_KEYを使用します。
    # あるいは、vo = voyageai.Client(api_key="<your secret key>") を使用できます
    
    texts = ["Sample text 1", "Sample text 2"]
    
    result = vo.embed(texts, model="voyage-3.5", input_type="document")
    print(result.embeddings[0])
    print(result.embeddings[1])

    result.embeddingsは2つのエンベディングベクトルのリストで、それぞれ1024個の浮動小数点数を含みます。上記のコードを実行すると、2つのエンベディングが画面に表示されます:

    [-0.013131560757756233, 0.019828535616397858, ...]   # "Sample text 1"のエンベディング
    [-0.0069352793507277966, 0.020878976210951805, ...]  # "Sample text 2"のエンベディング

    エンベディングを作成する際、embed()関数にいくつかの他の引数を指定できます。

    Voyage Pythonパッケージの詳細については、Voyageドキュメントをご覧ください。

    Voyage HTTP API

    Voyage HTTP APIにリクエストしてエンベディングを取得することもできます。例えば、ターミナルでcurlコマンドを使用してHTTPリクエストを送信できます:

    curl https://api.voyageai.com/v1/embeddings \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer $VOYAGE_API_KEY" \
      -d '{
        "input": ["Sample text 1", "Sample text 2"],
        "model": "voyage-3.5"
      }'

    取得するレスポンスは、エンベディングとトークン使用量を含むJSONオブジェクトです:

    {
      "object": "list",
      "data": [
        {
          "embedding": [-0.013131560757756233, 0.019828535616397858, ...],
          "index": 0
        },
        {
          "embedding": [-0.0069352793507277966, 0.020878976210951805, ...],
          "index": 1
        }
      ],
      "model": "voyage-3.5",
      "usage": {
        "total_tokens": 10
      }
    }
    

    Voyage HTTP APIの詳細については、Voyageドキュメントをご覧ください。

    AWS Marketplace

    VoyageエンベディングはAWS Marketplaceで利用可能です。AWSでVoyageにアクセスする手順はこちらで確認できます。

    クイックスタートの例

    エンベディングの取得方法がわかったので、簡単な例を見てみましょう。

    検索対象となる6つのドキュメントの小さなコーパスがあるとします

    documents = [
        "The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.",
        "Photosynthesis in plants converts light energy into glucose and produces essential oxygen.",
        "20th-century innovations, from radios to smartphones, centered on electronic advancements.",
        "Rivers provide water, irrigation, and habitat for aquatic species, vital for ecosystems.",
        "Apple's conference call to discuss fourth fiscal quarter results and business updates is scheduled for Thursday, November 2, 2023 at 2:00 p.m. PT / 5:00 p.m. ET.",
        "Shakespeare's works, like 'Hamlet' and 'A Midsummer Night's Dream,' endure in literature."
    ]
    

    まずVoyageを使用して、それぞれをエンベディングベクトルに変換します

    import voyageai
    
    vo = voyageai.Client()
    
    # ドキュメントをエンベディング
    doc_embds = vo.embed(
        documents, model="voyage-3.5", input_type="document"
    ).embeddings

    エンベディングにより、ベクトル空間でセマンティック検索/検索を行うことができます。クエリの例として、

    query = "When is Apple's conference call scheduled?"

    これをエンベディングに変換し、エンベディング空間での距離に基づいて最も関連性の高いドキュメントを見つけるために最近傍探索を行います。

    import numpy as np
    
    # クエリをエンベディング
    query_embd = vo.embed(
        [query], model="voyage-3.5", input_type="query"
    ).embeddings[0]
    
    # 類似度を計算
    # Voyageエンベディングは長さ1に正規化されているため、ドット積と
    # コサイン類似度は同じです。
    similarities = np.dot(doc_embds, query_embd)
    
    retrieved_id = np.argmax(similarities)
    print(documents[retrieved_id])

    ドキュメントとクエリのエンベディングにそれぞれinput_type="document"とinput_type="query"を使用していることに注意してください。詳細な仕様はこちらで確認できます。

    出力は5番目のドキュメントで、これは確かにクエリに最も関連性が高いものです:

    Apple's conference call to discuss fourth fiscal quarter results and business updates is scheduled for Thursday, November 2, 2023 at 2:00 p.m. PT / 5:00 p.m. ET.

    エンベディングを使用したRAGの詳細なクックブックセット(ベクトルデータベースを含む)をお探しの場合は、RAGクックブックをご覧ください。

    FAQ

    料金

    最新の料金詳細については、Voyageの料金ページをご覧ください。

    Was this page helpful?

    • Anthropicでエンベディングを取得する方法
    • Voyage AIを始める
    • Voyage Pythonライブラリ
    • Voyage HTTP API
    • AWS Marketplace
    • FAQ