Claude Platform Docs
  • メッセージ
  • マネージドエージェント
  • 管理

Search...
⌘K
ユースケース
概要チケットルーティングカスタマーサポートエージェントコンテンツモデレーション法務文書の要約
プロンプトエンジニアリング
概要プロンプトのベストプラクティスClaude Fable 5へのプロンプトClaude Opus 4.8へのプロンプトコンソールのプロンプトツール
テストと評価
成功の定義と評価の構築コンソールでの評価ツールの使用レイテンシの削減
ガードレールの強化
ハルシネーションの削減出力の一貫性向上ジェイルブレイクの軽減プロンプトリークの削減
リファレンス
用語集

Log in
法務文書の要約
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
ベストプラクティス/ユースケース

法律文書の要約

このガイドでは、Claudeの高度な自然言語処理機能を活用して法律文書を効率的に要約し、重要な情報を抽出して法務リサーチを迅速化する方法を解説します。Claudeを使用することで、契約書のレビュー、訴訟準備、規制対応業務を効率化し、時間を節約しながら法務プロセスの正確性を確保できます。

Claudeを使用した法律文書要約の実装例については、要約クックブックをご覧ください。

Claudeで構築する前に

法律文書の要約にClaudeを使用するかどうかを判断する

以下は、法律文書の要約にClaudeのようなLLMを採用すべきことを示す主な指標です。

要約で抽出したい詳細を決定する

どの文書にも唯一の正しい要約というものは存在しません。明確な指示がなければ、Claudeがどの詳細を含めるべきかを判断するのは困難です。最適な結果を得るには、要約に含めたい具体的な情報を特定してください。

たとえば、サブリース契約を要約する場合、以下の重要なポイントを抽出したいと考えるかもしれません。

details_to_extract = [
    "Parties involved (sublessor, sublessee, and original lessor)",
    "Property details (address, description, and permitted use)",
    "Term and rent (start date, end date, monthly rent, and security deposit)",
    "Responsibilities (utilities, maintenance, and repairs)",
    "Consent and notices (landlord's consent, and notice requirements)",
    "Special provisions (furniture, parking, and subletting restrictions)",
]

成功基準を確立する

要約の品質評価は、非常に難しいタスクとして知られています。他の多くの自然言語処理タスクとは異なり、要約の評価には明確で客観的な指標が欠けていることがよくあります。このプロセスは非常に主観的になりがちで、読み手によって要約のどの側面を重視するかが異なります。以下は、Claudeが法律文書の要約をどの程度うまく実行しているかを評価する際に考慮すべき基準です。

詳細については、成功基準の確立に関するガイドを参照してください。


Claudeを使用して法律文書を要約する方法

適切なClaudeモデルを選択する

法律文書を要約する際には、モデルの精度が極めて重要です。Claude Opus 4.8は、このような高い精度が求められるユースケースに最適な選択肢です。文書のサイズや量が大きく、コストが懸念される場合は、Claude Haiku 4.5のような小型モデルを試すこともできます。

これらのコストを見積もるために、OpusとHaikuの両方を使用して1,000件のサブリース契約を要約する場合のコスト比較を以下に示します。

  • コンテンツサイズ

    • 契約数:1,000
    • 契約あたりの文字数:300,000
    • 総文字数:3億
  • 推定トークン数

    • 入力トークン:8,600万(3.5文字あたり1トークンと仮定)
    • 要約あたりの出力トークン:350
    • 総出力トークン:350,000
  • Claude Opus 4.8の推定コスト

    • 入力トークンコスト:86 MTok × $5.00/MTok = $430.00 USD
    • 出力トークンコスト:0.35 MTok × $25.00/MTok = $8.75 USD
    • 総コスト:$430.00 + $8.75 = $438.75 USD
  • Claude Haiku 4.5の推定コスト

    • 入力トークンコスト:86 MTok × $1.00/MTok = $86.00 USD
    • 出力トークンコスト:0.35 MTok × $5.00/MTok = $1.75 USD
    • 総コスト:$86.00 + $1.75 = $87.75 USD

実際のコストはこれらの見積もりと異なる場合があります。これらの見積もりは、プロンプト作成のセクションで取り上げた例に基づいています。

文書をClaudeが処理できる形式に変換する

文書の要約を開始する前に、データを準備する必要があります。これには、PDFからのテキスト抽出、テキストのクリーニング、Claudeで処理できる状態にすることが含まれます。

以下は、サンプルPDFでこのプロセスを実演したものです。

from io import BytesIO
import re

import pypdf
import requests


def get_llm_text(pdf_file):
    reader = pypdf.PdfReader(pdf_file)
    text = "\n".join([page.extract_text() for page in reader.pages])

    # ページ番号を削除
    text = re.sub(r"\n\s*\d+\s*\n", "\n", text)

    # 余分な空白を削除
    text = re.sub(r"\s+", " ", text)

    return text


# GitHubリポジトリから完全なURLを作成
url = "https://raw.githubusercontent.com/anthropics/anthropic-cookbook/main/skills/summarization/data/Sample Sublease Agreement.pdf"
url = url.replace(" ", "%20")

# PDFファイルをメモリにダウンロード
response = requests.get(url)

# メモリからPDFを読み込み
pdf_file = BytesIO(response.content)

document_text = get_llm_text(pdf_file)
print(document_text[:50000])

この例では、まず要約クックブックで使用されているサンプルのサブリース契約のPDFをダウンロードします。この契約は、sec.govウェブサイトから公開されているサブリース契約を出典としています。

この例では、pypdfライブラリを使用してPDFの内容を抽出し、テキストに変換しています。その後、ページ番号や余分な空白を削除してテキストデータをクリーニングしています。

強力なプロンプトを構築する

Claudeはさまざまな要約スタイルに適応できます。プロンプトの詳細を変更することで、Claudeの出力をより詳細または簡潔にしたり、専門用語の使用量を増減させたり、対象コンテキストの要約レベルを高くまたは低くしたりするよう誘導できます。

以下は、サブリース契約を分析する際に、生成される要約が一貫した構造に従うようにするプロンプトの作成例です。

Python
# Anthropicクライアントを初期化
client = anthropic.Anthropic()


def summarize_document(
    text, details_to_extract, model="claude-opus-4-8", max_tokens=1000
):
    # 抽出する詳細をプロンプトのコンテキスト内に配置できるようにフォーマット
    details_to_extract_str = "\n".join(details_to_extract)

    # モデルにサブリース契約の要約を指示
    prompt = f"""Summarize the following sublease agreement. Focus on these key aspects:

    {details_to_extract_str}

    Provide the summary in bullet points nested within the XML header for each section. For example:

    <parties involved>
    - Sublessor: [Name]
    // Add more details as needed
    </parties involved>

    If any information is not explicitly stated in the document, note it as "Not specified". Do not preamble.

    Sublease agreement text:
    {text}
    """

    response = client.messages.create(
        model=model,
        max_tokens=max_tokens,
        system="You are a legal analyst specializing in real estate law, known for highly accurate and detailed summaries of sublease agreements.",
        messages=[
            {"role": "user", "content": prompt},
        ],
    )

    return response.content[0].text


sublease_summary = summarize_document(document_text, details_to_extract)
print(sublease_summary)

このコードは、Claudeを使用してサブリース契約の内容を要約するsummarize_document関数を実装しています。この関数は、テキスト文字列と抽出する詳細のリストを入力として受け取ります。この例では、前のコードスニペットで定義されたdocument_text変数とdetails_to_extract変数を使用して関数を呼び出しています。

関数内では、要約対象の文書、抽出する詳細、文書を要約するための具体的な指示を含むプロンプトがClaude用に生成されます。このプロンプトは、抽出する各詳細の要約をXMLヘッダー内にネストして応答するようClaudeに指示しています。

このコードは要約の各セクションをタグ内に出力するため、後処理ステップとして各セクションを簡単に解析できます。このアプローチにより、ユースケースに合わせて調整可能な構造化された要約が可能になり、各要約が同じパターンに従うようになります。

プロンプトを評価する

プロンプト作成は、本番環境で使用できる状態にするために、テストと最適化が必要になることがよくあります。ソリューションの準備状況を判断するには、定量的手法と定性的手法を組み合わせた体系的なプロセスを使用して要約の品質を評価します。定義した成功基準に基づいて強力な実証的評価を作成することで、プロンプトを最適化できます。以下は、実証的評価に含めることを検討すべき指標です。

プロンプトをデプロイする

ソリューションを本番環境にデプロイする際に留意すべき追加の考慮事項を以下に示します。

  1. 法的責任が生じないようにする: 要約のエラーが組織やクライアントに法的責任をもたらす可能性があるため、その法的影響を理解してください。要約がAIによって生成されたものであり、法務専門家によるレビューが必要であることを明確にする免責事項や法的通知を提供してください。

  2. 多様な文書タイプに対応する: このガイドでは、PDFからテキストを抽出する方法について説明しています。実際には、文書はさまざまな形式(PDF、Word文書、テキストファイルなど)で提供される可能性があります。データ抽出パイプラインが、受け取ることが予想されるすべてのファイル形式を変換できることを確認してください。

  3. ClaudeへのAPI呼び出しを並列化する: トークン数が多い長い文書では、Claudeが要約を生成するのに最大1分かかる場合があります。大規模な文書コレクションの場合、要約を妥当な時間内に完了できるように、ClaudeへのAPI呼び出しを並列で送信することをお勧めします。並列で実行できるAPI呼び出しの最大数を確認するには、Anthropicのレート制限を参照してください。


パフォーマンスの向上

複雑なシナリオでは、標準的なプロンプトエンジニアリング手法に加えて、パフォーマンスを向上させるための追加戦略を検討することが有益な場合があります。以下にいくつかの高度な戦略を紹介します。

メタ要約を実行して長い文書を要約する

法律文書の要約では、長い文書や多数の関連文書を一度に処理することが多く、Claudeのコンテキストウィンドウを超えてしまうことがあります。このユースケースに対応するために、メタ要約と呼ばれるチャンキング手法を使用できます。この手法では、文書をより小さく管理しやすいチャンクに分割し、各チャンクを個別に処理します。その後、各チャンクの要約を組み合わせて、文書全体のメタ要約を作成できます。

以下は、メタ要約を実行する方法の例です。

Python
# Anthropicクライアントを初期化
client = anthropic.Anthropic()


def chunk_text(text, chunk_size=20000):
    return [text[i : i + chunk_size] for i in range(0, len(text), chunk_size)]


def summarize_long_document(
    text, details_to_extract, model="claude-opus-4-8", max_tokens=1000
):
    # 抽出する詳細をプロンプトのコンテキスト内に配置できるようフォーマット
    details_to_extract_str = "\n".join(details_to_extract)

    # チャンクを反復処理し、それぞれを要約
    chunk_summaries = [
        summarize_document(
            chunk, details_to_extract, model=model, max_tokens=max_tokens
        )
        for chunk in chunk_text(text)
    ]

    final_summary_prompt = f"""

    You are looking at the chunked summaries of multiple documents that are all related.
    Combine the following summaries of the document from different truthful sources into a coherent overall summary:

    <chunked_summaries>
    {"".join(chunk_summaries)}
    </chunked_summaries>

    Focus on these key aspects:
    {details_to_extract_str}

    Provide the summary in bullet points nested within the XML header for each section. For example:

    <parties involved>
    - Sublessor: [Name]
    // Add more details as needed
    </parties involved>

    If any information is not explicitly stated in the document, note it as "Not specified". Do not preamble.
    """

    response = client.messages.create(
        model=model,
        max_tokens=max_tokens,
        system="You are a legal expert that summarizes notes on one document.",
        messages=[
            {"role": "user", "content": final_summary_prompt},
        ],
    )

    return response.content[0].text


long_summary = summarize_long_document(document_text, details_to_extract)
print(long_summary)

summarize_long_document関数は、文書をより小さなチャンクに分割し、各チャンクを個別に要約することで、前述のsummarize_document関数を拡張しています。

このコードは、元の文書内の20,000文字ごとのチャンクにsummarize_document関数を適用することでこれを実現しています。個々の要約が結合され、これらのチャンク要約から最終的な要約が作成されます。

なお、この例のPDFでは文書全体がClaudeのコンテキストウィンドウに収まるため、summarize_long_document関数は厳密には必要ありません。しかし、Claudeのコンテキストウィンドウを超える文書や、複数の関連文書をまとめて要約する場合には不可欠になります。いずれにしても、このメタ要約手法は、以前の単一要約アプローチでは見逃されていた追加の重要な詳細を最終要約に取り込むことがよくあります。

要約インデックス付き文書を使用して大規模な文書コレクションを探索する

LLMで文書コレクションを検索する場合、通常は「retrieval-augmented generation」(検索拡張生成)、すなわちRAGが使用されます。しかし、大規模な文書を扱うシナリオや、正確な情報検索が重要な場合、基本的なRAGアプローチでは不十分なことがあります。要約インデックス付き文書は、従来のRAG手法よりも少ないコンテキストを使用して、検索対象の文書をより効率的にランク付けする高度なRAGアプローチです。このアプローチでは、まずClaudeを使用してコーパス内の各文書の簡潔な要約を生成し、次にClaudeを使用して各要約と質問されているクエリとの関連性をランク付けします。コードベースの例を含むこのアプローチの詳細については、要約クックブックの要約インデックス付き文書のセクションをご覧ください。

Claudeをファインチューニングしてデータセットから学習させる

Claudeの要約生成能力を向上させるもう1つの高度な手法は、「fine-tuning」(ファインチューニング)です。ファインチューニングでは、法律文書要約のニーズに特化したカスタムデータセットでClaudeをトレーニングし、Claudeがユースケースに適応するようにします。以下は、ファインチューニングの実行方法の概要です。

  1. エラーを特定する: まず、Claudeの要約が不十分な事例を収集します。これには、重要な法的詳細の欠落、コンテキストの誤解、不適切な法律用語の使用などが含まれます。

  2. データセットをキュレーションする: これらの問題を特定したら、問題のある例のデータセットを作成します。このデータセットには、元の法律文書と修正された要約を含める必要があり、これによりClaudeが望ましい動作を学習できるようになります。

  3. ファインチューニングを実行する: ファインチューニングでは、キュレーションしたデータセットでモデルを再トレーニングし、その重みとパラメータを調整します。この再トレーニングにより、Claudeは法務分野の特定の要件をより深く理解し、基準に従って文書を要約する能力が向上します。

  4. 反復的な改善: ファインチューニングは一度きりのプロセスではありません。Claudeが要約を生成し続ける中で、パフォーマンスが不十分だった新しい例を反復的に追加し、その能力をさらに洗練させることができます。時間の経過とともに、この継続的なフィードバックループにより、法律文書要約タスクに高度に特化したモデルが得られます。


ファインチューニングは現在、Amazon Bedrock経由でのみ利用可能です。詳細はAWSローンチブログでご確認いただけます。

要約クックブック


Claudeを使用して契約書を要約する方法の、完全に実装されたコードベースの例をご覧ください。


引用クックブック


情報の正確性と説明可能性を確保する方法のガイダンスについては、引用クックブックのレシピをご覧ください。

Was this page helpful?

  • Claudeで構築する前に
  • 法律文書の要約にClaudeを使用するかどうかを判断する
  • 要約で抽出したい詳細を決定する
  • 成功基準を確立する
  • Claudeを使用して法律文書を要約する方法
  • 適切なClaudeモデルを選択する
  • 文書をClaudeが処理できる形式に変換する
  • 強力なプロンプトを構築する
  • プロンプトを評価する
  • プロンプトをデプロイする
  • パフォーマンスの向上
  • メタ要約を実行して長い文書を要約する
  • 要約インデックス付き文書を使用して大規模な文書コレクションを探索する
  • Claudeをファインチューニングしてデータセットから学習させる