Claudeを使用した法律文書要約の実装例については、要約クックブックをご覧ください。
以下は、法律文書の要約にClaudeのようなLLMを採用すべきことを示す主な指標です。
どの文書にも唯一の正しい要約というものは存在しません。明確な指示がなければ、Claudeがどの詳細を含めるべきかを判断するのは困難です。最適な結果を得るには、要約に含めたい具体的な情報を特定してください。
たとえば、サブリース契約を要約する場合、以下の重要なポイントを抽出したいと考えるかもしれません。
details_to_extract = [
"Parties involved (sublessor, sublessee, and original lessor)",
"Property details (address, description, and permitted use)",
"Term and rent (start date, end date, monthly rent, and security deposit)",
"Responsibilities (utilities, maintenance, and repairs)",
"Consent and notices (landlord's consent, and notice requirements)",
"Special provisions (furniture, parking, and subletting restrictions)",
]要約の品質評価は、非常に難しいタスクとして知られています。他の多くの自然言語処理タスクとは異なり、要約の評価には明確で客観的な指標が欠けていることがよくあります。このプロセスは非常に主観的になりがちで、読み手によって要約のどの側面を重視するかが異なります。以下は、Claudeが法律文書の要約をどの程度うまく実行しているかを評価する際に考慮すべき基準です。
詳細については、成功基準の確立に関するガイドを参照してください。
法律文書を要約する際には、モデルの精度が極めて重要です。Claude Opus 4.8は、このような高い精度が求められるユースケースに最適な選択肢です。文書のサイズや量が大きく、コストが懸念される場合は、Claude Haiku 4.5のような小型モデルを試すこともできます。
これらのコストを見積もるために、OpusとHaikuの両方を使用して1,000件のサブリース契約を要約する場合のコスト比較を以下に示します。
コンテンツサイズ
推定トークン数
Claude Opus 4.8の推定コスト
Claude Haiku 4.5の推定コスト
文書の要約を開始する前に、データを準備する必要があります。これには、PDFからのテキスト抽出、テキストのクリーニング、Claudeで処理できる状態にすることが含まれます。
以下は、サンプルPDFでこのプロセスを実演したものです。
from io import BytesIO
import re
import pypdf
import requests
def get_llm_text(pdf_file):
reader = pypdf.PdfReader(pdf_file)
text = "\n".join([page.extract_text() for page in reader.pages])
# ページ番号を削除
text = re.sub(r"\n\s*\d+\s*\n", "\n", text)
# 余分な空白を削除
text = re.sub(r"\s+", " ", text)
return text
# GitHubリポジトリから完全なURLを作成
url = "https://raw.githubusercontent.com/anthropics/anthropic-cookbook/main/skills/summarization/data/Sample Sublease Agreement.pdf"
url = url.replace(" ", "%20")
# PDFファイルをメモリにダウンロード
response = requests.get(url)
# メモリからPDFを読み込み
pdf_file = BytesIO(response.content)
document_text = get_llm_text(pdf_file)
print(document_text[:50000])この例では、まず要約クックブックで使用されているサンプルのサブリース契約のPDFをダウンロードします。この契約は、sec.govウェブサイトから公開されているサブリース契約を出典としています。
この例では、pypdfライブラリを使用してPDFの内容を抽出し、テキストに変換しています。その後、ページ番号や余分な空白を削除してテキストデータをクリーニングしています。
Claudeはさまざまな要約スタイルに適応できます。プロンプトの詳細を変更することで、Claudeの出力をより詳細または簡潔にしたり、専門用語の使用量を増減させたり、対象コンテキストの要約レベルを高くまたは低くしたりするよう誘導できます。
以下は、サブリース契約を分析する際に、生成される要約が一貫した構造に従うようにするプロンプトの作成例です。
# Anthropicクライアントを初期化
client = anthropic.Anthropic()
def summarize_document(
text, details_to_extract, model="claude-opus-4-8", max_tokens=1000
):
# 抽出する詳細をプロンプトのコンテキスト内に配置できるようにフォーマット
details_to_extract_str = "\n".join(details_to_extract)
# モデルにサブリース契約の要約を指示
prompt = f"""Summarize the following sublease agreement. Focus on these key aspects:
{details_to_extract_str}
Provide the summary in bullet points nested within the XML header for each section. For example:
<parties involved>
- Sublessor: [Name]
// Add more details as needed
</parties involved>
If any information is not explicitly stated in the document, note it as "Not specified". Do not preamble.
Sublease agreement text:
{text}
"""
response = client.messages.create(
model=model,
max_tokens=max_tokens,
system="You are a legal analyst specializing in real estate law, known for highly accurate and detailed summaries of sublease agreements.",
messages=[
{"role": "user", "content": prompt},
],
)
return response.content[0].text
sublease_summary = summarize_document(document_text, details_to_extract)
print(sublease_summary)このコードは、Claudeを使用してサブリース契約の内容を要約するsummarize_document関数を実装しています。この関数は、テキスト文字列と抽出する詳細のリストを入力として受け取ります。この例では、前のコードスニペットで定義されたdocument_text変数とdetails_to_extract変数を使用して関数を呼び出しています。
関数内では、要約対象の文書、抽出する詳細、文書を要約するための具体的な指示を含むプロンプトがClaude用に生成されます。このプロンプトは、抽出する各詳細の要約をXMLヘッダー内にネストして応答するようClaudeに指示しています。
このコードは要約の各セクションをタグ内に出力するため、後処理ステップとして各セクションを簡単に解析できます。このアプローチにより、ユースケースに合わせて調整可能な構造化された要約が可能になり、各要約が同じパターンに従うようになります。
プロンプト作成は、本番環境で使用できる状態にするために、テストと最適化が必要になることがよくあります。ソリューションの準備状況を判断するには、定量的手法と定性的手法を組み合わせた体系的なプロセスを使用して要約の品質を評価します。定義した成功基準に基づいて強力な実証的評価を作成することで、プロンプトを最適化できます。以下は、実証的評価に含めることを検討すべき指標です。
ソリューションを本番環境にデプロイする際に留意すべき追加の考慮事項を以下に示します。
法的責任が生じないようにする: 要約のエラーが組織やクライアントに法的責任をもたらす可能性があるため、その法的影響を理解してください。要約がAIによって生成されたものであり、法務専門家によるレビューが必要であることを明確にする免責事項や法的通知を提供してください。
多様な文書タイプに対応する: このガイドでは、PDFからテキストを抽出する方法について説明しています。実際には、文書はさまざまな形式(PDF、Word文書、テキストファイルなど)で提供される可能性があります。データ抽出パイプラインが、受け取ることが予想されるすべてのファイル形式を変換できることを確認してください。
ClaudeへのAPI呼び出しを並列化する: トークン数が多い長い文書では、Claudeが要約を生成するのに最大1分かかる場合があります。大規模な文書コレクションの場合、要約を妥当な時間内に完了できるように、ClaudeへのAPI呼び出しを並列で送信することをお勧めします。並列で実行できるAPI呼び出しの最大数を確認するには、Anthropicのレート制限を参照してください。
複雑なシナリオでは、標準的なプロンプトエンジニアリング手法に加えて、パフォーマンスを向上させるための追加戦略を検討することが有益な場合があります。以下にいくつかの高度な戦略を紹介します。
法律文書の要約では、長い文書や多数の関連文書を一度に処理することが多く、Claudeのコンテキストウィンドウを超えてしまうことがあります。このユースケースに対応するために、メタ要約と呼ばれるチャンキング手法を使用できます。この手法では、文書をより小さく管理しやすいチャンクに分割し、各チャンクを個別に処理します。その後、各チャンクの要約を組み合わせて、文書全体のメタ要約を作成できます。
以下は、メタ要約を実行する方法の例です。
# Anthropicクライアントを初期化
client = anthropic.Anthropic()
def chunk_text(text, chunk_size=20000):
return [text[i : i + chunk_size] for i in range(0, len(text), chunk_size)]
def summarize_long_document(
text, details_to_extract, model="claude-opus-4-8", max_tokens=1000
):
# 抽出する詳細をプロンプトのコンテキスト内に配置できるようフォーマット
details_to_extract_str = "\n".join(details_to_extract)
# チャンクを反復処理し、それぞれを要約
chunk_summaries = [
summarize_document(
chunk, details_to_extract, model=model, max_tokens=max_tokens
)
for chunk in chunk_text(text)
]
final_summary_prompt = f"""
You are looking at the chunked summaries of multiple documents that are all related.
Combine the following summaries of the document from different truthful sources into a coherent overall summary:
<chunked_summaries>
{"".join(chunk_summaries)}
</chunked_summaries>
Focus on these key aspects:
{details_to_extract_str}
Provide the summary in bullet points nested within the XML header for each section. For example:
<parties involved>
- Sublessor: [Name]
// Add more details as needed
</parties involved>
If any information is not explicitly stated in the document, note it as "Not specified". Do not preamble.
"""
response = client.messages.create(
model=model,
max_tokens=max_tokens,
system="You are a legal expert that summarizes notes on one document.",
messages=[
{"role": "user", "content": final_summary_prompt},
],
)
return response.content[0].text
long_summary = summarize_long_document(document_text, details_to_extract)
print(long_summary)summarize_long_document関数は、文書をより小さなチャンクに分割し、各チャンクを個別に要約することで、前述のsummarize_document関数を拡張しています。
このコードは、元の文書内の20,000文字ごとのチャンクにsummarize_document関数を適用することでこれを実現しています。個々の要約が結合され、これらのチャンク要約から最終的な要約が作成されます。
なお、この例のPDFでは文書全体がClaudeのコンテキストウィンドウに収まるため、summarize_long_document関数は厳密には必要ありません。しかし、Claudeのコンテキストウィンドウを超える文書や、複数の関連文書をまとめて要約する場合には不可欠になります。いずれにしても、このメタ要約手法は、以前の単一要約アプローチでは見逃されていた追加の重要な詳細を最終要約に取り込むことがよくあります。
LLMで文書コレクションを検索する場合、通常は「retrieval-augmented generation」(検索拡張生成)、すなわちRAGが使用されます。しかし、大規模な文書を扱うシナリオや、正確な情報検索が重要な場合、基本的なRAGアプローチでは不十分なことがあります。要約インデックス付き文書は、従来のRAG手法よりも少ないコンテキストを使用して、検索対象の文書をより効率的にランク付けする高度なRAGアプローチです。このアプローチでは、まずClaudeを使用してコーパス内の各文書の簡潔な要約を生成し、次にClaudeを使用して各要約と質問されているクエリとの関連性をランク付けします。コードベースの例を含むこのアプローチの詳細については、要約クックブックの要約インデックス付き文書のセクションをご覧ください。
Claudeの要約生成能力を向上させるもう1つの高度な手法は、「fine-tuning」(ファインチューニング)です。ファインチューニングでは、法律文書要約のニーズに特化したカスタムデータセットでClaudeをトレーニングし、Claudeがユースケースに適応するようにします。以下は、ファインチューニングの実行方法の概要です。
エラーを特定する: まず、Claudeの要約が不十分な事例を収集します。これには、重要な法的詳細の欠落、コンテキストの誤解、不適切な法律用語の使用などが含まれます。
データセットをキュレーションする: これらの問題を特定したら、問題のある例のデータセットを作成します。このデータセットには、元の法律文書と修正された要約を含める必要があり、これによりClaudeが望ましい動作を学習できるようになります。
ファインチューニングを実行する: ファインチューニングでは、キュレーションしたデータセットでモデルを再トレーニングし、その重みとパラメータを調整します。この再トレーニングにより、Claudeは法務分野の特定の要件をより深く理解し、基準に従って文書を要約する能力が向上します。
反復的な改善: ファインチューニングは一度きりのプロセスではありません。Claudeが要約を生成し続ける中で、パフォーマンスが不十分だった新しい例を反復的に追加し、その能力をさらに洗練させることができます。時間の経過とともに、この継続的なフィードバックループにより、法律文書要約タスクに高度に特化したモデルが得られます。
Claudeを使用して契約書を要約する方法の、完全に実装されたコードベースの例をご覧ください。
情報の正確性と説明可能性を確保する方法のガイダンスについては、引用クックブックのレシピをご覧ください。
Was this page helpful?