Claude Platform Docs
  • Messages
  • Managed Agents
  • 관리자

Search...
⌘K
사용 사례
개요티켓 라우팅고객 지원 에이전트콘텐츠 조정법률 문서 요약
프롬프트 엔지니어링
개요프롬프트 작성 모범 사례Claude Fable 5 프롬프트 작성Claude Opus 4.8 프롬프트 작성Console 프롬프트 도구
테스트 및 평가
성공 정의 및 평가 빌드Console에서 평가 도구 사용하기지연 시간 줄이기
가드레일 강화
환각 줄이기출력 일관성 높이기탈옥 완화프롬프트 유출 줄이기
레퍼런스
용어집

Log in
법률 문서 요약
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
모범 사례/사용 사례

법률 문서 요약

이 가이드는 Claude의 고급 자연어 처리 기능을 활용하여 법률 문서를 효율적으로 요약하고, 핵심 정보를 추출하며, 법률 리서치를 신속하게 진행하는 방법을 안내합니다. Claude를 사용하면 계약서 검토, 소송 준비, 규제 업무를 간소화하여 시간을 절약하고 법률 프로세스의 정확성을 보장할 수 있습니다.

Claude를 사용한 법률 문서 요약 구현 예시를 보려면 요약 쿡북을 방문하세요.

Claude로 구축하기 전에

법률 문서 요약에 Claude를 사용할지 결정하기

다음은 법률 문서를 요약하기 위해 Claude와 같은 LLM을 사용해야 하는 주요 지표입니다:

요약에서 추출할 세부 정보 결정하기

어떤 문서든 단 하나의 정답 요약이란 존재하지 않습니다. 명확한 지침이 없으면 Claude가 어떤 세부 정보를 포함해야 할지 판단하기 어려울 수 있습니다. 최적의 결과를 얻으려면 요약에 포함하고자 하는 구체적인 정보를 파악하세요.

예를 들어, 전대차 계약서를 요약할 때 다음과 같은 핵심 사항을 추출하고자 할 수 있습니다:

details_to_extract = [
    "Parties involved (sublessor, sublessee, and original lessor)",
    "Property details (address, description, and permitted use)",
    "Term and rent (start date, end date, monthly rent, and security deposit)",
    "Responsibilities (utilities, maintenance, and repairs)",
    "Consent and notices (landlord's consent, and notice requirements)",
    "Special provisions (furniture, parking, and subletting restrictions)",
]

성공 기준 수립하기

요약의 품질을 평가하는 것은 매우 어려운 작업으로 알려져 있습니다. 다른 많은 자연어 처리 작업과 달리 요약 평가에는 명확하고 객관적인 지표가 부족한 경우가 많습니다. 이 과정은 매우 주관적일 수 있으며, 독자마다 요약의 서로 다른 측면을 중요하게 여깁니다. 다음은 Claude가 법률 문서 요약을 얼마나 잘 수행하는지 평가할 때 고려할 수 있는 기준입니다.

자세한 내용은 성공 기준 수립하기 가이드를 참조하세요.


Claude를 사용하여 법률 문서를 요약하는 방법

적합한 Claude 모델 선택하기

법률 문서를 요약할 때는 모델의 정확성이 매우 중요합니다. Claude Opus 4.8은 높은 정확성이 요구되는 이러한 사용 사례에 탁월한 선택입니다. 문서의 크기와 수량이 많아 비용이 우려되기 시작하는 경우, Claude Haiku 4.5와 같은 더 작은 모델을 사용해 볼 수도 있습니다.

이러한 비용을 추정하는 데 도움이 되도록, 다음은 Opus와 Haiku를 모두 사용하여 1,000건의 전대차 계약서를 요약하는 비용을 비교한 것입니다:

  • 콘텐츠 크기

    • 계약서 수: 1,000건
    • 계약서당 문자 수: 300,000자
    • 총 문자 수: 3억 자
  • 예상 토큰

    • 입력 토큰: 8,600만 개 (3.5자당 1토큰 가정)
    • 요약당 출력 토큰: 350개
    • 총 출력 토큰: 350,000개
  • Claude Opus 4.8 예상 비용

    • 입력 토큰 비용: 86 MTok * $5.00/MTok = $430.00 USD
    • 출력 토큰 비용: 0.35 MTok * $25.00/MTok = $8.75 USD

실제 비용은 이러한 추정치와 다를 수 있습니다. 이 추정치는 프롬프트 작성 섹션에서 소개된 예시를 기반으로 합니다.

문서를 Claude가 처리할 수 있는 형식으로 변환하기

문서 요약을 시작하기 전에 데이터를 준비해야 합니다. 여기에는 PDF에서 텍스트를 추출하고, 텍스트를 정리하며, Claude가 처리할 수 있도록 준비하는 작업이 포함됩니다.

다음은 샘플 PDF에서 이 프로세스를 시연한 것입니다:

from io import BytesIO
import re

import pypdf
import requests


def get_llm_text(pdf_file):
    reader = pypdf.PdfReader(pdf_file)
    text = "\n".join([page.extract_text() for page in reader.pages])

    # 페이지 번호 제거
    text = re.sub(r"\n\s*\d+\s*\n", "\n", text)

    # 불필요한 공백 제거
    text = re.sub(r"\s+", " ", text)

    return text


# GitHub 리포지토리에서 전체 URL 생성
url = "https://raw.githubusercontent.com/anthropics/anthropic-cookbook/main/skills/summarization/data/Sample Sublease Agreement.pdf"
url = url.replace(" ", "%20")

# PDF 파일을 메모리에 다운로드
response = requests.get(url)

# 메모리에서 PDF 로드
pdf_file = BytesIO(response.content)

document_text = get_llm_text(pdf_file)
print(document_text[:50000])

이 예시에서는 먼저 요약 쿡북에서 사용된 샘플 전대차 계약서의 PDF를 다운로드합니다. 이 계약서는 sec.gov 웹사이트에서 공개적으로 제공되는 전대차 계약서에서 가져온 것입니다.

이 예시는 pypdf 라이브러리를 사용하여 PDF의 내용을 추출하고 텍스트로 변환합니다. 그런 다음 페이지 번호와 불필요한 공백을 제거하여 텍스트 데이터를 정리합니다.

강력한 프롬프트 작성하기

Claude는 다양한 요약 스타일에 적응할 수 있습니다. 프롬프트의 세부 사항을 변경하여 Claude가 더 상세하거나 간결하게, 더 많거나 적은 전문 용어를 포함하도록, 또는 해당 컨텍스트에 대해 더 높거나 낮은 수준의 요약을 제공하도록 유도할 수 있습니다.

다음은 전대차 계약서를 분석할 때 생성된 요약이 일관된 구조를 따르도록 보장하는 프롬프트를 작성하는 방법의 예시입니다:

Python
# Anthropic 클라이언트를 초기화합니다
client = anthropic.Anthropic()


def summarize_document(
    text, details_to_extract, model="claude-opus-4-8", max_tokens=1000
):
    # 추출할 세부 정보를 프롬프트의 컨텍스트에 배치할 수 있도록 포맷합니다
    details_to_extract_str = "\n".join(details_to_extract)

    # 모델에 전대차 계약서를 요약하도록 프롬프트합니다
    prompt = f"""Summarize the following sublease agreement. Focus on these key aspects:

    {details_to_extract_str}

    Provide the summary in bullet points nested within the XML header for each section. For example:

    <parties involved>
    - Sublessor: [Name]
    // Add more details as needed
    </parties involved>

    If any information is not explicitly stated in the document, note it as "Not specified". Do not preamble.

    Sublease agreement text:
    {text}
    """

    response = client.messages.create(
        model=model,
        max_tokens=max_tokens,
        system="You are a legal analyst specializing in real estate law, known for highly accurate and detailed summaries of sublease agreements.",
        messages=[
            {"role": "user", "content": prompt},
        ],
    )

    return response.content[0].text


sublease_summary = summarize_document(document_text, details_to_extract)
print(sublease_summary)

이 코드는 Claude를 사용하여 전대차 계약서의 내용을 요약하는 summarize_document 함수를 구현합니다. 이 함수는 텍스트 문자열과 추출할 세부 정보 목록을 입력으로 받습니다. 이 예시에서 코드는 이전 코드 스니펫에서 정의된 document_text 및 details_to_extract 변수를 사용하여 함수를 호출합니다.

함수 내부에서는 요약할 문서, 추출할 세부 정보, 문서 요약에 대한 구체적인 지침을 포함하여 Claude를 위한 프롬프트가 생성됩니다. 이 프롬프트는 Claude에게 추출할 각 세부 정보의 요약을 XML 헤더 안에 중첩하여 응답하도록 지시합니다.

코드가 요약의 각 섹션을 태그 안에 출력하기 때문에, 각 섹션은 후처리 단계에서 쉽게 파싱될 수 있습니다. 이 접근 방식은 사용 사례에 맞게 조정할 수 있는 구조화된 요약을 가능하게 하여, 각 요약이 동일한 패턴을 따르도록 합니다.

프롬프트 평가하기

프롬프트 작성은 프로덕션 환경에 적용할 수 있도록 테스트와 최적화가 필요한 경우가 많습니다. 솔루션의 준비 상태를 판단하려면 정량적 방법과 정성적 방법을 결합한 체계적인 프로세스를 사용하여 요약의 품질을 평가하세요. 정의된 성공 기준을 바탕으로 강력한 경험적 평가를 구축하면 프롬프트를 최적화할 수 있습니다. 다음은 경험적 평가에 포함할 수 있는 몇 가지 지표입니다:

프롬프트 배포하기

솔루션을 프로덕션에 배포할 때 염두에 두어야 할 몇 가지 추가 고려 사항은 다음과 같습니다.

  1. 법적 책임 방지: 요약의 오류가 조직이나 고객에게 법적 책임을 초래할 수 있는 법적 영향을 이해하세요. 요약이 AI에 의해 생성되었으며 법률 전문가의 검토가 필요함을 명시하는 면책 조항 또는 법적 고지를 제공하세요.

  2. 다양한 문서 유형 처리: 이 가이드에서는 PDF에서 텍스트를 추출하는 방법을 설명합니다. 실제 환경에서는 문서가 다양한 형식(PDF, Word 문서, 텍스트 파일 등)으로 제공될 수 있습니다. 데이터 추출 파이프라인이 수신할 것으로 예상되는 모든 파일 형식을 변환할 수 있는지 확인하세요.

  3. Claude에 대한 API 호출 병렬화: 토큰 수가 많은 긴 문서는 Claude가 요약을 생성하는 데 최대 1분이 소요될 수 있습니다. 대규모 문서 컬렉션의 경우, 합리적인 시간 내에 요약을 완료할 수 있도록 Claude에 API 호출을 병렬로 보내는 것이 좋습니다. 병렬로 수행할 수 있는 최대 API 호출 수를 확인하려면 Anthropic의 속도 제한을 참조하세요.


성능 개선하기

복잡한 시나리오에서는 표준 프롬프트 엔지니어링 기법 외에 성능을 개선하기 위한 추가 전략을 고려하는 것이 도움이 될 수 있습니다. 다음은 몇 가지 고급 전략입니다:

긴 문서를 요약하기 위한 메타 요약 수행하기

법률 문서 요약은 종종 긴 문서나 여러 관련 문서를 한 번에 처리해야 하므로 Claude의 컨텍스트 윈도우를 초과할 수 있습니다. 이러한 사용 사례를 처리하기 위해 메타 요약(meta-summarization)이라는 청킹 방법을 사용할 수 있습니다. 이 기법은 문서를 더 작고 관리 가능한 청크로 나눈 다음 각 청크를 개별적으로 처리하는 것입니다. 그런 다음 각 청크의 요약을 결합하여 전체 문서의 메타 요약을 생성할 수 있습니다.

다음은 메타 요약을 수행하는 방법의 예시입니다:

Python
# Anthropic 클라이언트를 초기화합니다
client = anthropic.Anthropic()


def chunk_text(text, chunk_size=20000):
    return [text[i : i + chunk_size] for i in range(0, len(text), chunk_size)]


def summarize_long_document(
    text, details_to_extract, model="claude-opus-4-8", max_tokens=1000
):
    # 프롬프트의 컨텍스트에 배치할 추출 세부 정보를 포맷합니다
    details_to_extract_str = "\n".join(details_to_extract)

    # 청크를 반복하며 각 청크를 요약합니다
    chunk_summaries = [
        summarize_document(
            chunk, details_to_extract, model=model, max_tokens=max_tokens
        )
        for chunk in chunk_text(text)
    ]

    final_summary_prompt = f"""

    You are looking at the chunked summaries of multiple documents that are all related.
    Combine the following summaries of the document from different truthful sources into a coherent overall summary:

    <chunked_summaries>
    {"".join(chunk_summaries)}
    </chunked_summaries>

    Focus on these key aspects:
    {details_to_extract_str}

    Provide the summary in bullet points nested within the XML header for each section. For example:

    <parties involved>
    - Sublessor: [Name]
    // Add more details as needed
    </parties involved>

    If any information is not explicitly stated in the document, note it as "Not specified". Do not preamble.
    """

    response = client.messages.create(
        model=model,
        max_tokens=max_tokens,
        system="You are a legal expert that summarizes notes on one document.",
        messages=[
            {"role": "user", "content": final_summary_prompt},
        ],
    )

    return response.content[0].text


long_summary = summarize_long_document(document_text, details_to_extract)
print(long_summary)

summarize_long_document 함수는 문서를 더 작은 청크로 분할하고 각 청크를 개별적으로 요약함으로써 앞서 소개한 summarize_document 함수를 기반으로 구축됩니다.

이 코드는 원본 문서 내의 20,000자 단위 각 청크에 summarize_document 함수를 적용하여 이를 수행합니다. 그런 다음 개별 요약이 결합되고, 이러한 청크 요약으로부터 최종 요약이 생성됩니다.

예시 PDF의 경우 전체 문서가 Claude의 컨텍스트 윈도우 내에 들어가기 때문에 summarize_long_document 함수가 반드시 필요한 것은 아닙니다. 그러나 Claude의 컨텍스트 윈도우를 초과하는 문서나 여러 관련 문서를 함께 요약할 때는 필수적입니다. 어느 경우든, 이 메타 요약 기법은 이전의 단일 요약 접근 방식에서 놓쳤던 추가적인 중요 세부 정보를 최종 요약에서 포착하는 경우가 많습니다.

요약 인덱스 문서를 사용하여 대규모 문서 컬렉션 탐색하기

LLM으로 문서 컬렉션을 검색하는 것은 일반적으로 "retrieval-augmented generation"(검색 증강 생성), 즉 RAG를 포함합니다. 그러나 대용량 문서를 다루거나 정밀한 정보 검색이 중요한 시나리오에서는 기본적인 RAG 접근 방식이 충분하지 않을 수 있습니다. 요약 인덱스 문서(summary indexed documents)는 기존 RAG 방법보다 적은 컨텍스트를 사용하여 검색을 위한 문서 순위를 더 효율적으로 매기는 고급 RAG 접근 방식입니다. 이 접근 방식에서는 먼저 Claude를 사용하여 코퍼스의 각 문서에 대한 간결한 요약을 생성한 다음, Claude를 사용하여 질의되는 쿼리에 대한 각 요약의 관련성 순위를 매깁니다. 코드 기반 예시를 포함한 이 접근 방식에 대한 자세한 내용은 요약 쿡북의 요약 인덱스 문서 섹션을 확인하세요.

데이터셋으로부터 학습하도록 Claude를 fine-tuning하기

Claude의 요약 생성 능력을 향상시키는 또 다른 고급 기법은 "fine-tuning"(미세 조정)입니다. Fine-tuning은 법률 문서 요약 요구 사항에 특화된 맞춤형 데이터셋으로 Claude를 학습시켜 Claude가 사용 사례에 적응하도록 하는 것입니다. 다음은 fine-tuning을 수행하는 방법에 대한 개요입니다:

  1. 오류 식별: Claude의 요약이 부족한 사례를 수집하는 것부터 시작하세요. 여기에는 중요한 법적 세부 사항 누락, 컨텍스트 오해, 부적절한 법률 용어 사용 등이 포함될 수 있습니다.

  2. 데이터셋 큐레이션: 이러한 문제를 식별한 후, 문제가 있는 예시들로 데이터셋을 구성하세요. 이 데이터셋에는 원본 법률 문서와 수정된 요약이 함께 포함되어야 하며, 이를 통해 Claude가 원하는 동작을 학습할 수 있습니다.

  3. Fine-tuning 수행: Fine-tuning은 큐레이션된 데이터셋으로 모델을 재학습하여 가중치와 매개변수를 조정하는 것입니다. 이 재학습은 Claude가 법률 도메인의 특정 요구 사항을 더 잘 이해하도록 도와 기준에 따라 문서를 요약하는 능력을 향상시킵니다.

  4. 반복적 개선: Fine-tuning은 일회성 프로세스가 아닙니다. Claude가 계속해서 요약을 생성함에 따라 성능이 부족했던 새로운 예시를 반복적으로 추가하여 기능을 더욱 개선할 수 있습니다. 시간이 지남에 따라 이러한 지속적인 피드백 루프는 법률 문서 요약 작업에 고도로 특화된 모델을 만들어냅니다.


Fine-tuning은 현재 Amazon Bedrock을 통해서만 사용할 수 있습니다. 자세한 내용은 AWS 출시 블로그에서 확인할 수 있습니다.

요약 쿡북


Claude를 사용하여 계약서를 요약하는 방법에 대한 완전히 구현된 코드 기반 예시를 확인하세요.


인용 쿡북


정보의 정확성과 설명 가능성을 보장하는 방법에 대한 지침은 인용 쿡북 레시피를 살펴보세요.

Was this page helpful?

  • Claude로 구축하기 전에
  • 법률 문서 요약에 Claude를 사용할지 결정하기
  • 요약에서 추출할 세부 정보 결정하기
  • 성공 기준 수립하기
  • Claude를 사용하여 법률 문서를 요약하는 방법
  • 적합한 Claude 모델 선택하기
  • 문서를 Claude가 처리할 수 있는 형식으로 변환하기
  • 강력한 프롬프트 작성하기
  • 프롬프트 평가하기
  • 프롬프트 배포하기
  • 성능 개선하기
  • 긴 문서를 요약하기 위한 메타 요약 수행하기
  • 요약 인덱스 문서를 사용하여 대규모 문서 컬렉션 탐색하기
  • 데이터셋으로부터 학습하도록 Claude를 fine-tuning하기
  • 총 비용: $430.00 + $8.75 = $438.75 USD
  • Claude Haiku 4.5 예상 비용

    • 입력 토큰 비용: 86 MTok * $1.00/MTok = $86.00 USD
    • 출력 토큰 비용: 0.35 MTok * $5.00/MTok = $1.75 USD
    • 총 비용: $86.00 + $1.75 = $87.75 USD