파이썬을 사용한 기본 텍스트 추출

PDF 문서의 모든 페이지에서 텍스트 추출

용도 텍스트 업소버 PDF 문서의 모든 페이지에서 모든 텍스트를 캡처하여 텍스트 파일에 기록합니다.이 방법은 PDF를 검색 가능한 텍스트로 변환하거나, 콘텐츠 분석을 실행하거나, 색인화 및 다운스트림 처리를 위한 텍스트를 준비하는 데 매우 적합합니다.

  1. 를 사용하여 PDF 문서 열기 문서.
  2. 만들기 TextAbsorber 예.
  3. 전화 document.pages.accept(text_absorber) 모든 페이지를 스캔합니다.
  4. 에서 추출한 텍스트 검색 text_absorber.text.
  5. 결과를 출력 텍스트 파일에 씁니다.
import os
import aspose.pdf as ap


def extract_text_from_all_pages(infile, outfile):
    """
    Extract all text from every page of the PDF and write to an output text file.
    Args:
        infile (str): Path to input PDF file.
        outfile (str): Path to output text file.
    """
    # Open the PDF document
    document = ap.Document(infile)
    # Create a TextAbsorber to extract text
    text_absorber = ap.text.TextAbsorber()
    # Accept the absorber for all pages
    document.pages.accept(text_absorber)
    # Get extracted text
    extracted_text = text_absorber.text
    # Write the text to an output file
    with open(outfile, "w", encoding="utf-8") as tw:
        tw.write(extracted_text)

특정 페이지에서 텍스트 추출

신청하기 텍스트 업소버 여러 페이지로 된 문서의 해당 섹션에서 텍스트를 분리하여 저장하려면 단일 페이지로 이동합니다.이는 청구서, 보고서 섹션 또는 양식 요약과 같이 한 페이지의 콘텐츠만 필요한 경우에 유용합니다.

  1. 를 사용하여 PDF 문서 열기 문서.
  2. 만들기 TextAbsorber 예.
  3. 전화 accept 대상 페이지에서: document.pages[page_number].accept(text_absorber).
  4. 추출한 텍스트를 검색하여 파일에 씁니다.
import os
import aspose.pdf as ap


def extract_text_from_page(infile, outfile, page_number):
    """
    Extract text from a specific page number of the PDF.
    Args:
        infile (str): Path to input PDF file.
        outfile (str): Path to output text file.
        page_number (int): 1-based page index to extract.
    """
    document = ap.Document(infile)
    text_absorber = ap.text.TextAbsorber()
    # Accept the absorber on only the specified page
    document.pages[page_number].accept(text_absorber)
    extracted_text = text_absorber.text
    with open(outfile, "w", encoding="utf-8") as tw:
        tw.write(extracted_text)