Python에서 PDF를 텍스트로 변환

PDF를 텍스트로 변환

Aspose.PDF for Python은 전체 PDF 문서와 단일 페이지를 텍스트 파일로 변환하는 것을 지원합니다.

PDF 문서를 텍스트 파일로 변환

‘TextDevice’ 클래스를 사용하여 PDF 문서를 TXT 파일로 변환할 수 있습니다.

  1. 입력 및 출력 파일 경로 생성

  2. extractor_create를 사용하여 PDF 추출기 파사드 인스턴스 생성

  3. extractor_bind_pdf를 사용하여 PDF 파일을 추출기에 바인딩

  4. extractor_extract_text를 사용하여 PDF 파일에서 텍스트 추출

  5. 추출한 텍스트를 출력 파일에 작성

  6. ‘document.save’ 메서드를 사용하여 출력 PDF 저장

다음 코드 스니펫은 모든 페이지에서 텍스트를 추출하는 방법을 설명합니다.


    from AsposePdfPython import *

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_txt.txt"

    extactor = extractor_create()
    extractor_bind_pdf(extactor,input_pdf)
    text = extractor_extract_text(extactor)

    with open(output_pdf, 'w') as f:
        f.write(text)