Python에서 PDF를 Microsoft Word 문서로 변환

개요

이 문서는 Python을 사용하여 PDF를 Microsoft Word 문서로 변환하는 방법을 설명합니다. 다음 주제를 다룹니다.

형식: DOC

형식: DOCX

형식: Word

Python PDF to DOC 및 DOCX 변환

가장 인기 있는 기능 중 하나는 PDF를 Microsoft Word DOC로 변환하는 기능으로, 콘텐츠 관리를 더 쉽게 만들어 줍니다. Aspose.PDF for Python은 PDF 파일을 DOC뿐만 아니라 DOCX 형식으로도 쉽고 효율적으로 변환할 수 있습니다.

PDF를 DOC (Word 97-2003) 파일로 변환

PDF 파일을 DOC 형식으로 쉽게 변환하고 완전한 제어를 할 수 있습니다. Aspose.PDF for Python은 유연하며 다양한 변환을 지원합니다. 예를 들어, PDF 문서의 페이지를 이미지로 변환하는 것은 매우 인기 있는 기능입니다.

많은 고객들이 요청한 변환 중 하나는 PDF에서 DOC로의 변환입니다: PDF 파일을 Microsoft Word 문서로 변환하는 것입니다. 고객들은 PDF 파일은 쉽게 편집할 수 없는 반면, Word 문서는 편집이 가능하기 때문에 이를 원합니다. 일부 회사들은 사용자가 PDF로 시작한 파일에서 텍스트, 표 및 이미지를 조작할 수 있기를 원합니다.

간단하고 이해하기 쉬운 전통을 유지하며, Aspose.PDF for Python은 두 줄의 코드로 원본 PDF 파일을 DOC 파일로 변환할 수 있게 해줍니다. 이 기능을 구현하기 위해 SaveFormat이라는 열거형을 도입했으며, 그 값 .Doc를 사용하여 소스 파일을 Microsoft Word 형식으로 저장할 수 있습니다.

다음 Python 코드 스니펫은 PDF 파일을 DOC 형식으로 변환하는 과정을 보여줍니다.

단계: Python에서 PDF를 DOC로 변환

  1. 소스 PDF 문서로 Document 객체의 인스턴스를 생성합니다.
  2. Document.Save() 메서드를 호출하여 SaveFormat.Doc 형식으로 저장합니다.

from asposepdf import Api

documentName = "testdata/Hello.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/out.doc"
doc.save(documentOutName, Api.SaveFormat.Doc)

DocSaveOptions 클래스 사용하기

DocSaveOptions 클래스는 PDF 파일을 DOC 형식으로 변환하는 과정을 개선하는 다양한 속성을 제공합니다. 이 속성들 중에서, Mode는 PDF 콘텐츠에 대한 인식 모드를 지정할 수 있게 해줍니다. 이 속성에 대해 RecognitionMode 열거형의 모든 값을 지정할 수 있습니다. 이러한 값 각각은 특정한 이점과 제한 사항이 있습니다:


from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# PDF 문서 열기
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Doc
# 인식 모드를 Flow로 설정
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# 수평 근접성을 2.5로 설정
save_options.relative_horizontal_proximity = 2.5
# 변환 과정에서 불렛 인식을 활성화
save_options.recognize_bullets = True

# 파일을 MS Word 문서 형식으로 저장
document.save(output_pdf, save_options)

PDF를 DOCX로 변환하기

Aspose.PDF for Python API는 Python을 통해 PDF 문서를 DOCX로 읽고 변환할 수 있게 해줍니다. DOCX는 Microsoft Word 문서의 잘 알려진 형식으로, 구조가 단순한 바이너리에서 XML과 바이너리 파일의 조합으로 변경되었습니다. Docx 파일은 Word 2007 및 이후 버전에서는 열 수 있지만 DOC 파일 확장자를 지원하는 MS Word의 이전 버전에서는 열 수 없습니다.

다음의 Python 코드 스니펫은 PDF 파일을 DOCX 형식으로 변환하는 과정을 보여줍니다.

단계: Python에서 PDF를 DOCX로 변환하기

  1. 소스 PDF 문서와 함께 Document 객체의 인스턴스를 생성합니다.

  2. Document.Save() 메서드를 호출하여 SaveFormat.DocX 형식으로 저장합니다.



from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
# PDF 문서 열기
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Docx
# 인식 모드를 Flow로 설정
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# 수평 근접성을 2.5로 설정
save_options.relative_horizontal_proximity = 2.5
# 변환 과정에서 불렛 인식을 활성화
save_options.recognize_bullets = True

# 파일을 MS Word 문서 형식으로 저장
document.save(output_pdf, save_options)

DocSaveOptions 클래스에는 Format이라는 속성이 있으며, 이 속성은 결과 문서의 형식을 DOC 또는 DOCX로 지정할 수 있는 기능을 제공합니다. PDF 파일을 DOCX 형식으로 변환하려면 DocSaveOptions.DocFormat 열거형에서 Docx 값을 전달하세요.

관련 항목

이 문서에서는 다음 주제도 다룹니다. 코드들은 위와 동일합니다.

형식: Word

포맷: DOCX