Python에서 PDF를 Microsoft Word 문서로 변환
개요
이 문서는 Python을 사용하여 PDF를 Microsoft Word 문서로 변환하는 방법을 설명합니다. 다음 주제를 다룹니다.
형식: DOC
형식: DOCX
형식: Word
Python PDF to DOC 및 DOCX 변환
가장 인기 있는 기능 중 하나는 PDF를 Microsoft Word DOC로 변환하는 기능으로, 콘텐츠 관리를 더 쉽게 만들어 줍니다. Aspose.PDF for Python은 PDF 파일을 DOC뿐만 아니라 DOCX 형식으로도 쉽고 효율적으로 변환할 수 있습니다.
PDF를 DOC (Word 97-2003) 파일로 변환
PDF 파일을 DOC 형식으로 쉽게 변환하고 완전한 제어를 할 수 있습니다. Aspose.PDF for Python은 유연하며 다양한 변환을 지원합니다. 예를 들어, PDF 문서의 페이지를 이미지로 변환하는 것은 매우 인기 있는 기능입니다.
많은 고객들이 요청한 변환 중 하나는 PDF에서 DOC로의 변환입니다: PDF 파일을 Microsoft Word 문서로 변환하는 것입니다. 고객들은 PDF 파일은 쉽게 편집할 수 없는 반면, Word 문서는 편집이 가능하기 때문에 이를 원합니다. 일부 회사들은 사용자가 PDF로 시작한 파일에서 텍스트, 표 및 이미지를 조작할 수 있기를 원합니다.
간단하고 이해하기 쉬운 전통을 유지하며, Aspose.PDF for Python은 두 줄의 코드로 원본 PDF 파일을 DOC 파일로 변환할 수 있게 해줍니다. 이 기능을 구현하기 위해 SaveFormat이라는 열거형을 도입했으며, 그 값 .Doc를 사용하여 소스 파일을 Microsoft Word 형식으로 저장할 수 있습니다.
다음 Python 코드 스니펫은 PDF 파일을 DOC 형식으로 변환하는 과정을 보여줍니다.
- 소스 PDF 문서로 Document 객체의 인스턴스를 생성합니다.
- Document.Save() 메서드를 호출하여 SaveFormat.Doc 형식으로 저장합니다.
from asposepdf import Api
documentName = "testdata/Hello.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/out.doc"
doc.save(documentOutName, Api.SaveFormat.Doc)
DocSaveOptions 클래스 사용하기
DocSaveOptions 클래스는 PDF 파일을 DOC 형식으로 변환하는 과정을 개선하는 다양한 속성을 제공합니다. 이 속성들 중에서, Mode는 PDF 콘텐츠에 대한 인식 모드를 지정할 수 있게 해줍니다. 이 속성에 대해 RecognitionMode 열거형의 모든 값을 지정할 수 있습니다. 이러한 값 각각은 특정한 이점과 제한 사항이 있습니다:
from asposepdf import Api
DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"
input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# PDF 문서 열기
document = Api.Document(input_pdf)
save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Doc
# 인식 모드를 Flow로 설정
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# 수평 근접성을 2.5로 설정
save_options.relative_horizontal_proximity = 2.5
# 변환 과정에서 불렛 인식을 활성화
save_options.recognize_bullets = True
# 파일을 MS Word 문서 형식으로 저장
document.save(output_pdf, save_options)
PDF를 DOC로 온라인 변환 시도하기
Aspose.PDF for Python은 온라인 무료 애플리케이션 “PDF to DOC”을 제공합니다. 여기서 기능과 품질을 조사해 볼 수 있습니다.
PDF를 DOCX로 변환하기
Aspose.PDF for Python API는 Python을 통해 PDF 문서를 DOCX로 읽고 변환할 수 있게 해줍니다. DOCX는 Microsoft Word 문서의 잘 알려진 형식으로, 구조가 단순한 바이너리에서 XML과 바이너리 파일의 조합으로 변경되었습니다. Docx 파일은 Word 2007 및 이후 버전에서는 열 수 있지만 DOC 파일 확장자를 지원하는 MS Word의 이전 버전에서는 열 수 없습니다.
다음의 Python 코드 스니펫은 PDF 파일을 DOCX 형식으로 변환하는 과정을 보여줍니다.
-
소스 PDF 문서와 함께 Document 객체의 인스턴스를 생성합니다.
-
Document.Save() 메서드를 호출하여 SaveFormat.DocX 형식으로 저장합니다.
from asposepdf import Api
DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"
input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
# PDF 문서 열기
document = Api.Document(input_pdf)
save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Docx
# 인식 모드를 Flow로 설정
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# 수평 근접성을 2.5로 설정
save_options.relative_horizontal_proximity = 2.5
# 변환 과정에서 불렛 인식을 활성화
save_options.recognize_bullets = True
# 파일을 MS Word 문서 형식으로 저장
document.save(output_pdf, save_options)
DocSaveOptions 클래스에는 Format이라는 속성이 있으며, 이 속성은 결과 문서의 형식을 DOC 또는 DOCX로 지정할 수 있는 기능을 제공합니다. PDF 파일을 DOCX 형식으로 변환하려면 DocSaveOptions.DocFormat 열거형에서 Docx 값을 전달하세요.
온라인에서 PDF를 DOCX로 변환해 보세요
Aspose.PDF for Python은 온라인 무료 애플리케이션 “PDF to Word”을 제공합니다. 여기에서 기능과 품질을 조사해 볼 수 있습니다.
관련 항목
이 문서에서는 다음 주제도 다룹니다. 코드들은 위와 동일합니다.
형식: Word
-
Python PDF에서 Word 변환기 Format: DOC
포맷: DOCX