Конвертировать PDF в Word в Python

Преобразование PDF в DOC

Одна из самых популярных функций — преобразование PDF в документ Microsoft Word DOC, что упрощает управление контентом. Aspose.PDF for Python via .NET позволяет конвертировать PDF‑файлы не только в DOC, но и в формат DOCX, быстро и эффективно.

Используйте преобразование в Word, когда необходимо редактировать текст, повторно использовать контент в офисных рабочих процессах или перенести содержимое PDF в редактируемые документы DOC или DOCX.

Эта DocSaveOptions класс предоставляет многочисленные свойства, которые улучшают процесс преобразования PDF‑файлов в формат DOC. Среди этих свойств свойство Mode позволяет указать режим распознавания содержимого PDF. Для этого свойства можно задать любое значение из перечисления RecognitionMode. Каждое из этих значений имеет определённые преимущества и ограничения:

Шаги: Конвертировать PDF в DOC в Python

  1. Загрузите PDF в объект ‘ap.Document’ объект.
  2. Создайте экземпляр ‘DocSaveOptions’.
  3. Установите свойство format в значение ‘DocFormat.DOC’, чтобы гарантировать, что вывод будет в формате .doc (старый формат Word).
  4. Сохраните PDF как документ Word, используя указанные параметры сохранения.
  5. Выведите сообщение подтверждения.
from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOC(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразование PDF в DOCX

Aspose.PDF for Python API позволяет читать и конвертировать PDF‑документы в DOCX с помощью Python via .NET. DOCX — это широко известный формат для документов Microsoft Word, структура которого была изменена от простого бинарного к комбинации XML и бинарных файлов. Файлы Docx можно открывать в Word 2007 и последующих версиях, но не в более ранних версиях MS Word, которые поддерживают расширения файлов DOC.

Следующий фрагмент кода на Python показывает процесс конвертации PDF‑файла в формат DOCX.

Шаги: Конвертировать PDF в DOCX с помощью Python

  1. Загрузите исходный PDF, используя ‘ap.Document’.
  2. Создайте экземпляр ‘DocSaveOptions’.
  3. Установите свойство format в значение ‘DocFormat.DOC_X’, чтобы создать файл .docx (современный формат Word).
  4. Сохраните PDF как файл DOCX с настроенными параметрами сохранения.
  5. Выведите сообщение подтверждения после преобразования.
from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOCX(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    document.save(outfile, save_options)

Преобразование PDF в DOCX с расширенным распознаванием разметки

Конвертировать PDF‑документ в файл DOCX (Word) с использованием Python и Aspose.PDF с расширенными настройками распознавания. Используется режим улучшенного потока для сохранения структуры документа, делая вывод более редактируемым и ближе к исходному макету.

from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOCX_advanced(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    save_options.mode = ap.DocSaveOptions.RecognitionMode.ENHANCED_FLOW
    document.save(outfile, save_options)

Эта DocSaveOptions У класса есть свойство под названием Format, которое позволяет указать формат результирующего документа, то есть DOC или DOCX. Для конвертации PDF‑файла в формат DOCX, пожалуйста, передайте значение Docx из перечисления DocSaveOptions.DocFormat.

Связанные преобразования