Конвертировать PDF в документы Microsoft Word на Python

Обзор

Эта статья объясняет, как конвертировать PDF в документы Microsoft Word с использованием Python. Она охватывает следующие темы.

Формат: DOC

Формат: DOCX

Формат: Word

Python PDF to DOC и DOCX Конвертация

Одна из самых популярных функций — это преобразование PDF в Microsoft Word DOC, что упрощает управление контентом. Aspose.PDF for Python позволяет конвертировать PDF-файлы не только в DOC, но и в DOCX формат, легко и эффективно.

Конвертировать PDF в DOC (Word 97-2003) файл

Конвертируйте PDF файл в формат DOC с легкостью и полным контролем. Aspose.PDF for Python гибкий и поддерживает широкий спектр преобразований. Преобразование страниц из PDF-документов в изображения, например, является очень популярной функцией.

Преобразование, которое многие из наших клиентов запрашивают, это PDF в DOC: преобразование PDF файла в документ Microsoft Word. Клиенты хотят этого, потому что PDF файлы не могут быть легко отредактированы, в то время как документы Word могут. Некоторые компании хотят, чтобы их пользователи могли манипулировать текстом, таблицами и изображениями в файлах, которые изначально были PDF.

Сохраняя традицию делать вещи простыми и понятными, Aspose.PDF for Python позволяет преобразовать исходный PDF файл в DOC файл двумя строками кода. Чтобы реализовать эту функцию, мы ввели перечисление с именем SaveFormat, и его значение .Doc позволяет сохранить исходный файл в формате Microsoft Word.

Следующий фрагмент кода на Python показывает процесс преобразования файла PDF в формат DOC.

Шаги: Преобразование PDF в DOC на Python

  1. Создайте экземпляр объекта Document с исходным PDF-документом.
  2. Сохраните его в формате SaveFormat, вызвав метод save().

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"
    # Открыть PDF-документ
    document = ap.Document(input_pdf)
    # Сохранить файл в формате документа MS Word
    document.save(output_pdf, ap.SaveFormat.DOC)

Использование класса DocSaveOptions

Класс DocSaveOptions предоставляет множество свойств, которые улучшают процесс преобразования PDF-файлов в формат DOC. Среди этих свойств Mode позволяет вам указать режим распознавания для содержимого PDF. Вы можете указать любое значение из перечисления RecognitionMode для этого свойства. Каждое из этих значений имеет определенные преимущества и ограничения:


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
    # Открыть PDF документ
    document = ap.Document(input_pdf)

    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC
    # Установить режим распознавания как Flow
    save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
    # Установить горизонтальную близость как 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Включить значение для распознавания маркеров в процессе конверсии
    save_options.recognize_bullets = True

    # Сохранить файл в формате документа MS Word
    document.save(output_pdf, save_options)

Конвертация PDF в DOCX

Aspose.PDF для Python API позволяет читать и конвертировать PDF-документы в DOCX с использованием Python через .NET. DOCX — это известный формат документов Microsoft Word, структура которого была изменена с простого бинарного на комбинацию XML и бинарных файлов. Файлы DOCX могут быть открыты с помощью Word 2007 и более поздних версий, но не с более ранними версиями MS Word, которые поддерживают расширения файлов DOC.

Следующий фрагмент кода на Python показывает процесс конвертации PDF файла в формат DOCX.

Шаги: Конвертация PDF в DOCX на Python

  1. Создайте экземпляр объекта Document с исходным PDF-документом.

  2. Сохраните его в формате SaveFormat, вызвав метод save().


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_docx_options.docx"
    # Открыть PDF документ
    document = ap.Document(input_pdf)

    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    # Установить режим распознавания как Flow
    save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
    # Установить горизонтальную близость как 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Включить распознавание маркеров в процессе конвертации
    save_options.recognize_bullets = True

    # Сохранить файл в формате документа MS Word
    document.save(output_pdf, save_options)

Класс DocSaveOptions имеет свойство под названием Format, которое предоставляет возможность указать формат результирующего документа, то есть DOC или DOCX. Чтобы преобразовать файл PDF в формат DOCX, передайте значение Docx из перечисления DocSaveOptions.DocFormat.

См. также

Эта статья также охватывает следующие темы. Коды такие же, как выше.

Формат: Word

Format: DOCX