Конвертировать PDF в Word в Python

Эта страница показывает, как конвертировать PDF в Word на Python. Используйте эти примеры, когда вам нужен редактируемый вывод DOC или DOCX из PDF‑файла для правки, повторного использования или офисных рабочих процессов с документами.

Конвертировать PDF в DOC на Python

Одна из самых популярных функций — конвертация PDF в Microsoft Word DOC, что упрощает управление контентом. Aspose.PDF for Python via .NET позволяет конвертировать PDF‑файлы не только в DOC, но и в формат DOCX легко и эффективно.

Используйте конвертацию в Word, когда вам нужно редактировать текст, повторно использовать контент в офисных рабочих процессах или переместить содержимое PDF в редактируемые документы DOC или DOCX.

The DocSaveOptions Класс DocSaveOptions предоставляет множество свойств, которые улучшают процесс конвертации файлов PDF в формат DOC. Среди этих свойств свойство Mode позволяет указать режим распознавания содержимого PDF. Вы можете задать любое значение из перечисления RecognitionMode для этого свойства. Каждое из этих значений имеет конкретные преимущества и ограничения:

Шаги: конвертировать PDF в DOC на Python

  1. Загрузите PDF в объект ‘ap.Document’.
  2. Создайте экземпляр ‘DocSaveOptions’.
  3. Установите свойство format в значение ‘DocFormat.DOC’, чтобы гарантировать, что вывод будет в формате .doc (старый формат Word).
  4. Сохраните PDF как документ Word, используя указанные параметры сохранения.
  5. Выведите подтверждающее сообщение.
from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOC(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Конвертировать PDF в DOCX на Python

Aspose.PDF for Python API позволяет читать и конвертировать PDF‑документы в DOCX с помощью Python через .NET. DOCX — это широко известный формат для документов Microsoft Word, структура которого была изменена с простого бинарного на комбинацию XML‑ и бинарных файлов. Файлы DOCX можно открывать в Word 2007 и последующих версиях, но не в более ранних версиях MS Word, поддерживающих расширения файлов DOC.

Следующий фрагмент кода на Python демонстрирует процесс конвертации PDF‑файла в формат DOCX.

Шаги: Конвертировать PDF в DOCX с помощью Python

  1. Загрузите исходный PDF, используя ‘ap.Document’.
  2. Создайте экземпляр ‘DocSaveOptions’.
  3. Установите свойство format в значение ‘DocFormat.DOC_X’, чтобы сгенерировать файл .docx (современный формат Word).
  4. Сохраните PDF как файл DOCX с использованием настроенных параметров сохранения.
  5. Выведите сообщение подтверждения после конвертации.
from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOCX(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    document.save(outfile, save_options)

Преобразовать PDF в DOCX с расширенным распознаванием макета

Преобразовать PDF‑документ в файл DOCX (Word) с помощью Python и Aspose.PDF, используя расширенные настройки распознавания. Он использует улучшенный режим потока для сохранения структуры документа, делая вывод более редактируемым и ближе к оригинальному макету.

from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOCX_advanced(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    save_options.mode = ap.DocSaveOptions.RecognitionMode.ENHANCED_FLOW
    document.save(outfile, save_options)

The DocSaveOptions класс имеет свойство под названием Format, которое предоставляет возможность указать формат результирующего документа, то есть DOC или DOCX. Чтобы преобразовать файл PDF в формат DOCX, передайте значение Docx из перечисления DocSaveOptions.DocFormat.

Связанные конвертации