Конвертировать PDF в документы Microsoft Word на Python
Обзор
Эта статья объясняет, как конвертировать PDF в документы Microsoft Word с использованием Python. Она охватывает следующие темы.
Формат: DOC
Формат: DOCX
Формат: Word
Python PDF to DOC и DOCX Конвертация
Одна из самых популярных функций — это преобразование PDF в Microsoft Word DOC, что упрощает управление контентом. Aspose.PDF for Python позволяет конвертировать PDF-файлы не только в DOC, но и в DOCX формат, легко и эффективно.
Конвертировать PDF в DOC (Word 97-2003) файл
Конвертируйте PDF файл в формат DOC с легкостью и полным контролем. Aspose.PDF for Python гибкий и поддерживает широкий спектр преобразований. Преобразование страниц из PDF-документов в изображения, например, является очень популярной функцией.
Преобразование, которое многие из наших клиентов запрашивают, это PDF в DOC: преобразование PDF файла в документ Microsoft Word. Клиенты хотят этого, потому что PDF файлы не могут быть легко отредактированы, в то время как документы Word могут. Некоторые компании хотят, чтобы их пользователи могли манипулировать текстом, таблицами и изображениями в файлах, которые изначально были PDF.
Сохраняя традицию делать вещи простыми и понятными, Aspose.PDF for Python позволяет преобразовать исходный PDF файл в DOC файл двумя строками кода. Чтобы реализовать эту функцию, мы ввели перечисление с именем SaveFormat, и его значение .Doc позволяет сохранить исходный файл в формате Microsoft Word.
Следующий фрагмент кода на Python показывает процесс преобразования файла PDF в формат DOC.
Шаги: Преобразование PDF в DOC на Python
- Создайте экземпляр объекта Document с исходным PDF-документом.
- Сохраните его в формате SaveFormat, вызвав метод save().
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"
# Открыть PDF-документ
document = ap.Document(input_pdf)
# Сохранить файл в формате документа MS Word
document.save(output_pdf, ap.SaveFormat.DOC)
Использование класса DocSaveOptions
Класс DocSaveOptions предоставляет множество свойств, которые улучшают процесс преобразования PDF-файлов в формат DOC. Среди этих свойств Mode позволяет вам указать режим распознавания для содержимого PDF. Вы можете указать любое значение из перечисления RecognitionMode для этого свойства. Каждое из этих значений имеет определенные преимущества и ограничения:
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# Открыть PDF документ
document = ap.Document(input_pdf)
save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOC
# Установить режим распознавания как Flow
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
# Установить горизонтальную близость как 2.5
save_options.relative_horizontal_proximity = 2.5
# Включить значение для распознавания маркеров в процессе конверсии
save_options.recognize_bullets = True
# Сохранить файл в формате документа MS Word
document.save(output_pdf, save_options)
Попробуйте конвертировать PDF в DOC онлайн
Aspose.PDF для Python предоставляет вам бесплатное онлайн-приложение “PDF to DOC”, где вы можете попробовать исследовать функциональность и качество его работы.
Конвертация PDF в DOCX
Aspose.PDF для Python API позволяет читать и конвертировать PDF-документы в DOCX с использованием Python через .NET. DOCX — это известный формат документов Microsoft Word, структура которого была изменена с простого бинарного на комбинацию XML и бинарных файлов. Файлы DOCX могут быть открыты с помощью Word 2007 и более поздних версий, но не с более ранними версиями MS Word, которые поддерживают расширения файлов DOC.
Следующий фрагмент кода на Python показывает процесс конвертации PDF файла в формат DOCX.
Шаги: Конвертация PDF в DOCX на Python
-
Создайте экземпляр объекта Document с исходным PDF-документом.
-
Сохраните его в формате SaveFormat, вызвав метод save().
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_docx_options.docx"
# Открыть PDF документ
document = ap.Document(input_pdf)
save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
# Установить режим распознавания как Flow
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
# Установить горизонтальную близость как 2.5
save_options.relative_horizontal_proximity = 2.5
# Включить распознавание маркеров в процессе конвертации
save_options.recognize_bullets = True
# Сохранить файл в формате документа MS Word
document.save(output_pdf, save_options)
Класс DocSaveOptions имеет свойство под названием Format, которое предоставляет возможность указать формат результирующего документа, то есть DOC или DOCX. Чтобы преобразовать файл PDF в формат DOCX, передайте значение Docx из перечисления DocSaveOptions.DocFormat.
Попробуйте преобразовать PDF в DOCX онлайн
Aspose.PDF для Python предлагает вам бесплатное онлайн-приложение “PDF в Word”, где вы можете попробовать исследовать функциональность и качество работы.
См. также
Эта статья также охватывает следующие темы. Коды такие же, как выше.
Формат: Word
-
Python Конвертер PDF в Word Format: DOC
Format: DOCX