Конвертировать PDF в EPUB, Text, XPS и другие форматы в Python

Преобразование PDF в EPUB

EPUB является бесплатным и открытым стандартом электронных книг от International Digital Publishing Forum (IDPF). Файлы имеют расширение .epub. EPUB разработан для контента с плавающей разметкой, что означает, что читалка EPUB может оптимизировать текст под конкретное устройство отображения. EPUB также поддерживает контент фиксированного макета. Формат предназначен как единый формат, который издатели и компании, занимающиеся конвертацией, могут использовать внутри своей организации, а также для распространения и продажи. Он заменил стандарт Open eBook.

Aspose.PDF for Python также поддерживает возможность конвертировать PDF документы в формат EPUB. Aspose.PDF for Python имеет класс под названием ‘EpubSaveOptions’, который можно использовать в качестве второго аргумента к document.save() метод, для создания файла EPUB. Пожалуйста, попробуйте использовать следующий фрагмент кода, чтобы выполнить это требование с помощью Python.

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_EPUB(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.EpubSaveOptions()
    save_options.content_recognition_mode = ap.EpubSaveOptions.RecognitionMode.FLOW
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Связанные преобразования

Преобразование PDF в LaTeX/TeX

Aspose.PDF for Python via .NET поддерживает преобразование PDF в LaTeX/TeX. Формат файла LaTeX — это текстовый формат файла со специальной разметкой, используемый в системе подготовки документов на основе TeX для высококачественной наборной печати.

Для конвертации PDF‑файлов в TeX Aspose.PDF имеет класс LaTeXSaveOptions который предоставляет свойство OutDirectoryPath для сохранения временных изображений во время процесса конвертации.

Следующий фрагмент кода показывает процесс преобразования PDF‑файлов в формат TEX с помощью Python.

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_TeX(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.LaTeXSaveOptions()
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразование PDF в текст

Aspose.PDF for Python поддерживает конвертацию всего PDF‑документа и отдельной страницы в текстовый файл. Вы можете конвертировать PDF‑документ в TXT‑файл, используя класс ‘TextDevice’. Следующий фрагмент кода объясняет, как извлечь текст со всех страниц.

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_TXT(infile, outfile):
    document = ap.Document(infile)
    device = ap.devices.TextDevice()
    device.process(document.pages[1], outfile)

    print(infile + " converted into " + outfile)

Преобразование PDF в XPS

Aspose.PDF for Python предоставляет возможность конвертировать PDF файлы в формат XPS. Давайте попробуем использовать представленный фрагмент кода для конвертации PDF файлов в формат XPS с помощью Python.

Тип файла XPS в первую очередь связан со спецификацией XML Paper Specification, разработанной корпорацией Microsoft. Спецификация XML Paper Specification (XPS), ранее имевшая кодовое название Metro и включающая концепцию маркетинга Next Generation Print Path (NGPP), является инициативой Microsoft по интеграции создания и просмотра документов в операционную систему Windows.

Чтобы преобразовать PDF-файлы в XPS, Aspose.PDF имеет класс XpsSaveOptions который используется в качестве второго аргумента к document.save() метод создания XPS‑файла.

Следующий фрагмент кода демонстрирует процесс преобразования PDF‑файла в формат XPS.

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_XPS(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.XpsSaveOptions()
    save_options.use_new_imaging_engine = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразование PDF в MD

Aspose.PDF имеет класс ‘MarkdownSaveOptions()’, который преобразует PDF‑документ в формат Markdown (MD), сохраняя изображения и ресурсы.

  1. Загрузите исходный PDF, используя ‘ap.Document’.
  2. Создайте экземпляр ‘MarkdownSaveOptions’.
  3. Установите ‘resources_directory_name’ в значение ‘images’ – извлечённые изображения будут сохраняться в этой папке.
  4. Сохраните преобразованный документ Markdown, используя настроенные параметры.
  5. Выведите сообщение подтверждения после конвертации.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_MD(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.MarkdownSaveOptions()
    save_options.resources_directory_name = "images"
    save_options.use_image_html_tag = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Markdown‑файл с текстом и связанными изображениями, хранящимися в указанной папке images.

Преобразование PDF в MobiXML

Этот метод преобразует документ PDF в формат MOBI (MobiXML), который обычно используется для электронных книг на устройствах Kindle.

  1. Загрузите исходный PDF-документ, используя ‘ap.Document’.
  2. Сохраните документ в формате ‘ap.SaveFormat.MOBI_XML’.
  3. Выведите подтверждающее сообщение после завершения преобразования.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_MobiXML(infile, outfile):
    document = ap.Document(infile)
    document.save(outfile, ap.SaveFormat.MOBI_XML)

    print(infile + " converted into " + outfile)