Convertir PDF en EPUB, texte, XPS et plus en Python

Convertir PDF en EPUB

EPUB est une norme de livre numérique libre et ouverte provenant de l’International Digital Publishing Forum (IDPF). Les fichiers ont l’extension .epub. EPUB est conçu pour du contenu réfluable, ce qui signifie qu’un lecteur EPUB peut optimiser le texte pour un dispositif d’affichage particulier. EPUB prend également en charge le contenu à mise en page fixe. Le format est destiné à être un format unique que les éditeurs et les maisons de conversion peuvent utiliser en interne, ainsi que pour la distribution et la vente. Il remplace la norme Open eBook.

Aspose.PDF for Python prend également en charge la fonctionnalité de conversion des documents PDF au format EPUB. Aspose.PDF for Python possède une classe nommée ‘EpubSaveOptions’ qui peut être utilisée comme deuxième argument de document.save() méthode, pour générer un fichier EPUB. Veuillez essayer d’utiliser le fragment de code suivant pour satisfaire cette exigence avec Python.

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_EPUB(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.EpubSaveOptions()
    save_options.content_recognition_mode = ap.EpubSaveOptions.RecognitionMode.FLOW
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Conversions associées

Convertir le PDF en LaTeX/TeX

Aspose.PDF for Python via .NET prend en charge la conversion de PDF en LaTeX/TeX. Le format de fichier LaTeX est un format de fichier texte avec un balisage spécial et est utilisé dans le système de préparation de documents basé sur TeX pour une mise en forme de haute qualité.

Pour convertir des fichiers PDF en TeX, Aspose.PDF possède la classe LaTeXSaveOptions qui fournit la propriété OutDirectoryPath pour enregistrer les images temporaires pendant le processus de conversion.

Le fragment de code suivant montre le processus de conversion des fichiers PDF au format TEX avec Python.

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_TeX(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.LaTeXSaveOptions()
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir le PDF en texte

Aspose.PDF for Python prend en charge la conversion d’un document PDF complet et d’une page unique en fichier texte. Vous pouvez convertir un document PDF en fichier TXT en utilisant la classe ‘TextDevice’. Le fragment de code suivant explique comment extraire le texte de toutes les pages.

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_TXT(infile, outfile):
    document = ap.Document(infile)
    device = ap.devices.TextDevice()
    device.process(document.pages[1], outfile)

    print(infile + " converted into " + outfile)

Convertir le PDF en XPS

Aspose.PDF for Python offre la possibilité de convertir des fichiers PDF au format XPS. Essayons d’utiliser le fragment de code présenté pour convertir des fichiers PDF au format XPS avec Python.

Le type de fichier XPS est principalement associé à la spécification XML Paper Specification de Microsoft Corporation. La spécification XML Paper Specification (XPS), anciennement nom de code Metro et englobant le concept marketing Next Generation Print Path (NGPP), est l’initiative de Microsoft visant à intégrer la création et la visualisation de documents dans le système d’exploitation Windows.

Pour convertir des fichiers PDF en XPS, Aspose.PDF dispose de la classe XpsSaveOptions qui est utilisé comme deuxième argument du document.save() méthode pour générer le fichier XPS.

Le fragment de code suivant montre le processus de conversion d’un fichier PDF en format XPS.

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_XPS(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.XpsSaveOptions()
    save_options.use_new_imaging_engine = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir le PDF en MD

Aspose.PDF possède la classe ‘MarkdownSaveOptions()’, qui convertit un document PDF au format Markdown (MD) tout en préservant les images et les ressources.

  1. Chargez le PDF source en utilisant ‘ap.Document’.
  2. Créez une instance de ‘MarkdownSaveOptions’.
  3. Définissez ‘resources_directory_name’ sur ‘images’ – les images extraites seront stockées dans ce dossier.
  4. Enregistrez le document Markdown converti en utilisant les options configurées.
  5. Imprimer un message de confirmation après la conversion.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_MD(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.MarkdownSaveOptions()
    save_options.resources_directory_name = "images"
    save_options.use_image_html_tag = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Un fichier Markdown avec du texte et des images liées stockées dans le dossier d’images spécifié.

Convertir le PDF en MobiXML

Cette méthode convertit un document PDF au format MOBI (MobiXML), qui est couramment utilisé pour les livres électroniques sur les appareils Kindle.

  1. Chargez le document PDF source en utilisant ‘ap.Document’.
  2. Enregistrez le document au format ‘ap.SaveFormat.MOBI_XML’.
  3. Imprimez un message de confirmation une fois la conversion terminée.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_MobiXML(infile, outfile):
    document = ap.Document(infile)
    document.save(outfile, ap.SaveFormat.MOBI_XML)

    print(infile + " converted into " + outfile)