Convertir des PDF en documents Microsoft Word en Python

Aperçu

Cet article explique comment convertir des PDF en documents Microsoft Word en utilisant Python. Il couvre les sujets suivants.

Format: DOC

Format: DOCX

Format: Word

Conversion de PDF à DOC et DOCX en Python

L’une des fonctionnalités les plus populaires est la conversion de PDF en DOC de Microsoft Word, ce qui facilite la gestion du contenu. Aspose.PDF pour Python vous permet de convertir des fichiers PDF non seulement au format DOC mais aussi au format DOCX, facilement et efficacement.

Convertir un PDF en fichier DOC (Word 97-2003)

Convertissez un fichier PDF au format DOC avec facilité et contrôle total. Aspose.PDF pour Python est flexible et prend en charge une grande variété de conversions. La conversion de pages de documents PDF en images, par exemple, est une fonctionnalité très populaire.

Une conversion que beaucoup de nos clients ont demandée est le PDF en DOC : convertir un fichier PDF en document Microsoft Word. Les clients le souhaitent car les fichiers PDF ne peuvent pas être facilement modifiés, tandis que les documents Word le peuvent. Certaines entreprises veulent que leurs utilisateurs puissent manipuler le texte, les tableaux et les images dans des fichiers qui ont commencé comme des PDF.

En gardant vivante la tradition de rendre les choses simples et compréhensibles, Aspose.PDF pour Python vous permet de transformer un fichier PDF source en un fichier DOC avec deux lignes de code. Pour réaliser cette fonctionnalité, nous avons introduit une énumération nommée SaveFormat et sa valeur .Doc vous permet de sauvegarder le fichier source au format Microsoft Word.

Le fragment de code Python suivant montre le processus de conversion d’un fichier PDF au format DOC.

Étapes : Convertir PDF en DOC en Python

  1. Créez une instance de l’objet Document avec le document PDF source.
  2. Enregistrez-le au format SaveFormat.Doc en appelant la méthode Document.Save().

from asposepdf import Api

documentName = "testdata/Hello.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/out.doc"
doc.save(documentOutName, Api.SaveFormat.Doc)

Utilisation de la classe DocSaveOptions

La classe DocSaveOptions fournit de nombreuses propriétés qui améliorent le processus de conversion des fichiers PDF au format DOC. Parmi ces propriétés, Mode vous permet de spécifier le mode de reconnaissance pour le contenu PDF. Vous pouvez spécifier n’importe quelle valeur de l’énumération RecognitionMode pour cette propriété. Chacune de ces valeurs a des avantages et des limites spécifiques :


from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# Ouvrir le document PDF
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Doc
# Définir le mode de reconnaissance en tant que Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# Définir la proximité horizontale à 2.5
save_options.relative_horizontal_proximity = 2.5
# Activer la valeur pour reconnaître les puces pendant le processus de conversion
save_options.recognize_bullets = True

# Enregistrer le fichier au format document MS Word
document.save(output_pdf, save_options)

Convertir PDF en DOCX

Aspose.PDF pour l’API Python vous permet de lire et de convertir des documents PDF en DOCX en utilisant Python via .NET. DOCX est un format bien connu pour les documents Microsoft Word dont la structure a été modifiée d’un binaire simple à une combinaison de fichiers XML et binaires. Les fichiers Docx peuvent être ouverts avec Word 2007 et les versions ultérieures, mais pas avec les versions antérieures de MS Word qui supportent les extensions de fichiers DOC.

Le snippet de code Python suivant montre le processus de conversion d’un fichier PDF en format DOCX.

Étapes : Convertir PDF en DOCX en Python

  1. Créez une instance de l’objet Document avec le document PDF source.

  2. Enregistrez-le au format SaveFormat.DocX en appelant la méthode Document.Save().



from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
# Ouvrir le document PDF
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Docx
# Définir le mode de reconnaissance comme Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# Définir la proximité horizontale comme 2.5
save_options.relative_horizontal_proximity = 2.5
# Activer la valeur pour reconnaître les puces lors du processus de conversion
save_options.recognize_bullets = True

# Enregistrer le fichier au format document MS Word
document.save(output_pdf, save_options)

La classe DocSaveOptions a une propriété nommée Format qui offre la possibilité de spécifier le format du document résultant, c’est-à-dire DOC ou DOCX. Afin de convertir un fichier PDF au format DOCX, veuillez passer la valeur Docx de l’énumération DocSaveOptions.DocFormat.

Voir Aussi

Cet article couvre également ces sujets. Les codes sont les mêmes que ci-dessus.

Format: Word

Format: DOCX