Convertir des PDF en Documents Microsoft Word en Python

Vue d’ensemble

Cet article explique comment convertir des PDF en documents Microsoft Word en utilisant Python. Il couvre ces sujets.

Format: DOC

Format: DOCX

Format: Word

Conversion de PDF à DOC et DOCX en Python

L’une des fonctionnalités les plus populaires est la conversion de PDF en DOC de Microsoft Word, ce qui facilite la gestion du contenu. Aspose.PDF pour Python vous permet de convertir des fichiers PDF non seulement en DOC mais aussi en format DOCX, facilement et efficacement.

Convertir un PDF en fichier DOC (Word 97-2003)

Convertissez un fichier PDF en format DOC avec aisance et contrôle total. Aspose.PDF pour Python est flexible et prend en charge une grande variété de conversions. Par exemple, la conversion de pages de documents PDF en images est une fonctionnalité très populaire.

Une conversion que beaucoup de nos clients ont demandée est la conversion de PDF à DOC : convertir un fichier PDF en document Microsoft Word. Les clients veulent cela parce que les fichiers PDF ne peuvent pas être facilement modifiés, tandis que les documents Word le peuvent. Certaines entreprises souhaitent que leurs utilisateurs puissent manipuler le texte, les tableaux et les images dans des fichiers qui ont commencé comme des PDF.

En gardant vivante la tradition de rendre les choses simples et compréhensibles, Aspose.PDF pour Python vous permet de transformer un fichier PDF source en fichier DOC avec deux lignes de code. Pour accomplir cette fonctionnalité, nous avons introduit une énumération nommée SaveFormat et sa valeur .Doc vous permet de sauvegarder le fichier source au format Microsoft Word.

Le snippet de code Python suivant montre le processus de conversion d’un fichier PDF en format DOC.

Étapes : Convertir PDF en DOC en Python

  1. Créez une instance de l’objet Document avec le document PDF source.
  2. Enregistrez-le au format SaveFormat en appelant la méthode save().

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"
    # Ouvrir le document PDF
    document = ap.Document(input_pdf)
    # Enregistrer le fichier au format document MS Word
    document.save(output_pdf, ap.SaveFormat.DOC)

Utilisation de la classe DocSaveOptions

La classe DocSaveOptions fournit de nombreuses propriétés qui améliorent le processus de conversion des fichiers PDF en format DOC. Parmi ces propriétés, Mode vous permet de spécifier le mode de reconnaissance pour le contenu PDF. Vous pouvez spécifier n’importe quelle valeur de l’énumération RecognitionMode pour cette propriété. Chacune de ces valeurs a des avantages et des limitations spécifiques :


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
    # Ouvrir le document PDF
    document = ap.Document(input_pdf)

    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC
    # Définir le mode de reconnaissance comme Flow
    save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
    # Définir la proximité horizontale à 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Activer la reconnaissance des puces lors du processus de conversion
    save_options.recognize_bullets = True

    # Enregistrer le fichier au format document MS Word
    document.save(output_pdf, save_options)

Convertir PDF en DOCX

Aspose.PDF pour Python API vous permet de lire et de convertir des documents PDF en DOCX à l’aide de Python via .NET. DOCX est un format bien connu pour les documents Microsoft Word dont la structure est passée d’un binaire simple à une combinaison de fichiers XML et binaires. Les fichiers DOCX peuvent être ouverts avec Word 2007 et les versions ultérieures, mais pas avec les versions antérieures de MS Word qui prennent en charge les extensions de fichiers DOC.

Le fragment de code Python suivant montre le processus de conversion d’un fichier PDF en format DOCX.

Étapes : Convertir PDF en DOCX en Python

  1. Créez une instance de l’objet Document avec le document PDF source.

  2. Enregistrez-le au format SaveFormat en appelant la méthode save().


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_docx_options.docx"
    # Ouvrir le document PDF
    document = ap.Document(input_pdf)

    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    # Définir le mode de reconnaissance comme Flow
    save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
    # Définir la proximité horizontale à 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Activer la valeur pour reconnaître les puces pendant le processus de conversion
    save_options.recognize_bullets = True

    # Enregistrer le fichier au format document MS Word
    document.save(output_pdf, save_options)

La classe DocSaveOptions a une propriété nommée Format qui offre la possibilité de spécifier le format du document résultant, c’est-à-dire, DOC ou DOCX. Afin de convertir un fichier PDF au format DOCX, veuillez passer la valeur Docx de l’énumération DocSaveOptions.DocFormat.

Voir Aussi

Cet article couvre également ces sujets. Les codes sont les mêmes que ci-dessus.

Format: Word

Format: DOCX