Converter PDF para Word em Python

Converter PDF para DOC

Uma das funcionalidades mais populares é a conversão de PDF para Microsoft Word DOC, que facilita a gestão de conteúdo. Aspose.PDF for Python via .NET permite converter arquivos PDF não apenas para DOC, mas também para o formato DOCX, de forma fácil e eficiente.

Use a conversão para Word quando precisar revisar texto, reutilizar conteúdo em fluxos de trabalho de escritório ou mover conteúdo PDF para documentos editáveis DOC ou DOCX.

O DocSaveOptions a classe fornece inúmeras propriedades que melhoram o processo de conversão de arquivos PDF para o formato DOC. Entre essas propriedades, Mode permite que você especifique o modo de reconhecimento para o conteúdo PDF. Você pode especificar qualquer valor da enumeração RecognitionMode para esta propriedade. Cada um desses valores tem benefícios e limitações específicas:

Etapas: Converter PDF para DOC em Python

  1. Carregue o PDF em um objeto ‘ap.Document’.
  2. Crie uma instância de ‘DocSaveOptions’.
  3. Defina a propriedade format como ‘DocFormat.DOC’ para garantir que a saída esteja no formato .doc (formato Word mais antigo).
  4. Salve o PDF como um documento Word usando as opções de salvamento especificadas.
  5. Imprima uma mensagem de confirmação.
from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOC(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Converter PDF para DOCX

Aspose.PDF for Python API permite ler e converter documentos PDF para DOCX usando Python via .NET. DOCX é um formato bem conhecido para documentos Microsoft Word cuja estrutura foi alterada de binário puro para uma combinação de arquivos XML e binários. Arquivos Docx podem ser abertos com o Word 2007 e versões laterais, mas não com as versões anteriores do MS Word que suportam extensões de arquivo DOC.

O seguinte trecho de código Python mostra o processo de conversão de um arquivo PDF para o formato DOCX.

Etapas: Converter PDF para DOCX em Python

  1. Carregue o PDF de origem usando ‘ap.Document’.
  2. Crie uma instância de ‘DocSaveOptions’.
  3. Defina a propriedade format como ‘DocFormat.DOC_X’ para gerar um arquivo .docx (formato Word moderno).
  4. Salve o PDF como um arquivo DOCX com as opções de salvamento configuradas.
  5. Imprima uma mensagem de confirmação após a conversão.
from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOCX(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    document.save(outfile, save_options)

Converter PDF para DOCX com Reconhecimento Avançado de Layout

Converta um documento PDF em um arquivo DOCX (Word) usando Python e Aspose.PDF com configurações avançadas de reconhecimento. Ele usa o modo de fluxo aprimorado para preservar a estrutura do documento, tornando a saída mais editável e mais próxima do layout original.

from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOCX_advanced(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    save_options.mode = ap.DocSaveOptions.RecognitionMode.ENHANCED_FLOW
    document.save(outfile, save_options)

O DocSaveOptions A classe tem uma propriedade chamada Format que fornece a capacidade de especificar o formato do documento resultante, ou seja, DOC ou DOCX. Para converter um arquivo PDF para o formato DOCX, por favor passe o valor Docx da enumeração DocSaveOptions.DocFormat.

Conversões relacionadas