Converter PDF para Documentos Microsoft Word em Python
Visão Geral
Este artigo explica como converter PDF para Documentos Microsoft Word usando Python. Ele cobre esses tópicos.
Formato: DOC
Formato: DOCX
Formato: Word
Conversão de PDF para DOC e DOCX em Python
Um dos recursos mais populares é a conversão de PDF para DOC do Microsoft Word, que facilita o gerenciamento de conteúdo. Aspose.PDF for Python permite converter arquivos PDF não apenas para DOC, mas também para o formato DOCX, de maneira fácil e eficiente.
Converter PDF para arquivo DOC (Word 97-2003)
Converta arquivos PDF para o formato DOC com facilidade e controle total. Aspose.PDF for Python é flexível e suporta uma ampla variedade de conversões. Converter páginas de documentos PDF em imagens, por exemplo, é um recurso muito popular.
Uma conversão que muitos de nossos clientes solicitaram é de PDF para DOC: converter um arquivo PDF em um documento do Microsoft Word. Os clientes querem isso porque os arquivos PDF não podem ser facilmente editados, enquanto os documentos do Word podem. Algumas empresas desejam que seus usuários possam manipular texto, tabelas e imagens em arquivos que começaram como PDFs.
Mantendo viva a tradição de tornar as coisas simples e compreensíveis, o Aspose.PDF for Python permite transformar um arquivo PDF de origem em um arquivo DOC com duas linhas de código. Para realizar esse recurso, introduzimos uma enumeração chamada SaveFormat e seu valor .Doc permite salvar o arquivo de origem no formato Microsoft Word.
O seguinte trecho de código Python mostra o processo de conversão de um arquivo PDF para o formato DOC.
Passos: Converter PDF para DOC em Python
- Crie uma instância do objeto Document com o documento PDF de origem.
- Salve-o no formato SaveFormat.Doc chamando o método Document.Save().
from asposepdf import Api
documentName = "testdata/Hello.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/out.doc"
doc.save(documentOutName, Api.SaveFormat.Doc)
Usando a Classe DocSaveOptions
A classe DocSaveOptions fornece várias propriedades que melhoram o processo de conversão de arquivos PDF para o formato DOC. Entre essas propriedades, o Modo permite que você especifique o modo de reconhecimento para o conteúdo do PDF. Você pode especificar qualquer valor da enumeração RecognitionMode para esta propriedade. Cada um desses valores tem benefícios e limitações específicos:
from asposepdf import Api
DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"
input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# Abrir documento PDF
document = Api.Document(input_pdf)
save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Doc
# Definir o modo de reconhecimento como Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# Definir a proximidade horizontal como 2.5
save_options.relative_horizontal_proximity = 2.5
# Ativar o valor para reconhecer marcadores durante o processo de conversão
save_options.recognize_bullets = True
# Salvar o arquivo no formato de documento do MS Word
document.save(output_pdf, save_options)
Tente converter PDF para DOC online
Aspose.PDF para Python apresenta a você a aplicação online gratuita “PDF para DOC”, onde você pode tentar investigar a funcionalidade e a qualidade com que funciona.
Converter PDF para DOCX
Aspose.PDF para Python API permite ler e converter documentos PDF para DOCX usando Python via .NET. DOCX é um formato conhecido para documentos do Microsoft Word cuja estrutura foi alterada de binário simples para uma combinação de arquivos XML e binários. Arquivos Docx podem ser abertos com o Word 2007 e versões posteriores, mas não com as versões anteriores do MS Word que suportam extensões de arquivos DOC.
O seguinte trecho de código Python mostra o processo de conversão de um arquivo PDF para o formato DOCX.
Etapas: Converter PDF para DOCX em Python
-
Crie uma instância do objeto Document com o documento PDF de origem.
-
Salve-o no formato SaveFormat.DocX chamando o método Document.Save().
from asposepdf import Api
DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"
input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
# Abrir documento PDF
document = Api.Document(input_pdf)
save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Docx
# Definir o modo de reconhecimento como Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# Definir a proximidade horizontal como 2.5
save_options.relative_horizontal_proximity = 2.5
# Habilitar o valor para reconhecer marcadores durante o processo de conversão
save_options.recognize_bullets = True
# Salvar o arquivo no formato de documento do MS Word
document.save(output_pdf, save_options)
A classe DocSaveOptions tem uma propriedade chamada Format, que fornece a capacidade de especificar o formato do documento resultante, ou seja, DOC ou DOCX. Para converter um arquivo PDF para o formato DOCX, por favor, passe o valor Docx da enumeração DocSaveOptions.DocFormat.
Tente converter PDF para DOCX online
Aspose.PDF para Python apresenta a você o aplicativo online gratuito “PDF para Word”, onde você pode tentar investigar a funcionalidade e a qualidade com que funciona.
Veja Também
Este artigo também aborda estes tópicos. Os códigos são os mesmos acima.
Formato: Word
-
Conversor Python PDF para Word Format: DOC
Format: DOCX