PythonでPDFをMicrosoft Word文書に変換

概要

この記事では、Pythonを使用してPDFをMicrosoft Word文書に変換する方法を説明します。以下のトピックをカバーします。

フォーマット: DOC

フォーマット: DOCX

フォーマット: Word

Python PDF to DOCおよびDOCX変換

最も人気のある機能の一つに、PDFからMicrosoft Word DOCへの変換があります。これにより、コンテンツ管理が容易になります。Aspose.PDF for Pythonを使用すると、PDFファイルをDOCだけでなく、DOCX形式にも簡単かつ効率的に変換できます。

PDFをDOC (Word 97-2003)ファイルに変換

PDFファイルをDOC形式に簡単かつ完全にコントロールして変換します。Aspose.PDF for Pythonは柔軟で、多様な変換をサポートしています。たとえば、PDFドキュメントのページを画像に変換することは非常に人気のある機能です。

多くのお客様からのリクエストがある変換は、PDFからDOCへの変換です。PDFファイルをMicrosoft Wordドキュメントに変換します。お客様は、PDFファイルは簡単に編集できないのに対し、Wordドキュメントは編集可能であるため、これを望んでいます。一部の企業は、ユーザーがPDFから始まったファイル内のテキスト、テーブル、画像を操作できるようにしたいと考えています。

物事をシンプルで理解しやすくする伝統を守り、Aspose.PDF for Pythonは、ソースのPDFファイルをDOCファイルに2行のコードで変換することを可能にします。 この機能を実現するために、SaveFormatという列挙型を導入しました。その値.Docを使用すると、ソースファイルをMicrosoft Word形式で保存できます。

以下のPythonコードスニペットは、PDFファイルをDOC形式に変換するプロセスを示しています。

手順: PythonでPDFをDOCに変換する

  1. ソースPDFドキュメントでDocumentオブジェクトのインスタンスを作成します。
  2. save()メソッドを呼び出してSaveFormat形式で保存します。

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"
    # PDFドキュメントを開く
    document = ap.Document(input_pdf)
    # ファイルをMS Wordドキュメント形式で保存する
    document.save(output_pdf, ap.SaveFormat.DOC)

DocSaveOptionsクラスを使用する

DocSaveOptionsクラスは、PDFファイルをDOC形式に変換するプロセスを改善する多くのプロパティを提供します。 このプロパティの中で、ModeはPDFコンテンツの認識モードを指定することを可能にします。このプロパティには、RecognitionMode列挙から任意の値を指定することができます。これらの各値には、特定の利点と制限があります。


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
    # PDFドキュメントを開く
    document = ap.Document(input_pdf)

    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC
    # 認識モードをFlowに設定
    save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
    # 水平方向の近接を2.5に設定
    save_options.relative_horizontal_proximity = 2.5
    # 変換プロセス中に箇条書きを認識するように値を有効にする
    save_options.recognize_bullets = True

    # ファイルをMS Wordドキュメント形式で保存
    document.save(output_pdf, save_options)

PDFをDOCXに変換

Aspose.PDF for Python APIを使用すると、.NETを介してPythonでPDF文書を読み取り、DOCXに変換できます。DOCXはMicrosoft Word文書のよく知られた形式であり、その構造はプレーンバイナリからXMLとバイナリファイルの組み合わせに変更されました。DocxファイルはWord 2007およびそれ以降のバージョンで開くことができますが、DOCファイル拡張をサポートするMS Wordの以前のバージョンでは開くことができません。

次のPythonコードスニペットは、PDFファイルをDOCX形式に変換するプロセスを示しています。

手順: PythonでPDFをDOCXに変換

  1. ソースPDF文書を使用してDocumentオブジェクトのインスタンスを作成します。

  2. save() メソッドを呼び出して、SaveFormat 形式で保存します。


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_docx_options.docx"
    # PDF ドキュメントを開く
    document = ap.Document(input_pdf)

    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    # 認識モードをフローとして設定
    save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
    # 水平近接度を 2.5 に設定
    save_options.relative_horizontal_proximity = 2.5
    # 変換プロセス中に箇条書きを認識するように値を有効にする
    save_options.recognize_bullets = True

    # ファイルを MS Word ドキュメント形式で保存する
    document.save(output_pdf, save_options)

DocSaveOptions クラスには、結果のドキュメントの形式を指定する機能を提供する Format というプロパティがあります。つまり、DOC または DOCX です。 PDFファイルをDOCX形式に変換するには、DocSaveOptions.DocFormat列挙型からDocx値を渡してください。

関連項目

この記事では、以下のトピックについても説明しています。コードは上記と同じです。

フォーマット: Word

Format: DOCX