Python で PDF を EPUB、テキスト、XPS などに変換する方法

PDF ファイルを EPUB に変換

EPUB は、国際デジタル出版フォーラム(IDPF)が提供する無料のオープン電子書籍標準です。ファイルの拡張子は.epub です。 EPUB はリフロー可能なコンテンツ向けに設計されています。つまり、EPUB リーダーは特定のディスプレイデバイスに合わせてテキストを最適化できます。EPUB は固定レイアウトのコンテンツもサポートしています。この形式は、出版社や変換会社が社内で使用できるだけでなく、配布や販売にも使用できる単一の形式として意図されています。オープン電子書籍の標準よりも優先されます。

Aspose.PDF for Python は PDF ドキュメントを EPUB 形式に変換する機能もサポートしています。Aspose.PDF for Python には ‘EpubSaveOptions’ という名前のクラスがあり、これをの 2 番目の引数として使用できます。 ドキュメント.save () メソッドを使用して EPUB ファイルを生成します。 Python でこの要件を満たすには、次のコードスニペットを使用してみてください。

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_EPUB(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.EpubSaveOptions()
    save_options.content_recognition_mode = ap.EpubSaveOptions.RecognitionMode.FLOW
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

関連コンバージョン

PDF をラテックス/テックスに変換

**.NET 経由の Python 用 Aspose.pdf ** PDF からラテックス/テックスへの変換をサポートします。 LaTeXファイル形式は、特別なマークアップが付いたテキストファイル形式で、TeXベースの文書作成システムで高品質のタイプセットに使用されます。

PDF ファイルを TeX に変換するには、Aspose.PDF には次のクラスがあります ラテックス保存オプション これには、変換処理中に一時イメージを保存するための OutDirectoryPath プロパティが用意されています。

次のコードスニペットは、Python を使用して PDF ファイルを TEX 形式に変換するプロセスを示しています。

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_TeX(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.LaTeXSaveOptions()
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

PDF をテキストに変換

Aspose.pdf for Pythonは、PDFドキュメント全体と単一ページのテキストファイルへの変換をサポートしています。「TextDevice」クラスを使用して PDF ドキュメントを TXT ファイルに変換できます。次のコードスニペットでは、すべてのページからテキストを抽出する方法を説明しています。

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_TXT(infile, outfile):
    document = ap.Document(infile)
    device = ap.devices.TextDevice()
    device.process(document.pages[1], outfile)

    print(infile + " converted into " + outfile)

PDF ファイルを XPS ファイルに変換

Python用アスポースPDFでは、PDFファイルをXPSフォーマットに変換することができます。提示されたコードスニペットを使って Python で PDF ファイルを XPS フォーマットに変換してみましょう。

XPSファイルタイプは、主にマイクロソフト社のXMLペーパー仕様に関連付けられています。XML Paper Specification (XPS) は、以前はMetro というコードネームで、次世代印刷パス (NGPP) のマーケティングコンセプトを取り入れていました。これは、ドキュメントの作成と表示を Windows オペレーティングシステムに統合するというマイクロソフトの取り組みです。

PDF ファイルを XPS に変換するには、Aspose.PDF には次のクラスがあります XPS 保存オプション これは、の 2 番目の引数として使用されます ドキュメント.save () XPS ファイルを生成する方法。

次のコードスニペットは、PDF ファイルを XPS 形式に変換するプロセスを示しています。

import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_XPS(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.XpsSaveOptions()
    save_options.use_new_imaging_engine = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

PDF ファイルを MD ファイルに変換します

Aspose.PDF には「MarkDownSaveOptions ()」というクラスがあります。このクラスは、画像やリソースを保存したまま PDF ドキュメントを Markdown (MD) 形式に変換します。

  1. 「AP.ドキュメント」を使用してソースPDFをロードします。
  2. 「マークダウンセーブオプション」のインスタンスを作成します。
  3. ‘resources_directory_name’を ‘images’に設定してください。抽出された画像はこのフォルダに保存されます。
  4. 設定したオプションを使用して、変換された Markdown ドキュメントを保存します。
  5. 変換後に確認メッセージを印刷します。
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_MD(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.MarkdownSaveOptions()
    save_options.resources_directory_name = "images"
    save_options.use_image_html_tag = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

指定された画像フォルダーに保存されているテキストとリンクされた画像を含むマークダウンファイル。

PDF ファイルを MobiXML に変換

このメソッドは、PDF ドキュメントを Kindle 端末の電子書籍で一般的に使用されている MOBI (MobiXML) 形式に変換します。

  1. 「AP.Document」を使用してソース PDF ドキュメントをロードします。
  2. 「AP.SaveFormat.mobi_XML」の形式でドキュメントを保存します。
  3. 変換が完了したら、確認メッセージを印刷します。
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_MobiXML(infile, outfile):
    document = ap.Document(infile)
    document.save(outfile, ap.SaveFormat.MOBI_XML)

    print(infile + " converted into " + outfile)