将 PDF 转换为 EPUB、LaTeX、文本、XPS 在 Python 中
将 PDF 转换为 EPUB
EPUB 是国际数字出版论坛 (IDPF) 的一个免费和开放的电子书标准。
文件扩展名为.epub。
EPUB设计用于可重排内容,这意味着EPUB阅读器可以为特定显示设备优化文本。EPUB还支持固定布局内容。该格式旨在作为一种单一格式,供出版商和转换公司在内部使用,以及用于分发和销售。它取代了Open eBook标准。
Aspose.PDF for Python还支持将PDF文档转换为EPUB格式的功能。Aspose.PDF for Python有一个名为’EpubSaveOptions’的类,可以用作save()方法的第二个参数,以生成EPUB文件。
请尝试使用以下代码片段来使用Python实现此要求。
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_epub.epub"
# 打开PDF文档
document = ap.Document(input_pdf)
# 实例化Epub保存选项
save_options = ap.EpubSaveOptions()
# 指定内容的布局
save_options.content_recognition_mode = ap.EpubSaveOptions.RecognitionMode.FLOW
# 保存ePUB文档
document.save(output_pdf, save_options)
将 PDF 转换为 LaTeX/TeX
Aspose.PDF for Python via .NET 支持将 PDF 转换为 LaTeX/TeX。LaTeX 文件格式是一种带有特殊标记的文本文件格式,用于基于 TeX 的文档准备系统,以实现高质量的排版。
要将 PDF 文件转换为 TeX,Aspose.PDF 提供了 LaTeXSaveOptions 类,该类提供 OutDirectoryPath 属性用于在转换过程中保存临时图像。
以下代码片段展示了使用 Python 将 PDF 文件转换为 TEX 格式的过程。
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_tex.tex"
# 打开 PDF 文档
document = ap.Document(input_pdf)
# 实例化 LaTeXSaveOptions 对象
saveOptions = ap.LaTeXSaveOptions()
document.save(output_pdf, saveOptions)
将 PDF 转换为文本
Aspose.PDF for Python 支持将整个 PDF 文档和单个页面转换为文本文件。
将 PDF 文档转换为文本文件
您可以使用 ‘TextDevice’ 类将 PDF 文档转换为 TXT 文件。
以下代码片段说明了如何从所有页面中提取文本。
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_txt.txt"
# 打开 PDF 文档
document = ap.Document(input_pdf)
# 创建文本设备
textDevice = ap.devices.TextDevice()
# 转换特定页面并保存
textDevice.process(document.pages[1], output_pdf)
尝试在线转换 PDF 为文本
将 PDF 转换为 XPS
Aspose.PDF for Python 提供了将 PDF 文件转换为 XPS 格式的可能性。让我们尝试使用所提供的代码片段将 PDF 文件转换为 Python 中的 XPS 格式。
XPS 文件类型主要与 Microsoft Corporation 的 XML 纸张规范相关联。XML 纸张规范(XPS),以前代号为 Metro,并且包含下一代打印路径(NGPP)营销概念,是微软将文档创建和查看集成到 Windows 操作系统中的一项计划。
为了将 PDF 文件转换为 XPS,Aspose.PDF 提供了类 XpsSaveOptions,用于作为 save() 方法的第二个参数来生成 XPS 文件。
以下代码片段展示了将 PDF 文件转换为 XPS 格式的过程。
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xps.xps"
# 打开 PDF 文档
document = ap.Document(input_pdf)
# 实例化 XPS 保存选项
save_options = ap.XpsSaveOptions()
# 保存 XPS 文档
document.save(output_pdf, save_options)
转换 PDF 为 XML
XML 是一种用于存储、传输和重构任意数据的标记语言和文件格式。
Aspose.PDF for Python 还支持将 PDF 文档转换为 XML 格式的功能。Aspose.PDF for Python 有一个名为 ‘XmlSaveOptions’ 的类,可以用作 save() 方法的第二个参数,以生成 XML 文件。请尝试使用以下代码片段来完成此需求。
import aspose.pdf as ap
def convert_pdf_to_xml(self, infile, outfile):
path_infile = self.dataDir + infile
path_outfile = self.dataDir + outfile
# 打开 PDF 文档
document = ap.Document(path_infile)
# 实例化 XML 保存选项
save_options = ap.XmlSaveOptions()
# 保存 XML 文档
document.save(path_outfile, save_options)
print(infile + " 已转换为 " + outfile)