在 .NET 中将 PDF 转换为 HTML

概述

本文解释了如何使用 C# 将 PDF 转换为 HTML。它涵盖了以下主题。

格式: HTML

以下代码片段也适用于 Aspose.PDF.Drawing 库。

将 PDF 转换为 HTML

Aspose.PDF for .NET 提供了许多功能,用于将各种文件格式转换为 PDF 文档,并将 PDF 文件转换为各种输出格式。本文讨论如何将 PDF 文件转换为 HTML。Aspose.PDF for .NET 提供了使用 InLineHtml 方法将 HTML 文件转换为 PDF 格式的能力。我们收到了许多关于将 PDF 文件转换为 HTML 格式的功能请求,并提供了此功能。请注意,此功能还支持 XHTML 1.0。

Aspose.PDF for .NET 支持将 PDF 文件转换为 HTML 的功能。您可以使用 Aspose.PDF 库完成的主要任务如下:

  • 将 PDF 转换为 HTML。
  • 将输出拆分为多页 HTML。
  • 指定存储 SVG 文件的文件夹。
  • 在转换过程中压缩 SVG 图像。
  • 将图像保存为 PNG 背景。
  • 指定图像文件夹。
  • 仅创建包含主体内容的后续文件。
  • 透明文本渲染。
  • PDF 文档图层渲染。

Aspose.PDF for .NET 提供了两行代码,用于将源 PDF 文件转换为 HTML。SaveFormat 枚举 包含值 Html,允许您将源文件保存为 HTML。以下代码片段展示了将 PDF 文件转换为 HTML 的过程。

步骤:在 C# 中将 PDF 转换为 HTML

  1. 创建一个 Document 对象的实例,使用源 PDF 文档。
  2. 通过调用 Document.Save() 方法将其保存为 SaveFormat.Html 格式。
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoHTML()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Save the output HTML
        document.Save(dataDir + "output_out.html", Aspose.Pdf.SaveFormat.Html);
    }
}

将输出拆分为多页 HTML

在将大型 PDF 文件转换为 HTML 格式时,输出会显示为单个 HTML 页面。它可能会变得非常长。为了控制页面大小,可以在 PDF 转 HTML 转换过程中将输出拆分为多个页面。请尝试使用以下代码片段。

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoMultiPageHTML()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Instantiate HTML SaveOptions object
        var htmlOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Specify to split the output into multiple pages
            SplitIntoPages = true
        };

        // Save the output HTML
        document.Save(dataDir + "MultiPageHTML_out.html", htmlOptions);
    }
}

指定存储 SVG 文件的文件夹

在 PDF 转 HTML 转换过程中,可以指定 SVG 图像应保存的文件夹。使用 HtmlSaveOption 类SpecialFolderForSvgImages 属性 来指定一个特殊的 SVG 图像目录。此属性获取或设置在转换过程中遇到时 SVG 图像必须保存的目录路径。如果参数为空或为 null,则任何 SVG 文件将与其他图像文件一起保存。

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void SavePDFtoHTMLWithSVG()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Instantiate HTML save options object
        var newOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Specify the folder where SVG images are saved during PDF to HTML conversion
            SpecialFolderForSvgImages = dataDir
        };

        // Save the output HTML
        document.Save(dataDir + "SaveSVGFiles_out.html", newOptions);
    }
}

在转换过程中压缩 SVG 图像

要在 PDF 转 HTML 转换过程中压缩 SVG 图像,请尝试使用以下代码:

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void SavePDFtoCompressedHTMLWithSVG()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Create HtmlSaveOptions with tested feature
        var newOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Compress the SVG images if there are any
            CompressSvgGraphicsIfAny = true
        };

        // Save the output HTML
        document.Save(dataDir + "CompressedSVGHTML_out.html", newOptions);
    }
}

将图像保存为 PNG 背景

保存图像的默认输出格式为 SVG。在转换过程中,PDF 中的一些图像会转换为 SVG 矢量图像。这可能会很慢。相反,图像可以转换为每页一个 PNG 背景文件。

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void PdfToHtmlSaveImagesAsPngBackground()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion_PDFToHTMLFormat();
           
    // Create HtmlSaveOption with tested feature
    var htmlSaveOptions = new HtmlSaveOptions();
           
    // Option to save images in PNG format as background for each page.
    htmlSaveOptions.RasterImagesSavingMode = HtmlSaveOptions.RasterImagesSavingModes.AsEmbeddedPartsOfPngPageBackground;

    using (var document = new Aspose.Pdf.Document(dataDir + "input.pdf"))
    {
       document.Save(dataDir + "imagesAsPngBackground_out.html", htmlSaveOptions);         
    }
}

指定图像文件夹

我们还可以指定在 PDF 转 HTML 转换过程中图像将保存到的文件夹:

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void SavePDFtoHTMLWithSeparateImageFolder()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Create HtmlSaveOptions with tested feature
        var newOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Specify the separate folder to save images
            SpecialFolderForAllImages = dataDir
        };

        // Save the output HTML
        document.Save(dataDir + "HTMLWithSeparateImageFolder_out.html", newOptions);
    }
}

仅创建包含主体内容的后续文件

最近,我们被要求引入一个功能,即将 PDF 文件转换为 HTML,用户可以仅获取每页的 <body> 标签内容。这将生成一个包含 CSS、<html><head> 细节的文件,其他文件仅包含 <body> 内容。

为了满足这一要求,HtmlSaveOptions 类引入了一个新属性 HtmlMarkupGenerationMode。

使用以下简单代码片段,您可以将输出 HTML 拆分为页面。在输出页面中,所有 HTML 对象必须准确放置在它们现在的位置(字体处理和输出、CSS 创建和输出、图像创建和输出),只是输出 HTML 将包含当前放置在标签内的内容(现在将省略“body”标签)。但是,使用此方法时,CSS 的链接由您的代码负责,因为像这样的内容将被剥离。为此,您可以通过 File.ReadAllText() 读取 CSS,并通过 AJAX 发送到将由 jQuery 应用的网页。

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFToHTMLWithBodyContent()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Initialize HtmlSaveOptions
        var options = new Aspose.Pdf.HtmlSaveOptions
        {
            // Set HtmlMarkupGenerationMode to generate only body content
            HtmlMarkupGenerationMode =
                Aspose.Pdf.HtmlSaveOptions.HtmlMarkupGenerationModes.WriteOnlyBodyContent,

            // Specify to split the output into multiple pages
            SplitIntoPages = true
        };

        // Save the output HTML
        document.Save(dataDir + "CreateSubsequentFiles_out.html", options);
    }
}

透明文本渲染

如果源/输入 PDF 文件包含被前景图像遮挡的透明文本,则可能会出现文本渲染问题。因此,为了应对这种情况,可以使用 SaveShadowedTextsAsTransparentTexts 和 SaveTransparentTexts 属性。

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFToHTMLWithTransparentTextRendering()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Initialize HtmlSaveOptions
        var htmlOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Enable transparent text rendering
            SaveShadowedTextsAsTransparentTexts = true,
            SaveTransparentTexts = true
        };

        // Save the output HTML
        document.Save(dataDir + "TransparentTextRendering_out.html", htmlOptions);
    }
}

PDF 文档图层渲染

我们可以在 PDF 转 HTML 转换过程中将 PDF 文档图层渲染为单独的图层类型元素:

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFToHTMLWithLayersRendering()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Instantiate HTML SaveOptions object
        var htmlOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Enable rendering of PDF document layers separately in the output HTML
            ConvertMarkedContentToLayers = true
        };

        // Save the output HTML
        document.Save(dataDir + "LayersRendering_out.html", htmlOptions);
    }
}

另请参阅

本文还涵盖了以下主题。代码与上述相同。

格式: HTML