Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.
本文解释了如何使用 C# 将 PDF 转换为 HTML。它涵盖了以下主题。
以下代码片段也适用于 Aspose.PDF.Drawing 库。
Aspose.PDF for .NET 提供了许多功能,用于将各种文件格式转换为 PDF 文档,并将 PDF 文件转换为各种输出格式。本文讨论了如何将 PDF 文件转换为 HTML。Aspose.PDF for .NET 提供了使用 InLineHtml 方法将 HTML 文件转换为 PDF 格式的能力。我们收到了许多关于将 PDF 文件转换为 HTML 格式的功能请求,并提供了此功能。请注意,此功能还支持 XHTML 1.0。
Aspose.PDF for .NET 支持将 PDF 文件转换为 HTML 的功能。您可以使用 Aspose.PDF 库完成的主要任务如下:
Aspose.PDF for .NET 提供了两行代码,用于将源 PDF 文件转换为 HTML。SaveFormat enumeration 包含值 Html,允许您将源文件保存为 HTML。以下代码片段展示了将 PDF 文件转换为 HTML 的过程。
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoHTML()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Save the output HTML
        document.Save(dataDir + "output_out.html", Aspose.Pdf.SaveFormat.Html);
    }
}
在将大型 PDF 文件转换为 HTML 格式时,输出会显示为单个 HTML 页面。它可能会变得非常长。为了控制页面大小,可以在 PDF 转换为 HTML 的过程中将输出拆分为多个页面。请尝试使用以下代码片段。
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoMultiPageHTML()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Instantiate HTML SaveOptions object
        var htmlOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Specify to split the output into multiple pages
            SplitIntoPages = true
        };
        // Save the output HTML
        document.Save(dataDir + "MultiPageHTML_out.html", htmlOptions);
    }
}
在 PDF 转换为 HTML 的过程中,可以指定 SVG 图像应保存到的文件夹。使用 HtmlSaveOption class SpecialFolderForSvgImages property 来指定特殊的 SVG 图像目录。此属性获取或设置在转换过程中遇到的 SVG 图像必须保存到的目录路径。如果参数为空或为 null,则任何 SVG 文件将与其他图像文件一起保存。
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void SavePDFtoHTMLWithSVG()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Instantiate HTML save options object
        var newOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Specify the folder where SVG images are saved during PDF to HTML conversion
            SpecialFolderForSvgImages = dataDir
        };
        // Save the output HTML
        document.Save(dataDir + "SaveSVGFiles_out.html", newOptions);
    }
}
要在 PDF 转换为 HTML 的过程中压缩 SVG 图像,请尝试使用以下代码:
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void SavePDFtoCompressedHTMLWithSVG()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Create HtmlSaveOptions with tested feature
        var newOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Compress the SVG images if there are any
            CompressSvgGraphicsIfAny = true
        };
        // Save the output HTML
        document.Save(dataDir + "CompressedSVGHTML_out.html", newOptions);
    }
}
保存图像的默认输出格式为 SVG。在转换过程中,PDF 中的一些图像会转换为 SVG 矢量图像。这可能会很慢。相反,图像可以转换为每页一个 PNG 背景文件。
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void PdfToHtmlSaveImagesAsPngBackground()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion_PDFToHTMLFormat();
           
    // Create HtmlSaveOption with tested feature
    var htmlSaveOptions = new HtmlSaveOptions();
           
    // Option to save images in PNG format as background for each page.
    htmlSaveOptions.RasterImagesSavingMode = HtmlSaveOptions.RasterImagesSavingModes.AsEmbeddedPartsOfPngPageBackground;
    using (var document = new Aspose.Pdf.Document(dataDir + "input.pdf"))
    {
       document.Save(dataDir + "imagesAsPngBackground_out.html", htmlSaveOptions);         
    }
}
在 PDF 转换为 HTML 的过程中,我们还可以指定图像将保存到的文件夹:
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void SavePDFtoHTMLWithSeparateImageFolder()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Create HtmlSaveOptions with tested feature
        var newOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Specify the separate folder to save images
            SpecialFolderForAllImages = dataDir
        };
        // Save the output HTML
        document.Save(dataDir + "HTMLWithSeparateImageFolder_out.html", newOptions);
    }
}
最近,我们被要求引入一个功能,将 PDF 文件转换为 HTML,用户可以仅获取每页的 <body> 标签内容。这将生成一个包含 CSS、<html>、<head> 细节的文件,其他文件仅包含 <body> 内容。
为了满足这一要求,HtmlSaveOptions 类引入了一个新属性 HtmlMarkupGenerationMode。
使用以下简单代码片段,您可以将输出 HTML 拆分为页面。在输出页面中,所有 HTML 对象必须准确放置(字体处理和输出、CSS 创建和输出、图像创建和输出),只是在输出 HTML 中将包含当前放置在标签内的内容(现在将省略“body”标签)。但是,使用此方法时,CSS 的链接由您的代码负责,因为像这样的内容将被剥离。为此,您可以通过 File.ReadAllText() 读取 CSS,并通过 AJAX 发送到将由 jQuery 应用的网页。
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFToHTMLWithBodyContent()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Initialize HtmlSaveOptions
        var options = new Aspose.Pdf.HtmlSaveOptions
        {
            // Set HtmlMarkupGenerationMode to generate only body content
            HtmlMarkupGenerationMode =
                Aspose.Pdf.HtmlSaveOptions.HtmlMarkupGenerationModes.WriteOnlyBodyContent,
            // Specify to split the output into multiple pages
            SplitIntoPages = true
        };
        // Save the output HTML
        document.Save(dataDir + "CreateSubsequentFiles_out.html", options);
    }
}
如果源/输入 PDF 文件包含被前景图像遮挡的透明文本,则可能会出现文本渲染问题。因此,为了应对这种情况,可以使用 SaveShadowedTextsAsTransparentTexts 和 SaveTransparentTexts 属性。
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFToHTMLWithTransparentTextRendering()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Initialize HtmlSaveOptions
        var htmlOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Enable transparent text rendering
            SaveShadowedTextsAsTransparentTexts = true,
            SaveTransparentTexts = true
        };
        // Save the output HTML
        document.Save(dataDir + "TransparentTextRendering_out.html", htmlOptions);
    }
}
在 PDF 转换为 HTML 的过程中,我们可以在单独的图层类型元素中渲染 PDF 文档图层:
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFToHTMLWithLayersRendering()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        // Instantiate HTML SaveOptions object
        var htmlOptions = new Aspose.Pdf.HtmlSaveOptions
        {
            // Enable rendering of PDF document layers separately in the output HTML
            ConvertMarkedContentToLayers = true
        };
        // Save the output HTML
        document.Save(dataDir + "LayersRendering_out.html", htmlOptions);
    }
}
此代码展示了将接收到的文件保存到流的示例。可以使用任何类型的流进行保存。 此代码片段还描述了自定义保存策略的工作原理。
// 有关完整示例和数据文件,请访问 https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static string _folderForReferencedResources;
private static void ConvertPDFtoHTMLWithStream()
{
    // 文档目录的路径
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    // 打开 PDF 文档
    using (var doc = new Aspose.Pdf.Document(dataDir + "PDFToHTML.pdf"))
    {
        var streamFilePath = dataDir + "saveToStream.html";
        _folderForReferencedResources = dataDir + @"/saveFolder/";
        // 清理现有文件
        if (Directory.Exists(_folderForReferencedResources))
        {
            Directory.Delete(_folderForReferencedResources, true);
        }
        // 清理现有文件
        if (File.Exists(streamFilePath))
        {
            File.Delete(streamFilePath);
        }
        var saveOptions = new Aspose.Pdf.HtmlSaveOptions();
        // 设置自定义转换策略
        saveOptions.CustomResourceSavingStrategy = new Aspose.Pdf.HtmlSaveOptions.ResourceSavingStrategy(StrategyCustomSaveResources);
        saveOptions.CustomCssSavingStrategy = new Aspose.Pdf.HtmlSaveOptions.CssSavingStrategy(StrategyCssSaving);
        saveOptions.CustomStrategyOfCssUrlCreation = new Aspose.Pdf.HtmlSaveOptions.CssUrlMakingStrategy(StrategyCssNaming);
        using (Stream saveStream = File.OpenWrite(streamFilePath))
        {
            // 将文档保存到流
            doc.Save(saveStream, saveOptions);
        }
    }
}
private static void StrategyCssSaving(Aspose.Pdf.HtmlSaveOptions.CssSavingInfo resourceInfo)
{
    // 清理现有文件
    if (!System.IO.Directory.Exists(_folderForReferencedResources))
    {
        System.IO.Directory.CreateDirectory(_folderForReferencedResources);
    }
    // 为 CSS 创建路径
    string path = _folderForReferencedResources + Path.GetFileName(resourceInfo.SupposedURL);
    var reader = new System.IO.BinaryReader(resourceInfo.ContentStream);
    // 在创建的路径上记录 CSS
    System.IO.File.WriteAllBytes(path, reader.ReadBytes((int)resourceInfo.ContentStream.Length));
}
private static string StrategyCssNaming(Aspose.Pdf.HtmlSaveOptions.CssUrlRequestInfo requestInfo)
{
    return _folderForReferencedResources + "css_style{0}.css";
}
private static string StrategyCustomSaveResources(Aspose.Pdf.SaveOptions.ResourceSavingInfo resourceSavingInfo)
{
    // 清理现有文件
    if (!System.IO.Directory.Exists(_folderForReferencedResources))
    {
        System.IO.Directory.CreateDirectory(_folderForReferencedResources);
    }
    // 为资源创建路径
    var resourcePath = _folderForReferencedResources + System.IO.Path.GetFileName(resourceSavingInfo.SupposedFileName);
    var binaryReader = new System.IO.BinaryReader(resourceSavingInfo.ContentStream);
    // 在创建的路径上记录资源
    System.IO.File.WriteAllBytes(resourcePath, binaryReader.ReadBytes((int)resourceSavingInfo.ContentStream.Length));
    var urlInHtml = _folderForReferencedResources.Replace(@"\", "/") + System.IO.Path.GetFileName(resourceSavingInfo.SupposedFileName);
    // 返回插入到 HTML 中的资源名称
    return urlInHtml;
}
Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.