Конвертация PDF файла в формат HTML

Aspose.PDF для PHP предоставляет множество возможностей для конвертации различных форматов файлов в PDF документы и конвертации PDF файлов в различные выходные форматы. В этой статье обсуждается, как преобразовать PDF файл в формат HTML и сохранить изображения из PDF файла в определенной папке.

Когда конвертируете большой PDF файл с несколькими страницами в формат HTML, результат выводится в виде одной HTML страницы. Она может оказаться очень длинной. Чтобы контролировать размер страницы, можно разбить вывод на несколько страниц во время конвертации PDF в HTML.

Конвертация страниц PDF в HTML

Aspose.PDF для PHP предоставляет множество функций для конвертации различных форматов файлов в PDF документы и конвертации PDF файлов в различные выходные форматы. В этой статье обсуждается, как конвертировать PDF файл в HTML формат и сохранить изображения из PDF файла в определенной папке.

Следующий фрагмент кода показывает вам все возможные опции, которые вы можете использовать при конвертации PDF в HTML.

// Создайте новый объект Document и загрузите входной PDF файл
$document = new Document($inputFile);

// Создайте новый объект HtmlSaveOptions для сохранения документа как HTML
$saveOption = new HtmlSaveOptions();

// Сохраните документ как HTML, используя указанные опции сохранения
$document->save($outputFile, $saveOption);

Конвертация PDF в HTML - Разделение вывода на многостраничный HTML

Aspose.PDF для PHP поддерживает функцию преобразования PDF-документов в различные выходные форматы, включая HTML. Однако при преобразовании больших PDF-файлов (состоящих из нескольких страниц) может возникнуть необходимость сохранить отдельную страницу PDF в отдельный HTML-файл.

При преобразовании большого PDF-файла с несколькими страницами в формат HTML, результат отображается как одна HTML-страница. Она может оказаться очень длинной. Чтобы контролировать размер страницы, возможно разделить вывод на несколько страниц во время преобразования PDF в HTML. Пожалуйста, попробуйте использовать следующий фрагмент кода.

// Создать новый объект Document и загрузить входной PDF-файл
$document = new Document($inputFile);

// Создать новый объект HtmlSaveOptions для сохранения документа как HTML
$saveOption = new HtmlSaveOptions();

// Указать разделение вывода на несколько страниц
$saveOption->setSplitIntoPages(true);

// Сохранить документ как HTML, используя указанные параметры сохранения
$document->save($outputFile, $saveOption);

Преобразование PDF в HTML - Избегайте сохранения изображений в формате SVG

Формат вывода по умолчанию для сохранения изображений при преобразовании из PDF в HTML - это SVG. Во время преобразования некоторые изображения из PDF преобразуются в векторные изображения SVG. Это может быть медленно. Вместо этого изображения можно преобразовать в PNG. Чтобы это позволить, Aspose.PDF имеет опцию использовать SVG для векторов или создавать PNG.

Для полного удаления отображения изображений в формате SVG при преобразовании файлов PDF в формат HTML, попробуйте использовать следующий фрагмент кода.

// Создайте новый объект Document и загрузите входной PDF файл
$document = new Document($inputFile);

// Создайте новый объект HtmlSaveOptions для сохранения документа в формате HTML
$saveOption = new HtmlSaveOptions();

// Укажите папку, где SVG изображения сохраняются во время преобразования PDF в HTML
$saveOption->setSpecialFolderForSvgImages(DATA_DIR);

// Сохраните документ как HTML, используя указанные параметры сохранения
$document->save($outputFile, $saveOption);

Сжатие SVG изображений во время преобразования

Чтобы сжать SVG изображения во время преобразования PDF в HTML, попробуйте использовать следующий код:

// Создайте новый объект Document и загрузите входной PDF-файл
$document = new Document($inputFile);

// Создайте новый объект HtmlSaveOptions для сохранения документа как HTML
$saveOptions = new HtmlSaveOptions();
$saveOptions = setCompressSvgGraphicsIfAny(true);

// Сохраните документ как HTML, используя указанные параметры сохранения
$document->save($outputFile, $saveOptions);

Преобразование PDF в HTML - Указание папки для изображений

По умолчанию при преобразовании PDF-файла в HTML изображения в PDF сохраняются в отдельной папке, созданной в той же директории, где создается выходной HTML. Но иногда необходимо указать другую папку для сохранения изображений при генерации HTML-файлов. Для этого мы ввели SaveOptions.

Метод setSpecialFolderForAllImages используется для указания целевой папки для хранения изображений.

// Создайте новый объект Document и загрузите входной PDF файл
$document = new Document($inputFile);

// Создайте новый объект HtmlSaveOptions для сохранения документа в формате HTML
$saveOptions = new HtmlSaveOptions();
$saveOptions->setSpecialFolderForAllImages(DATA_DIR);

// Сохраните документ как HTML, используя указанные параметры сохранения
$document->save($outputFile, $saveOptions);

Отображение прозрачного текста

В случае, если исходный/входной PDF файл содержит прозрачные тексты, скрытые под фоновыми изображениями, могут возникнуть проблемы с отображением текста. Поэтому, чтобы учитывать такие сценарии, можно использовать свойства SaveShadowedTextsAsTransparentTexts и SaveTransparentTexts.

// Создайте новый объект Document и загрузите входной PDF файл
$document = new Document($inputFile);

// Создайте новый объект HtmlSaveOptions для сохранения документа в формате HTML
$saveOptions = new HtmlSaveOptions();
$saveOptions->setSaveShadowedTextsAsTransparentTexts(true);
$saveOptions->setTransparentTexts(true);

// Сохраните документ как HTML, используя указанные параметры сохранения
$document->save($outputFile, $saveOptions);

Рендеринг слоев PDF документа

Мы можем рендерить слои PDF документа в отдельный элемент типа слоя во время конвертации PDF в HTML:

// Создаем новый объект Document и загружаем входной PDF файл
$document = new Document($inputFile);

// Создаем новый объект HtmlSaveOptions для сохранения документа в формате HTML
$saveOptions = new HtmlSaveOptions();
$saveOptions->setConvertMarkedContentToLayers(true);

// Сохраняем документ как HTML, используя указанные параметры сохранения
$document->save($outputFile, $saveOptions);

Конвертация PDF в HTML — одна из самых популярных функций Aspose.PDF, потому что она позволяет просматривать содержимое PDF файлов на различных платформах без использования просмотрщика PDF документов. Выходной HTML соответствует стандартам WWW и может легко отображаться во всех веб-браузерах. Используя эту функцию, файлы PDF могут просматриваться на портативных устройствах, потому что вам не нужно устанавливать какое-либо приложение для просмотра PDF, а можно использовать простой веб-браузер.