Konversi PDF ke HTML dalam Python

Konversi PDF ke HTML

Aspose.PDF for Python via .NET menyediakan banyak fitur untuk mengonversi berbagai format file menjadi dokumen PDF dan mengonversi file PDF ke berbagai format output. Artikel ini membahas cara mengonversi file PDF menjadi HTML. Anda dapat menggunakan hanya beberapa baris kode Python untuk mengonversi PDF ke HTML. Anda mungkin perlu mengonversi PDF ke HTML jika ingin membuat situs web atau menambahkan konten ke forum online. Salah satu cara mengonversi PDF ke HTML adalah dengan menggunakan Python secara programatis.

Langkah: Mengonversi PDF ke HTML di Python

  1. Buat sebuah instance dari Document objek dengan dokumen PDF sumber.
  2. Simpan ke HtmlSaveOptions dengan memanggil save() metode.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Konversi terkait

Konversi PDF ke HTML dengan menyimpan gambar di folder yang ditentukan

Fungsi ini mengonversi file PDF menjadi format HTML menggunakan Aspose.PDF for Python via .NET. Semua gambar yang diekstrak disimpan di folder yang ditentukan alih-alih disematkan dalam file HTML.

  1. Konfigurasikan opsi penyimpanan HTML.
  2. Simpan sebagai HTML dengan gambar eksternal.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_storing_images(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    images_path = path.join(path.dirname(infile), "images")
    save_options.special_folder_for_all_images = images_path
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Ubah PDF menjadi HTML multi halaman

Fungsi ini mengonversi file PDF menjadi HTML multi‑halaman, di mana setiap halaman PDF diekspor sebagai file HTML terpisah. Hal ini membuat output lebih mudah dinavigasi dan mengurangi waktu pemuatan untuk PDF berukuran besar.

  1. Muat PDF sumber menggunakan ‘ap.Document’.
  2. Buat ‘HtmlSaveOptions’ dan atur split_into_pages.
  3. Simpan dokumen sebagai HTML dengan halaman dipisah menjadi file terpisah.
  4. Cetak pesan konfirmasi.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_multi_page(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    save_options.split_into_pages = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Konversi PDF ke HTML dengan menyimpan gambar SVG di folder yang ditentukan

Fungsi ini mengonversi PDF menjadi format HTML sambil menyimpan semua gambar sebagai file SVG di folder yang ditentukan, alih-alih menyematkannya langsung di HTML.

  1. Muat PDF sumber menggunakan ‘ap.Document’.
  2. Buat ‘HtmlSaveOptions’ dan atur `special_folder_for_svg_images’ ke folder target.
  3. Simpan dokumen sebagai HTML dengan gambar SVG eksternal.
  4. Cetak pesan konfirmasi.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_storing_svg(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    images_path = path.join(path.dirname(infile), "svg_images")
    save_options.special_folder_for_svg_images = images_path
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Konversi PDF ke HTML dan menyimpan gambar SVG terkompresi

Potongan kode ini mengonversi PDF menjadi format HTML, menyimpan semua gambar sebagai file SVG di folder yang ditentukan dan mengompresnya untuk mengurangi ukuran file.

  1. Muat dokumen PDF menggunakan ‘ap.Document’.
  2. Buat ‘HtmlSaveOptions’ dan:
    • Atur ‘special_folder_for_svg_images’ untuk menyimpan gambar SVG secara eksternal.
    • Aktifkan ‘compress_svg_graphics_if_any’ untuk mengompres gambar SVG.
  3. Simpan dokumen sebagai HTML dengan gambar SVG eksternal yang terkompresi.
  4. Cetak pesan konfirmasi.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_compress_svg(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    images_path = path.join(path.dirname(infile), "svg_images")
    save_options.special_folder_for_svg_images = images_path
    save_options.compress_svg_graphics_if_any = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Konversi PDF ke HTML dengan kontrol Gambar Raster yang disematkan

Potongan kode ini mengonversi PDF menjadi format HTML, menyematkan gambar raster sebagai latar belakang halaman PNG. Pendekatan ini mempertahankan kualitas gambar dan tata letak halaman dalam HTML.

  1. Muat dokumen PDF menggunakan ‘ap.Document’.
  2. Buat ‘HtmlSaveOptions’ dan ‘set raster_images_saving_mode’ ke ‘AS_EMBEDDED_PARTS_OF_PNG_PAGE_BACKGROUND’.
  3. Simpan dokumen sebagai HTML dengan gambar raster yang disematkan.
  4. Cetak pesan konfirmasi.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_PNG_background(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    save_options.raster_images_saving_mode = ap.HtmlSaveOptions.RasterImagesSavingModes.AS_EMBEDDED_PARTS_OF_PNG_PAGE_BACKGROUND
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Konversi PDF ke halaman HTML yang hanya berisi konten bagian tubuh

Fungsi ini mengonversi PDF ke format HTML, menghasilkan konten ‘body-only’ tanpa tag ‘html’ atau ‘head’ tambahan, dan membagi output menjadi halaman terpisah.

  1. Muat dokumen PDF menggunakan ‘ap.Document’.
  2. Buat ‘HtmlSaveOptions’ dan konfigurasikan:
    • ‘html_markup_generation_mode = WRITE_ONLY_BODY_CONTENT’ untuk menghasilkan hanya konten ‘body’.
    • ‘split_into_pages’ untuk membuat file HTML terpisah untuk setiap halaman PDF.
  3. Simpan dokumen sebagai HTML dengan opsi yang ditentukan.
  4. Cetak pesan konfirmasi.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_body_content(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    save_options.html_markup_generation_mode = (
        ap.HtmlSaveOptions.HtmlMarkupGenerationModes.WRITE_ONLY_BODY_CONTENT
    )
    save_options.split_into_pages = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Konversi PDF ke HTML dengan Rendering Teks Transparan

Fungsi ini mengubah PDF menjadi format HTML, menampilkan semua teks sebagai transparan, termasuk teks yang berbayang, yang menjaga kesetiaan visual sambil memungkinkan penataan fleksibel dalam HTML output.

  1. Muat dokumen PDF menggunakan ‘ap.Document’.
  2. Buat ‘HtmlSaveOptions’ dan konfigurasikan:
    • ‘save_transparent_texts’ untuk merender teks normal sebagai transparan.
    • ‘save_shadowed_texts_as_transparent_texts’ untuk merender teks berbayang sebagai transparan.
  3. Simpan dokumen sebagai HTML dengan rendering teks transparan.
  4. Cetak pesan konfirmasi.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_transparent_text_rendering(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    save_options.save_transparent_texts = True
    save_options.save_shadowed_texts_as_transparent_texts = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Konversi PDF ke HTML dengan Rendering Lapisan Dokumen

Fungsi ini mengkonversi PDF menjadi format HTML, mempertahankan lapisan dokumen dengan mengubah konten yang ditandai menjadi lapisan terpisah dalam HTML output. Ini memungkinkan elemen berlapis (seperti anotasi, latar belakang, dan overlay) dirender dengan akurat.

  1. Muat dokumen PDF menggunakan ‘ap.Document’.
  2. Buat ‘HtmlSaveOptions’ dan aktifkan ‘convert_marked_content_to_layers’ untuk mempertahankan lapisan.
  3. Simpan dokumen sebagai HTML dengan konten berlapis.
  4. Cetak pesan konfirmasi.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_document_layers_rendering(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    save_options.convert_marked_content_to_layers = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)