تحويل PDF إلى HTML في بايثون

تحويل ملفات PDF إلى HTML

Aspose.pdf لـ Python عبر .NET يوفر العديد من الميزات لتحويل تنسيقات الملفات المختلفة إلى مستندات PDF وتحويل ملفات PDF إلى تنسيقات إخراج مختلفة. تتناول هذه المقالة كيفية تحويل ملف PDF إلى أتش تي أم أل. يمكنك استخدام سطرين فقط من كود Python لتحويل PDF إلى HTML. قد تحتاج إلى تحويل PDF إلى HTML إذا كنت ترغب في إنشاء موقع ويب أو إضافة محتوى إلى منتدى عبر الإنترنت. طريقة واحدة لتحويل PDF إلى HTML هي استخدام Python برمجيًا.

الخطوات: تحويل PDF إلى HTML في بايثون

  1. قم بإنشاء مثيل لـ مستند كائن مع مستند PDF المصدر.
  2. احفظه إلى خيارات حفظ HTML عن طريق الاتصال حفظ () طريقة.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

التحويلات ذات الصلة

تحويل PDF إلى HTML مع حفظ الصور في المجلد المحدد

تقوم هذه الوظيفة بتحويل ملف PDF إلى تنسيق HTML باستخدام Aspose.PDF لبيثون عبر .NET. يتم تخزين جميع الصور المستخرجة في مجلد محدد بدلاً من تضمينها في ملف HTML.

  1. قم بتكوين خيارات حفظ HTML.
  2. احفظ بصيغة HTML مع صور خارجية.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_storing_images(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    images_path = path.join(path.dirname(infile), "images")
    save_options.special_folder_for_all_images = images_path
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

تحويل PDF إلى HTML متعدد الصفحات

تقوم هذه الوظيفة بتحويل ملف PDF إلى HTML متعدد الصفحات، حيث يتم تصدير كل صفحة PDF كملف HTML منفصل. هذا يجعل الإخراج أسهل للتنقل ويقلل من وقت التحميل لملفات PDF الكبيرة.

  1. قم بتحميل ملف PDF المصدر باستخدام «AP.document».
  2. قم بإنشاء «خيارات حفظ HTML» وتعيين «split_into_pages».
  3. احفظ المستند بصيغة HTML مع تقسيم الصفحات إلى ملفات منفصلة.
  4. اطبع رسالة تأكيد.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_multi_page(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    save_options.split_into_pages = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

تحويل PDF إلى HTML مع حفظ صور SVG في مجلد محدد

تقوم هذه الوظيفة بتحويل PDF إلى تنسيق HTML أثناء تخزين جميع الصور كملفات SVG في مجلد محدد، بدلاً من تضمينها مباشرة في HTML.

  1. قم بتحميل ملف PDF المصدر باستخدام «AP.document».
  2. قم بإنشاء «HTMLSaveOptions» وقم بتعيين «special_folder_for_svg_images» إلى المجلد الهدف.
  3. احفظ المستند بصيغة HTML مع صور SVG خارجية.
  4. اطبع رسالة تأكيد.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_storing_svg(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    images_path = path.join(path.dirname(infile), "svg_images")
    save_options.special_folder_for_svg_images = images_path
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

تحويل PDF إلى HTML وحفظ صور SVG المضغوطة

يقوم هذا المقتطف بتحويل PDF إلى تنسيق HTML، وتخزين جميع الصور كملفات SVG في مجلد محدد وضغطها لتقليل حجم الملف.

  1. قم بتحميل مستند PDF باستخدام «AP.document».
  2. قم بإنشاء «خيارات حفظ HTML» و:
    • قم بتعيين ‘special_folder_for_svg_images’ لتخزين صور SVG خارجيًا.
    • قم بتمكين ‘compress_svg_graphics_if_any’ لضغط صور SVG.
  3. احفظ المستند بصيغة HTML مع صور SVG خارجية مضغوطة.
  4. اطبع رسالة تأكيد.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_compress_svg(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    images_path = path.join(path.dirname(infile), "svg_images")
    save_options.special_folder_for_svg_images = images_path
    save_options.compress_svg_graphics_if_any = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

تحويل PDF إلى HTML مع التحكم في الصور النقطية المضمنة

يقوم هذا المقتطف بتحويل PDF إلى تنسيق HTML، مع تضمين الصور النقطية كخلفيات لصفحات PNG. يحافظ هذا الأسلوب على جودة الصورة وتخطيط الصفحة داخل HTML.

  1. قم بتحميل مستند PDF باستخدام «AP.document».
  2. قم بإنشاء «خيارات حفظ HTML» و «تعيين وضع حفظ الصور النقطية» إلى «AS_EMBEDDED_PARTS_OF_PNG_PAGE_BACKGROUND».
  3. احفظ المستند بصيغة HTML مع الصور النقطية المضمنة.
  4. اطبع رسالة تأكيد.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_PNG_background(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    save_options.raster_images_saving_mode = ap.HtmlSaveOptions.RasterImagesSavingModes.AS_EMBEDDED_PARTS_OF_PNG_PAGE_BACKGROUND
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

تحويل PDF إلى صفحة HTML لمحتوى الجسم فقط

تعمل هذه الوظيفة على تحويل ملف PDF إلى تنسيق HTML، وإنشاء محتوى «للجسم فقط» بدون علامات «html» أو «head» إضافية، وتقسيم الإخراج إلى صفحات منفصلة.

  1. قم بتحميل مستند PDF باستخدام «AP.document».
  2. قم بإنشاء «HTMLSaveOptions» وقم بتكوين:
    • ‘html_markup_generation_mode = WRITE_ONLY_BODY_CONTENT» لإنشاء المحتوى «الأساسي» فقط.
    • ‘split_into_pages ‘لإنشاء ملفات HTML منفصلة لكل صفحة PDF.
  3. احفظ المستند بصيغة HTML مع الخيارات المحددة.
  4. اطبع رسالة تأكيد.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_body_content(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    save_options.html_markup_generation_mode = (
        ap.HtmlSaveOptions.HtmlMarkupGenerationModes.WRITE_ONLY_BODY_CONTENT
    )
    save_options.split_into_pages = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

تحويل PDF إلى HTML مع عرض نص شفاف

تقوم هذه الوظيفة بتحويل PDF إلى تنسيق HTML، مما يجعل كل النص شفافًا، بما في ذلك النصوص المظللة، والتي تحافظ على الدقة المرئية مع السماح بالتصميم المرن في HTML الناتج.

  1. قم بتحميل مستند PDF باستخدام «AP.document».
  2. قم بإنشاء «HTMLSaveOptions» وقم بتكوين:
    • «save_transparent_texts» لعرض النص العادي على أنه شفاف.
    • ‘save_shadowed_texts_as_transparent_texts’ لجعل النص المظلل شفافًا.
  3. احفظ المستند بصيغة HTML مع عرض نص شفاف.
  4. اطبع رسالة تأكيد.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_transparent_text_rendering(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    save_options.save_transparent_texts = True
    save_options.save_shadowed_texts_as_transparent_texts = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

تحويل PDF إلى HTML مع عرض طبقات المستند

تقوم هذه الوظيفة بتحويل PDF إلى تنسيق HTML، مع الحفاظ على طبقات المستند عن طريق تحويل المحتوى المحدد إلى طبقات منفصلة في HTML الناتج. يسمح هذا بعرض العناصر ذات الطبقات (مثل التعليقات التوضيحية والخلفيات والتراكبات) بدقة.

  1. قم بتحميل مستند PDF باستخدام «AP.document».
  2. قم بإنشاء «HTMLSaveOptions» وتمكين «convert_marked_content_to_layers» للحفاظ على الطبقات.
  3. احفظ المستند بصيغة HTML مع محتوى متعدد الطبقات.
  4. اطبع رسالة تأكيد.
import aspose.pdf as ap
from os import path
import sys

def convert_PDF_to_HTML_document_layers_rendering(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.HtmlSaveOptions()
    save_options.convert_marked_content_to_layers = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)