استخراج الروابط

غالبًا ما يحتوي PDF على عناصر تفاعلية مثل روابط الويب وروابط المستندات والإجراءات المخصصة. استخدام محرر محتوى PDF، يمكنك استخراج جميع التعليقات التوضيحية للروابط من ملف PDF برمجيًا. يتيح لك ذلك فحص الروابط أو معالجتها، على سبيل المثال، للتحقق من عناوين URL أو تحليل أنماط التنقل في المستند.

قم بإنشاء مثيل محرر محتوى PDF.
قم بربط وثيقة PDF المدخلة.
استخرج جميع الروابط باستخدام ’extract_link () ‘.
قم بالتكرار من خلال الروابط المستخرجة.
تحقق مما إذا كان الرابط هو LinkAnNotation وما إذا كان الإجراء الخاص به هو GoTouriAction.
اطبع إحداثيات المستطيل وURI.
اعرض رسالة إذا لم يتم العثور على روابط.

import aspose.pdf.facades as pdf_facades
from aspose.pycore import cast, is_assignable
import aspose.pydrawing as apd
import aspose.pdf as ap

import sys
from os import path

sys.path.append(path.join(path.dirname(__file__), ".."))

from config import set_license, initialize_data_dir


def extract_links(infile):
    # Create PdfContentEditor object
    content_editor = pdf_facades.PdfContentEditor()
    # Bind document to PdfContentEditor
    content_editor.bind_pdf(infile)
    # Extract links from the document
    links = content_editor.extract_link()

    count = 0
    for link in links:
        count += 1
        print(f"Link {count}: {link.rect}")
        if is_assignable(link, ap.annotations.LinkAnnotation):
            annotation = cast(ap.annotations.LinkAnnotation, link)
            if is_assignable(annotation.action, ap.annotations.GoToURIAction):
                action = cast(ap.annotations.GoToURIAction, annotation.action)
                print(f"  URI: {action.uri}")

    if count == 0:
        print("No links found")

إضافة رابط ويب