استخراج الروابط
Contents
[
Hide
]
غالبًا ما يحتوي PDF على عناصر تفاعلية مثل روابط الويب وروابط المستندات والإجراءات المخصصة. استخدام محرر محتوى PDF، يمكنك استخراج جميع التعليقات التوضيحية للروابط من ملف PDF برمجيًا. يتيح لك ذلك فحص الروابط أو معالجتها، على سبيل المثال، للتحقق من عناوين URL أو تحليل أنماط التنقل في المستند.
- قم بإنشاء مثيل محرر محتوى PDF.
- قم بربط وثيقة PDF المدخلة.
- استخرج جميع الروابط باستخدام ’extract_link () ‘.
- قم بالتكرار من خلال الروابط المستخرجة.
- تحقق مما إذا كان الرابط هو LinkAnNotation وما إذا كان الإجراء الخاص به هو GoTouriAction.
- اطبع إحداثيات المستطيل وURI.
- اعرض رسالة إذا لم يتم العثور على روابط.
import aspose.pdf.facades as pdf_facades
from aspose.pycore import cast, is_assignable
import aspose.pydrawing as apd
import aspose.pdf as ap
import sys
from os import path
sys.path.append(path.join(path.dirname(__file__), ".."))
from config import set_license, initialize_data_dir
def extract_links(infile):
# Create PdfContentEditor object
content_editor = pdf_facades.PdfContentEditor()
# Bind document to PdfContentEditor
content_editor.bind_pdf(infile)
# Extract links from the document
links = content_editor.extract_link()
count = 0
for link in links:
count += 1
print(f"Link {count}: {link.rect}")
if is_assignable(link, ap.annotations.LinkAnnotation):
annotation = cast(ap.annotations.LinkAnnotation, link)
if is_assignable(annotation.action, ap.annotations.GoToURIAction):
action = cast(ap.annotations.GoToURIAction, annotation.action)
print(f" URI: {action.uri}")
if count == 0:
print("No links found")