استخراج الجداول من PDF في Python
Contents
[
Hide
]
استخراج الجدول من PDF
يعد استخراج الجداول من ملفات PDF مفيدًا لإعداد التقارير وترحيل البيانات وعمليات سير عمل التحليلات. باستخدام Aspose.PDF لـ Python عبر .NET، يمكنك اكتشاف وقراءة محتوى الجدول من مستندات PDF الموجودة بكفاءة.
يفتح مقتطف الشفرة هذا ملف PDF موجودًا، ويفحص كل صفحة بحثًا عن الجداول، ويستخرج محتوى نص الخلية. يستخدم TableAbsorber لاكتشاف الجداول ثم التكرار من خلال الصفوف والخلايا لطباعة النص المستخرج.
- يقوم بتحميل ملف PDF إلى كائن AP.Document.
- تصفح الصفحات.
- يقوم بإنشاء كائن TableAbsorber.
- قم بالتكرار من خلال الجداول.
- قم بالتكرار من خلال الصفوف والخلايا.
- استخراج النص وطباعته من الخلايا.
يقوم هذا المثال بقراءة ملف PDF والعثور على جميع الجداول وطباعة محتويات الخلايا الخاصة بها صفًا تلو الآخر.
import aspose.pdf as ap
from os import path
import sys
def extract(infile: str) -> None:
"""Extract and print all tables from a PDF file."""
document = ap.Document(infile)
for page in document.pages:
absorber = ap.text.TableAbsorber()
absorber.visit(page)
for table in absorber.table_list:
print("Table ----")
for row in table.row_list:
print("Row:")
row_txt = ""
for cell in row.cell_list:
cell_txt = ""
text_fragment_collection = cell.text_fragments
for fragment in text_fragment_collection:
for seg in fragment.segments:
cell_txt += seg.text
row_txt += " | "
row_txt += cell_txt
print(row_txt)