استخراج الجداول من PDF في Python

استخراج الجدول من PDF

يعد استخراج الجداول من ملفات PDF مفيدًا لإعداد التقارير وترحيل البيانات وعمليات سير عمل التحليلات. باستخدام Aspose.PDF لـ Python عبر .NET، يمكنك اكتشاف وقراءة محتوى الجدول من مستندات PDF الموجودة بكفاءة.

يفتح مقتطف الشفرة هذا ملف PDF موجودًا، ويفحص كل صفحة بحثًا عن الجداول، ويستخرج محتوى نص الخلية. يستخدم TableAbsorber لاكتشاف الجداول ثم التكرار من خلال الصفوف والخلايا لطباعة النص المستخرج.

يقوم بتحميل ملف PDF إلى كائن AP.Document.
تصفح الصفحات.
يقوم بإنشاء كائن TableAbsorber.
قم بالتكرار من خلال الجداول.
قم بالتكرار من خلال الصفوف والخلايا.
استخراج النص وطباعته من الخلايا.

يقوم هذا المثال بقراءة ملف PDF والعثور على جميع الجداول وطباعة محتويات الخلايا الخاصة بها صفًا تلو الآخر.

import aspose.pdf as ap
from os import path
import sys

def extract(infile: str) -> None:
    """Extract and print all tables from a PDF file."""
    document = ap.Document(infile)
    for page in document.pages:
        absorber = ap.text.TableAbsorber()
        absorber.visit(page)
        for table in absorber.table_list:
            print("Table ----")
            for row in table.row_list:
                print("Row:")
                row_txt = ""
                for cell in row.cell_list:
                    cell_txt = ""
                    text_fragment_collection = cell.text_fragments
                    for fragment in text_fragment_collection:
                        for seg in fragment.segments:
                            cell_txt += seg.text
                    row_txt += " | "
                    row_txt += cell_txt
                print(row_txt)

موضوعات الجدول ذات الصلة

إضافة جداول إلى PDF في Python دمج جداول PDF مع مصادر البيانات في Python