Ekstrak Tabel dari PDF dengan Python

Ekstrak Tabel dari PDF

Mengekstrak tabel dari PDF berguna untuk pelaporan, migrasi data, dan alur kerja analitik. Dengan Aspose.PDF for Python via .NET, Anda dapat mendeteksi dan membaca konten tabel dari dokumen PDF yang ada secara efisien.

Potongan kode ini membuka file PDF yang sudah ada, memindai setiap halaman untuk tabel, dan mengekstrak konten teks sel. Ini menggunakan TableAbsorber untuk mendeteksi tabel dan kemudian mengiterasi baris serta sel untuk mencetak teks yang diekstrak.

  1. Memuat PDF ke dalam objek ap.Document.
  2. Loop melalui halaman.
  3. Membuat objek TableAbsorber.
  4. Iterasi melalui tabel.
  5. Iterasi melalui baris dan sel.
  6. Ekstrak dan cetak teks dari sel.

Contoh ini membaca PDF, menemukan semua tabel, dan mencetak isi selnya baris per baris.

import aspose.pdf as ap
from os import path
import sys

def extract(infile: str) -> None:
    """Extract and print all tables from a PDF file."""
    document = ap.Document(infile)
    for page in document.pages:
        absorber = ap.text.TableAbsorber()
        absorber.visit(page)
        for table in absorber.table_list:
            print("Table ----")
            for row in table.row_list:
                print("Row:")
                row_txt = ""
                for cell in row.cell_list:
                    cell_txt = ""
                    text_fragment_collection = cell.text_fragments
                    for fragment in text_fragment_collection:
                        for seg in fragment.segments:
                            cell_txt += seg.text
                    row_txt += " | "
                    row_txt += cell_txt
                print(row_txt)

Topik Tabel Terkait