Extraire des tables d'un PDF en Python

Extraire une table d’un PDF

L’extraction de tableaux à partir de PDF est utile pour les rapports, la migration de données et les flux de travail d’analyse. Avec Aspose.PDF for Python via .NET, vous pouvez détecter et lire le contenu des tableaux à partir de documents PDF existants de manière efficace.

Cet extrait de code ouvre un fichier PDF existant, parcourt chaque page à la recherche de tableaux et extrait le contenu texte des cellules. Il utilise TableAbsorber détecter les tableaux, puis parcourir les lignes et les cellules pour afficher le texte extrait.

  1. Charge le PDF dans un objet ap.Document.
  2. Boucle à travers les pages.
  3. Crée un objet TableAbsorber.
  4. Parcourt les tableaux.
  5. Parcourir les lignes et les cellules.
  6. Extraire et imprimer le texte des cellules.

Cet exemple lit un PDF, trouve toutes les tables et affiche le contenu des cellules ligne par ligne.

import aspose.pdf as ap
from os import path
import sys

def extract(infile: str) -> None:
    """Extract and print all tables from a PDF file."""
    document = ap.Document(infile)
    for page in document.pages:
        absorber = ap.text.TableAbsorber()
        absorber.visit(page)
        for table in absorber.table_list:
            print("Table ----")
            for row in table.row_list:
                print("Row:")
                row_txt = ""
                for cell in row.cell_list:
                    cell_txt = ""
                    text_fragment_collection = cell.text_fragments
                    for fragment in text_fragment_collection:
                        for seg in fragment.segments:
                            cell_txt += seg.text
                    row_txt += " | "
                    row_txt += cell_txt
                print(row_txt)

Sujets liés à la table