Extrair tabelas de PDF em Python

Extrair tabela de PDF

Extrair tabelas de PDFs é útil para geração de relatórios, migração de dados e fluxos de trabalho analíticos. Com Aspose.PDF for Python via .NET, você pode detectar e ler o conteúdo de tabelas de documentos PDF existentes de forma eficiente.

Este trecho de código abre um arquivo PDF existente, verifica cada página em busca de tabelas e extrai o conteúdo de texto das células. Ele usa TableAbsorber para detectar tabelas e então iterar pelas linhas e células para imprimir o texto extraído.

Carrega o PDF em um objeto ap.Document.
Itera pelas páginas.
Cria um objeto TableAbsorber.
Itera pelas tabelas.
Iterar através de linhas e células.
Extrair e imprimir texto das células.

Este exemplo lê um PDF, encontra todas as tabelas e imprime o conteúdo das células linha por linha.

import aspose.pdf as ap
from os import path
import sys

def extract(infile: str) -> None:
    """Extract and print all tables from a PDF file."""
    document = ap.Document(infile)
    for page in document.pages:
        absorber = ap.text.TableAbsorber()
        absorber.visit(page)
        for table in absorber.table_list:
            print("Table ----")
            for row in table.row_list:
                print("Row:")
                row_txt = ""
                for cell in row.cell_list:
                    cell_txt = ""
                    text_fragment_collection = cell.text_fragments
                    for fragment in text_fragment_collection:
                        for seg in fragment.segments:
                            cell_txt += seg.text
                    row_txt += " | "
                    row_txt += cell_txt
                print(row_txt)

Tópicos Relacionados à Tabela

Adicionar tabelas ao PDF em Python Integrar Tabelas PDF com Fontes de Dados em Python