Extraer tablas de PDF en Python
Contents
[
Hide
]
Extraer tabla de PDF
Extraer tablas de PDFs es útil para la generación de informes, la migración de datos y los flujos de trabajo de análisis. Con Aspose.PDF for Python via .NET, puedes detectar y leer el contenido de tablas de documentos PDF existentes de manera eficiente.
Este fragmento de código abre un archivo PDF existente, escanea cada página en busca de tablas y extrae el contenido de texto de las celdas. Utiliza TableAbsorber para detectar tablas y luego iterar a través de filas y celdas para imprimir el texto extraído.
- Carga el PDF en un objeto ap.Document.
- Recorre las páginas.
- Crea un objeto TableAbsorber.
- Itera a través de las tablas.
- Iterar a través de filas y celdas.
- Extraer e imprimir texto de las celdas.
Este ejemplo lee un PDF, encuentra todas las tablas y muestra su contenido de celdas fila por fila.
import aspose.pdf as ap
from os import path
import sys
def extract(infile: str) -> None:
"""Extract and print all tables from a PDF file."""
document = ap.Document(infile)
for page in document.pages:
absorber = ap.text.TableAbsorber()
absorber.visit(page)
for table in absorber.table_list:
print("Table ----")
for row in table.row_list:
print("Row:")
row_txt = ""
for cell in row.cell_list:
cell_txt = ""
text_fragment_collection = cell.text_fragments
for fragment in text_fragment_collection:
for seg in fragment.segments:
cell_txt += seg.text
row_txt += " | "
row_txt += cell_txt
print(row_txt)