Извлечь таблицу из PDF-документа

Извлечь таблицу из PDF

Извлечение таблиц из PDF с помощью Python может быть чрезвычайно полезным для извлечения и анализа данных. С библиотекой Aspose.PDF for Python via .NET вы можете эффективно работать с таблицами, встроенными в PDF‑документы, для различных задач, связанных с данными.

Этот фрагмент кода открывает существующий PDF‑файл, сканирует каждую страницу в поисках таблиц и извлекает текстовое содержимое их ячеек. Он использует ‘TableAbsorber’ для обнаружения таблиц, а затем перебирает строки и ячейки, выводя содержащийся в них текст.

  1. Загружает PDF в объект ap.Document.
  2. Перебирает страницы.
  3. Создаёт объект TableAbsorber.
  4. Перебирает таблицы.
  5. Итерируйте строки и ячейки.
  6. Извлеките и выведите текст из ячеек.

Этот пример читает PDF, находит все таблицы и выводит содержимое их ячеек построчно.

import aspose.pdf as ap
from os import path
import sys

def extract(infile: str) -> None:
    """Extract and print all tables from a PDF file."""
    document = ap.Document(infile)
    for page in document.pages:
        absorber = ap.text.TableAbsorber()
        absorber.visit(page)
        for table in absorber.table_list:
            print("Table ----")
            for row in table.row_list:
                print("Row:")
                row_txt = ""
                for cell in row.cell_list:
                    cell_txt = ""
                    text_fragment_collection = cell.text_fragments
                    for fragment in text_fragment_collection:
                        for seg in fragment.segments:
                            cell_txt += seg.text
                    row_txt += " | "
                    row_txt += cell_txt
                print(row_txt)

Связанные темы таблицы