Извлечь таблицу из PDF-документа
Contents
[
Hide
]
Извлечь таблицу из PDF
Извлечение таблиц из PDF с помощью Python может быть чрезвычайно полезным для извлечения и анализа данных. С библиотекой Aspose.PDF for Python via .NET вы можете эффективно работать с таблицами, встроенными в PDF‑документы, для различных задач, связанных с данными.
Этот фрагмент кода открывает существующий PDF‑файл, сканирует каждую страницу в поисках таблиц и извлекает текстовое содержимое их ячеек. Он использует ‘TableAbsorber’ для обнаружения таблиц, а затем перебирает строки и ячейки, выводя содержащийся в них текст.
- Загружает PDF в объект ap.Document.
- Перебирает страницы.
- Создаёт объект TableAbsorber.
- Перебирает таблицы.
- Итерируйте строки и ячейки.
- Извлеките и выведите текст из ячеек.
Этот пример читает PDF, находит все таблицы и выводит содержимое их ячеек построчно.
import aspose.pdf as ap
from os import path
import sys
def extract(infile: str) -> None:
"""Extract and print all tables from a PDF file."""
document = ap.Document(infile)
for page in document.pages:
absorber = ap.text.TableAbsorber()
absorber.visit(page)
for table in absorber.table_list:
print("Table ----")
for row in table.row_list:
print("Row:")
row_txt = ""
for cell in row.cell_list:
cell_txt = ""
text_fragment_collection = cell.text_fragments
for fragment in text_fragment_collection:
for seg in fragment.segments:
cell_txt += seg.text
row_txt += " | "
row_txt += cell_txt
print(row_txt)