PDF ドキュメントを解析する

PDFの解析ドキュメントは、PDFファイルからさまざまな種類の情報を抽出することに関連する用語です。このセクションでは以下の方法について説明します。

PDF からテキストを抽出。既製の PDF では、テキスト解析または抽出が最もよく使用される操作です。文書全体、特定のページ、またはページ内の特定の領域からテキスト解析について学びます。
PDF から画像を抽出。画像抽出は、上記のテキストに対する操作と同じ処理を画像に対して行います。
PDF からフォントを抽出。フォント抽出は PDF 内のフォントに特有の操作です。
フォームからデータを抽出。Forms を含む PDF ドキュメントが多数ある場合は、おそらくそれらのフォームからデータを取得する必要があります。この記事は、.NET 経由で Aspose.PDF for Python を使用して AcroForms データを抽出する方法を理解するのに役立ちます。
テーブルからデータを抽出。PDF ドキュメントのテーブルからデータを取得。
PDF からベクターデータを抽出。位置、色、線幅などのベクターデータ (パス、ポリゴン、ポリライン) を取得できます。