PDFからタグ付きコンテンツを抽出する

この記事では、C#を使用してタグ付きコンテンツPDF文書を抽出する方法を学びます。

以下のコードスニペットは、Aspose.PDF.Drawingライブラリでも動作します。

タグ付きPDFコンテンツの取得

タグ付きテキストを含むPDF文書のコンテンツを取得するために、Aspose.PDFはDocumentクラスのTaggedContentプロパティを提供します。

以下のコードスニペットは、タグ付きテキストを含むPDF文書のコンテンツを取得する方法を示しています。

ルート構造の取得

タグ付きPDF文書のルート構造を取得するために、Aspose.PDFはITaggedContentインターフェースのStructTreeRootElementプロパティとStructureElementを提供します。以下のコードスニペットは、タグ付きPDF文書のルート構造を取得する方法を示しています。

子要素へのアクセス

タグ付きPDF文書の子要素にアクセスするために、Aspose.PDFはElementListクラスを提供します。以下のコードスニペットは、タグ付きPDF文書の子要素にアクセスする方法を示しています。

既存のPDFに画像をタグ付けする

既存のPDF文書に画像をタグ付けするために、Aspose.PDFはStructureElementクラスのFindElementsメソッドを提供します。図の代替テキストを追加するには、FigureElementクラスのAlternativeTextプロパティを使用できます。

以下のコードスニペットは、既存のPDF文書に画像をタグ付けする方法を示しています。