PDFからテキストを抽出する方法(Node.js)
Contents
[
Hide
]
PDFドキュメントからテキストを抽出する
PDFドキュメントからテキストを抽出することは、非常に一般的で有用なタスクです。PDFからテキストを抽出することは、検索と可用性の向上から、ビジネス、研究、情報管理などの様々な分野でのデータの分析と自動化を可能にするために役立ちます。
PDFドキュメントからテキストを抽出したい場合は、AsposePdfExtractText 関数を使用できます。 Node.jsを通じてC++を使用してPDFファイルからテキストを抽出するための以下のコードスニペットを確認してください。
コードスニペットを確認し、PDFからテキストを抽出する手順に従ってください:
CommonJS:
require
を呼び出し、asposepdfnodejs
モジュールをAsposePdf
変数としてインポートします。- テキストを抽出するPDFファイルの名前を指定します。
AsposePdf
をPromiseとして呼び出し、テキストを抽出する操作を実行します。成功した場合はオブジェクトを受け取ります。- 関数AsposePdfExtractTextを呼び出します。
- 抽出されたテキストはJSONオブジェクトに格納されます。したがって、‘json.errorCode’が0の場合、抽出されたテキストはconsole.logを使用して表示されます。json.errorCodeパラメータが0でない場合、つまりファイルにエラーが表示される場合、エラー情報は’json.errorText’に含まれます。
const AsposePdf = require('asposepdfnodejs');
const pdf_file = 'Aspose.pdf';
AsposePdf().then(AsposePdfModule => {
/* PDFファイルからテキストを抽出 */
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
});
ECMAScript/ES6:
asposepdfnodejs
モジュールをインポートします。- テキストを抽出するPDFファイルの名前を指定します。
- AsposePdfモジュールを初期化します。成功した場合はオブジェクトを受け取ります。
- 関数AsposePdfExtractTextを呼び出します。
- 抽出されたテキストはJSONオブジェクトに格納されます。したがって、‘json.errorCode’が0の場合、抽出されたテキストはconsole.logを使用して表示されます。json.errorCodeパラメータが0でない場合、ファイルにエラーが表示され、エラー情報は’json.errorText’に含まれます。
import AsposePdf from 'asposepdfnodejs';
const AsposePdfModule = await AsposePdf();
const pdf_file = 'Aspose.pdf';
/*PDFファイルからテキストを抽出する*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);