PDFからテキストを抽出する方法(Node.js)

PDFドキュメントからテキストを抽出する

PDFドキュメントからテキストを抽出することは、非常に一般的で有用なタスクです。PDFからテキストを抽出することは、検索と可用性の向上から、ビジネス、研究、情報管理などの様々な分野でのデータの分析と自動化を可能にするために役立ちます。

PDFドキュメントからテキストを抽出したい場合は、AsposePdfExtractText 関数を使用できます。 Node.jsを通じてC++を使用してPDFファイルからテキストを抽出するための以下のコードスニペットを確認してください。

コードスニペットを確認し、PDFからテキストを抽出する手順に従ってください:

CommonJS:

  1. requireを呼び出し、asposepdfnodejsモジュールをAsposePdf変数としてインポートします。
  2. テキストを抽出するPDFファイルの名前を指定します。
  3. AsposePdfをPromiseとして呼び出し、テキストを抽出する操作を実行します。成功した場合はオブジェクトを受け取ります。
  4. 関数AsposePdfExtractTextを呼び出します。
  5. 抽出されたテキストはJSONオブジェクトに格納されます。したがって、‘json.errorCode’が0の場合、抽出されたテキストはconsole.logを使用して表示されます。json.errorCodeパラメータが0でない場合、つまりファイルにエラーが表示される場合、エラー情報は’json.errorText’に含まれます。

  const AsposePdf = require('asposepdfnodejs');
  const pdf_file = 'Aspose.pdf';
  AsposePdf().then(AsposePdfModule => {
      /* PDFファイルからテキストを抽出 */
      const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
      console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
  });

ECMAScript/ES6:

  1. asposepdfnodejsモジュールをインポートします。
  2. テキストを抽出するPDFファイルの名前を指定します。
  3. AsposePdfモジュールを初期化します。成功した場合はオブジェクトを受け取ります。
  4. 関数AsposePdfExtractTextを呼び出します。
  5. 抽出されたテキストはJSONオブジェクトに格納されます。したがって、‘json.errorCode’が0の場合、抽出されたテキストはconsole.logを使用して表示されます。json.errorCodeパラメータが0でない場合、ファイルにエラーが表示され、エラー情報は’json.errorText’に含まれます。

  import AsposePdf from 'asposepdfnodejs';
  const AsposePdfModule = await AsposePdf();
  const pdf_file = 'Aspose.pdf';
  /*PDFファイルからテキストを抽出する*/
  const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
  console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);