Извлечение таблиц из PDF в Node.js

Извлечение таблиц при преобразовании PDF в файлы CSV

Преобразование PDF в CSV

Если в PDF есть таблицы, они сохраняются в отдельных CSV файлах. В случае, если вы хотите преобразовать PDF документ, вы можете использовать функцию AsposePdfTablesToCSV. Пожалуйста, ознакомьтесь со следующим фрагментом кода, чтобы преобразовать PDF файл в среде Node.js.

CommonJS:

  1. Вызовите require и импортируйте модуль asposepdfnodejs как переменную AsposePdf.

  2. Укажите имя PDF файла, который будет преобразован.

  3. Вызовите AsposePdf как Promise и выполните операцию по преобразованию файла. Получите объект в случае успеха.

  4. Вызовите функцию AsposePdfTablesToCSV.

  5. Конвертируйте PDF файл. Таким образом, если ‘json.errorCode’ равен 0, результат операции сохраняется в “ResultPDFtoXlsX.xlsx”. Если параметр json.errorCode не равен 0 и, соответственно, в вашем файле появляется ошибка, информация об ошибке будет содержаться в ‘json.errorText’.


  const AsposePdf = require('asposepdfnodejs');
  const pdf_file = 'Aspose.pdf';
  AsposePdf().then(AsposePdfModule => {
      /*Конвертировать PDF-файл в CSV (извлечь таблицы) с шаблоном "ResultPdfTablesToCSV{0:D2}.csv" ({0}, {0:D2}, {0:D3}, ... формат номера страницы), TAB в качестве разделителя и сохранить*/
      const json = AsposePdfModule.AsposePdfTablesToCSV(pdf_file, "ResultPdfTablesToCSV{0:D2}.csv", "\t");
      console.log("AsposePdfTablesToCSV => %O", json.errorCode == 0 ? json.filesNameResult : json.errorText);
  });

ECMAScript/ES6:

  1. Импортируйте модуль asposepdfnodejs.

  2. Укажите название PDF-файла, который будет преобразован.

  3. Инициализируйте модуль AsposePdf. Получите объект в случае успеха.

  4. Вызовите функцию AsposePdfTablesToCSV.

  5. Преобразуйте PDF-файл. Таким образом, если ‘json.errorCode’ равен 0, результат операции сохраняется в “ResultPDFtoXlsX.xlsx”. Если параметр json.errorCode не равен 0 и, соответственно, в вашем файле появляется ошибка, информация об ошибке будет содержаться в ‘json.errorText’.


  import AsposePdf from 'asposepdfnodejs';
  const AsposePdfModule = await AsposePdf();
  const pdf_file = 'Aspose.pdf';
  /*Преобразуйте PDF-файл в CSV (извлеките таблицы) с шаблоном "ResultPdfTablesToCSV{0:D2}.csv" ({0}, {0:D2}, {0:D3}, ... формат номера страницы), TAB в качестве разделителя и сохраните*/
  const json = AsposePdfModule.AsposePdfTablesToCSV(pdf_file, "ResultPdfTablesToCSV{0:D2}.csv", "\t");
  console.log("AsposePdfTablesToCSV => %O", json.errorCode == 0 ? json.filesNameResult : json.errorText);