Extraire le texte d'un fichier PDF
Dans cet article, nous examinerons en détail l’extraction de texte d’un fichier PDF. Toutes ces fonctionnalités d’extraction sont fournies en un seul endroit, dans la classe PdfExtractor. Nous verrons comment utiliser ces fonctionnalités dans notre code.
La classe PdfExtractor offre trois types de capacités d’extraction. Ces trois catégories sont Texte, Images et Pièces jointes. Afin de réaliser une extraction dans chacune de ces trois catégories, PdfExtractor propose diverses méthodes qui fonctionnent ensemble pour vous donner le résultat final.
Par exemple, pour extraire du texte, vous pouvez utiliser trois méthodes c’est-à-dire. ``` ExtractText, GetText, HasNextPageText et GetNextPageText.
```csharp
public static void ExtractText()
{
bool WholeText = true;
// Créer un objet de la classe PdfExtractor
PdfExtractor pdfExtractor = new PdfExtractor();
// Lier le PDF d'entrée
pdfExtractor.BindPdf(_dataDir + "sample.pdf");
// ExtractText
pdfExtractor.ExtractText();
if (!WholeText)
{
pdfExtractor.GetText(_dataDir + "sample.txt");
}
else
{
// Extraire le texte dans des fichiers séparés
int pageNumber = 1;
while (pdfExtractor.HasNextPageText())
{
pdfExtractor.GetNextPageText($"{_dataDir}\\sample{pageNumber:D3}.txt");
pageNumber++;
}
}
}
Pour extraire le mode d’extraction de texte, utilisez le code suivant :
public static void ExtractTextExtractonMode()
{
bool WholeText = true;
// Créez un objet de la classe PdfExtractor
PdfExtractor pdfExtractor = new PdfExtractor();
// Liez le PDF d'entrée
pdfExtractor.BindPdf(_dataDir + "sample.pdf");
// Extraire le texte
// pdfExtractor.ExtractTextMode = 0; //mode pur
pdfExtractor.ExtractTextMode = 1; //mode brut
pdfExtractor.ExtractText();
if (!WholeText)
{
pdfExtractor.GetText(_dataDir + "sample.txt");
}
else
{
// Extraire le texte dans des fichiers séparés
int pageNumber = 1;
while (pdfExtractor.HasNextPageText())
{
pdfExtractor.GetNextPageText($"{_dataDir}\\sample{pageNumber:D3}.txt");
pageNumber++;
}
}
}