Extraire le texte d'un fichier PDF

Contents
[ ]

Dans cet article, nous examinerons en détail l’extraction de texte d’un fichier PDF. Toutes ces fonctionnalités d’extraction sont fournies en un seul endroit, dans la classe PdfExtractor. Nous verrons comment utiliser ces fonctionnalités dans notre code.

La classe PdfExtractor offre trois types de capacités d’extraction. Ces trois catégories sont Texte, Images et Pièces jointes. Afin de réaliser une extraction dans chacune de ces trois catégories, PdfExtractor propose diverses méthodes qui fonctionnent ensemble pour vous donner le résultat final.

Par exemple, pour extraire du texte, vous pouvez utiliser trois méthodes c’est-à-dire. ``` ExtractText, GetText, HasNextPageText et GetNextPageText.


```csharp
public static void ExtractText()
{
    bool WholeText = true;
    // Créer un objet de la classe PdfExtractor
    PdfExtractor pdfExtractor = new PdfExtractor();

    // Lier le PDF d'entrée
    pdfExtractor.BindPdf(_dataDir + "sample.pdf");

    // ExtractText
    pdfExtractor.ExtractText();

    if (!WholeText)
    {
        pdfExtractor.GetText(_dataDir + "sample.txt");
    }
    else
    {
        // Extraire le texte dans des fichiers séparés
        int pageNumber = 1;
        while (pdfExtractor.HasNextPageText())
        {
            pdfExtractor.GetNextPageText($"{_dataDir}\\sample{pageNumber:D3}.txt");
            pageNumber++;
        }
    }
}

Pour extraire le mode d’extraction de texte, utilisez le code suivant :

public static void ExtractTextExtractonMode()
{
    bool WholeText = true;
    // Créez un objet de la classe PdfExtractor
    PdfExtractor pdfExtractor = new PdfExtractor();

    // Liez le PDF d'entrée
    pdfExtractor.BindPdf(_dataDir + "sample.pdf");

    // Extraire le texte
    // pdfExtractor.ExtractTextMode = 0; //mode pur
    pdfExtractor.ExtractTextMode = 1; //mode brut
    pdfExtractor.ExtractText();


    if (!WholeText)
    {
        pdfExtractor.GetText(_dataDir + "sample.txt");
    }
    else
    {
        // Extraire le texte dans des fichiers séparés
        int pageNumber = 1;
        while (pdfExtractor.HasNextPageText())
        {
            pdfExtractor.GetNextPageText($"{_dataDir}\\sample{pageNumber:D3}.txt");
            pageNumber++;
        }
    }
}