Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.
L’extraction de texte à partir d’un document PDF est une chose courante. Cependant, dans ce texte, lorsqu’il est extrait, les SuperScripts et SubScripts qu’il contient, qui sont typiques des documents techniques et des articles, peuvent ne pas s’afficher. Un SubScript ou SuperScript est un caractère, un nombre ou une lettre placé en dessous ou au-dessus d’une ligne de texte régulière. Il est généralement plus petit que le reste du texte.
Les SubScripts et SuperScripts sont le plus souvent utilisés dans les formules, les expressions mathématiques et les spécifications des composés chimiques. Il est difficile de les éditer lorsqu’il peut y en avoir beaucoup dans le même passage de texte. Dans l’une des dernières versions, la bibliothèque Aspose.PDF for .NET a ajouté le support pour l’extraction du texte des SuperScripts et SubScripts à partir de PDF.
Utilisez la classe TextFragmentAbsorber et vous pouvez déjà faire tout ce que vous voulez avec le texte trouvé, c’est-à-dire que vous pouvez simplement utiliser tout le texte. Essayez le code suivant :
Le code suivant fonctionne également avec la bibliothèque Aspose.PDF.Drawing.
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ExtractSuperScriptsAndSubScripts()
{
// The path to the documents directory
var dataDir = RunExamples.GetDataDir_AsposePdf();
// Open PDF document
using (var document = new Aspose.Pdf.Document(dataDir + "SuperScriptExample.pdf"))
{
// Create an absorber
var absorber = new Aspose.Pdf.Text.TextFragmentAbsorber();
document.Pages[1].Accept(absorber);
using (StreamWriter writer = new StreamWriter(dataDir + "SuperScriptExample_out.txt"))
{
// Write the extracted text in text file
writer.WriteLine(absorber.Text);
}
}
}
Ou utilisez les TextFragments séparément et faites toutes sortes de manipulations avec eux, par exemple, trier par coordonnées ou par taille.
Le code suivant fonctionne également avec la bibliothèque Aspose.PDF.Drawing.
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ExtractSuperScriptsAndSubScriptsWithTextFragments()
{
// The path to the documents directory
var dataDir = RunExamples.GetDataDir_AsposePdf();
// Open PDF document
using (var document = new Aspose.Pdf.Document(dataDir + "SuperScriptExample.pdf"))
{
// Create an absorber
var absorber = new Aspose.Pdf.Text.TextFragmentAbsorber();
document.Pages[1].Accept(absorber);
using (StreamWriter writer = new StreamWriter(dataDir + "SuperScriptExample_out.txt"))
{
foreach (var textFragment in absorber.TextFragments)
{
// Write the extracted text in text file
writer.Write(textFragment.Text);
}
}
}
}
Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.