Extraction avancée de texte à partir de présentations en JavaScript
Extraire le texte d’une diapositive
Aspose.Slides for Node.js via Java fournit la classe SlideUtil. Cette classe expose un certain nombre de méthodes statiques surchargées pour extraire le texte complet d’une présentation ou d’une diapositive. Pour extraire le texte d’une diapositive dans une présentation PPTX, utilisez la méthode statique surchargée getAllTextBoxes exposée par la classe SlideUtil. Cette méthode accepte l’objet Slide comme paramètre. Lors de son exécution, la méthode Slide parcourt tout le texte de la diapositive transmise en paramètre et renvoie un tableau d’objets TextFrame. Cela signifie que toute mise en forme du texte associée est disponible. Le fragment de code suivant extrait tout le texte de la première diapositive de la présentation :
// Instancier la classe Presentation qui représente un fichier PPTX
var pres = new aspose.slides.Presentation("demo.pptx");
try {
for (var s = 0; s < pres.getSlides().size(); s++) {
let slide = pres.getSlides().get_Item(s);
// Obtenir un tableau d'objets ITextFrame à partir de toutes les diapositives du PPTX
var textFramesPPTX = aspose.slides.SlideUtil.getAllTextBoxes(slide);
// Parcourir le tableau de TextFrames
for (var i = 0; i < textFramesPPTX.length; i++) {
// Parcourir les paragraphes du ITextFrame actuel
for (let j = 0; j < textFramesPPTX[i].getParagraphs().getCount(); j++) {
let para = textFramesPPTX[i].getParagraphs().get_Item(j);
// Parcourir les portions du IParagraph actuel
for (let k = 0; k < para.getPortions().getCount(); k++) {
let port = para.getPortions().get_Item(k);
// Afficher le texte de la portion actuelle
console.log(port.getText());
// Afficher la hauteur de la police du texte
console.log(port.getPortionFormat().getFontHeight());
// Afficher le nom de la police du texte
if (port.getPortionFormat().getLatinFont() != null) {
console.log(port.getPortionFormat().getLatinFont().getFontName());
}
});
}
}
});
} finally {
pres.dispose();
}
Extraire le texte d’une présentation
Pour parcourir le texte de l’ensemble de la présentation, utilisez la méthode statique getAllTextFrames exposée par la classe SlideUtil. Elle prend deux paramètres :
- Tout d’abord, un objet Presentation qui représente la présentation à partir de laquelle le texte est extrait.
- Ensuite, une valeur booléenne déterminant si la diapositive maîtresse doit être incluse lors du scan du texte de la présentation.
La méthode renvoie un tableau d’objets TextFrame complets avec les informations de mise en forme du texte. Le code ci‑dessous parcourt le texte et les informations de mise en forme d’une présentation, y compris les diapositives maîtresses.
// Instancier la classe Presentation qui représente un fichier PPTX
var pres = new aspose.slides.Presentation("demo.pptx");
try {
// Obtenir un tableau d'objets ITextFrame à partir de toutes les diapositives du PPTX
var textFramesPPTX = aspose.slides.SlideUtil.getAllTextFrames(pres, true);
// Parcourir le tableau de TextFrames
for (var i = 0; i < textFramesPPTX.length; i++) {
// Parcourir les paragraphes du ITextFrame actuel
for (let j = 0; j < textFramesPPTX[i].getParagraphs().getCount(); j++) {
let para = textFramesPPTX[i].getParagraphs().get_Item(j);
// Parcourir les portions du IParagraph actuel
for (let k = 0; k < para.getPortions().getCount(); k++) {
let port = para.getPortions().get_Item(k);
// Afficher le texte de la portion actuelle
console.log(port.getText());
// Afficher la hauteur de la police du texte
console.log(port.getPortionFormat().getFontHeight());
// Afficher le nom de la police du texte
if (port.getPortionFormat().getLatinFont() != null) {
console.log(port.getPortionFormat().getLatinFont().getFontName());
}
}
}
}
} finally {
pres.dispose();
}
Extraction de texte catégorisée et rapide
La nouvelle méthode statique getPresentationText a été ajoutée à la classe Presentation. Cette méthode possède trois surcharges :
IPresentationText getPresentationText(String file, int mode);
IPresentationText getPresentationText(InputStream stream, int mode);
IPresentationText getPresentationText(InputStream stream, int mode, ILoadOptions options);
The TextExtractionArrangingMode enum argument indicates the mode to organize the output of text result and can be set to the following values:
- Unarranged - The raw text with no respect to position on the slide
- Arranged - The text is positioned in the same order as on the slide
Unarranged mode can be used when speed is critical, it’s faster than Arranged mode.
PresentationText represents the raw text extracted from the presentation. It contains a getSlidesText method which returns an array of SlideText objects. Every object represent the text on the corresponding slide. SlideText object have the following methods:
SlideText.getText- The text on the slide’s shapesSlideText.getMasterText- The text on the master page’s shapes for this slideSlideText.getLayoutText- The text on the layout page’s shapes for this slideSlideText.getNotesText- The text on the notes page’s shapes for this slide
There is also a SlideText class which implements the SlideText class.
The new API can be used like this:
var text1 = aspose.slides.PresentationFactory.getInstance().getPresentationText("presentation.pptx", aspose.slides.TextExtractionArrangingMode.Unarranged);
console.log(text1.getSlidesText()[0].getText());
console.log(text1.getSlidesText()[0].getLayoutText());
console.log(text1.getSlidesText()[0].getMasterText());
console.log(text1.getSlidesText()[0].getNotesText());
FAQ
Quelle est la rapidité d’Aspose.Slides lors de l’extraction de texte dans de grandes présentations ?
Aspose.Slides est optimisé pour des performances élevées et traite efficacement même les présentations volumineuses, ce qui le rend adapté aux scénarios de traitement en temps réel ou par lots.
Aspose.Slides peut‑il extraire le texte des tableaux et des graphiques au sein des présentations ?
Oui, Aspose.Slides prend en charge l’extraction du texte des tableaux, des graphiques et d’autres éléments de diapositive complexes, vous permettant d’accéder et d’analyser facilement tout le contenu textuel.
Ai‑je besoin d’une licence spéciale Aspose.Slides pour extraire le texte des présentations ?
Vous pouvez extraire le texte avec la version d’essai gratuite d’Aspose.Slides, bien qu’elle comporte certaines limites, comme le traitement d’un nombre limité de diapositives. Pour une utilisation illimitée et la gestion de présentations plus grandes, l’achat d’une licence complète est recommandé.