Class PdfExtractor

Classe PdfExtractor

Classe pour extraire des images et du texte d’un document PDF.

public sealed class PdfExtractor : Facade

Constructeurs

NomDescription
PdfExtractor()Initialise un nouvel objet PdfExtractor.
PdfExtractor(Document)Initialise un nouvel objet PdfExtractor sur la base du document.

Propriétés

NomDescription
Document { get; }Obtient le document sur lequel la façade travaille.
EndPage { get; set; }Obtient ou définit la page de fin dans la plage de pages où l’opération d’extraction sera effectuée.
ExtractImageMode { get; set; }Définit le mode pour le processus d’extraction d’images.
ExtractTextMode { get; set; }Définit le mode pour le résultat de l’extraction de texte.
IsBidi { get; }Est vrai lorsque le texte contient des symboles hébreux ou arabes. Ce cas doit être considéré spécialement car les fonctions de chaîne changent leur comportement et commencent à traiter le texte de droite à gauche (sauf pour les chiffres et autres caractères non textuels).
Password { get; set; }Obtient ou définit le mot de passe du fichier d’entrée.
Resolution { get; set; }Définit ou obtient la résolution pour les images extraites. La valeur par défaut est 150. Les images ayant une valeur de résolution plus élevée sont plus claires. Cependant, l’augmentation de la valeur de résolution entraîne une augmentation du temps et de la mémoire nécessaires pour extraire les images. En général, pour obtenir une image claire, il suffit de définir la résolution à 150 ou 300.
StartPage { get; set; }Obtient ou définit la page de début dans la plage de pages où l’opération d’extraction sera effectuée.
TextSearchOptions { get; set; }Obtient ou définit les options de recherche de texte.

Méthodes

NomDescription
virtual BindPdf(Document)Initialise la façade.
override BindPdf(Stream)Lie le document PDF à partir du flux.
override BindPdf(string)Lie le fichier PDF d’entrée.
virtual Close()Dispose le document Aspose.Pdf lié à une façade.
Dispose()Dispose la façade.
ExtractAttachment()Extrait les pièces jointes d’un document PDF.
ExtractAttachment(string)Extrait une pièce jointe au fichier PDF par le nom de la pièce jointe.
ExtractImage()Extrait des images d’un fichier PDF.
ExtractText()Extrait du texte d’un document PDF en utilisant l’encodage Unicode.
ExtractText(Encoding)Extrait du texte d’un document PDF en utilisant l’encodage spécifié.
GetAttachment()Enregistre tous les fichiers de pièces jointes dans des flux.
GetAttachment(string)Stocke la pièce jointe dans un fichier.
GetAttachmentInfo()Obtient la liste des pièces jointes.
GetAttachNames()Renvoie la liste des pièces jointes dans le fichier PDF. Remarque : ExtractAttachments doit être appelé avant d’utiliser cette méthode.
GetNextImage(Stream)Récupère la prochaine image du fichier PDF et la stocke dans le flux.
GetNextImage(string)Récupère la prochaine image du document PDF. Remarque : ExtractImage doit être appelé avant d’utiliser cette méthode.
GetNextImage(Stream, ImageFormat)Récupère la prochaine image du fichier PDF et la stocke dans le flux avec le format d’image donné.
GetNextImage(string, ImageFormat)Récupère la prochaine image du document PDF avec le format d’image donné. Remarque : ExtractImage doit être appelé avant d’utiliser cette méthode.
GetNextPageText(Stream)Enregistre le texte d’une page dans le flux.
GetNextPageText(string)Enregistre le texte d’une page dans un fichier.
GetText(Stream)Enregistre le texte dans le flux. voir aussi : ExtractText
GetText(string)Enregistre le texte dans un fichier. voir aussi : ExtractText
GetText(Stream, bool)Enregistre le texte dans le flux. voir aussi : ExtractText
HasNextImage()Vérifie si d’autres images sont accessibles dans le document PDF. Remarque : ExtractImage doit être appelé avant d’utiliser cette méthode.
HasNextPageText()Indique si d’autres textes peuvent être récupérés ou non.

Voir aussi