Duplication possible: Comment extraire du texte avec OCR à partir d'un fichier PDF sur Linux? J'ai quelques documents en anglais et en hébreu que j'ai scannés et converti au format PDF. Existe-t-il un utilitaire gratuit ou bon marché qui peut traiter un PDF scanné et faire une OCR, au moins en anglais, de préférence également […]
Plusieurs fois, je trouve des bitmaps avec des paragraphes de texte, alors je cherchais un moyen d'identifier la police utilisée, l'alignement des paragraphes, l'espacement des lignes et la couleur, gras, italique. Un colis OCR me permettrait-il de faire cela? Sinon, quelles autres options ai-je?
Comment puis-je extraire du texte d'un fichier PDF qui n'a pas été construit avec un index? C'est tout le texte, mais je ne peux pas rechercher ou sélectionner quoi que ce soit. Je lance Kubuntu, et Okular n'a pas cette fonctionnalité.