Comment faire une OCR sur un document PDF?

Duplication possible:
Comment extraire du texte avec OCR à partir d'un fichier PDF sur Linux?

J'ai quelques documents en anglais et en hébreu que j'ai scannés et converti au format PDF.

Existe-t-il un utilitaire gratuit ou bon marché qui peut traiter un PDF scanné et faire une OCR, au moins en anglais, de préférence également en hébreu?

Merci!

    J'ai trouvé une liste de logiciels OCR gratuits pour Windows.

    1. FreeOCR
    2. Tesseract
    3. WeOcr Tesseract Interface Web
    4. GOCR
    5. Windows GUI pour GOCR
    6. OCR Desktop
    7. Simple OCR
    8. TopOCR

    Cependant, ces programmes nécessitent une entrée d'image, pas une entrée PDF. Pour cela, essayez un convertisseur PDF-à-JPG .

    J'ai trouvé une idée intéressante qui permet à Google de faire tout le travail de OCR'ing les fichiers PDF pour vous.

    Personnellement, j'utiliserais Ghostview pour les convertir en une image, puis Tesseract pour les convertir en texte. Il s'agit d'une solution multiplate-forme open source gratuite, dont j'ai eu de très bons résultats lors de la tentative de conversion de texte en clair. Je ne l'utilise pas pour des documents complexes avec des tables, mais pour le texte simple, vous ne pouvez pas battre le prix.