L'Optical Character Recognition (en français on dit Reconnaissance Optique de Caractères), est une technologie qui permet de convertir en texte ses image ou des es documents imprimés qu'on a scanné.
Généralement, quand vous faites l'acquisition d'un scanner, le fabricant vous livre un logiciel capable de faire (plus ou moins bien) cela.
Utilisant relativement peu mon scanner (et ayant eu depuis l'occasion de perdre les drivers et logiciels), j'ai voulu récemment récupérer deux ou trois textes sans avoir à les retaper
Je me suis donc mi en quête d'un logiciel permettant de faire ceci (gratuitement bien sur) et j'ai trouvé FreeOCR.net un freeware basé sur la technologie tesseract capable de lire :
- Les fichiers images
- Les fichiers PDF
- et gérant les scanners compatibles twain
et de convertir leur contenu
- en texte qu'on peut copier,
- en fichier texte
- ou en document Word.
De plus, on peut facilement lui rajouter des dictionnaires de conversion dans plusieurs langues.
On est certes loin de la précision de certains outils payant, mais après quelques test sur des fichier pdf et des scans (dont un d'un document en comic sans ;o) ) on gagne quand même pas mal de temps si on a beaucoup de textes à récupérer (par contre, il n'est pas possible de récupérer un tableau formaté)
- le site de téléchargement est là http://www.paperfile.net/
- Les dicos (dont le français) sont là http://www.paperfile.net/ocr_lang.htm
