profile
noticeresearch

Archives 14 janvier 2012language

un OCR gratuit pour convertir vos images et pdf en texte

L'Optical Character Recognition (en français on dit Reconnaissance Optique de Caractères), est une technologie qui permet de convertir en texte ses image ou des es documents imprimés qu'on a scanné.

Généralement, quand vous faites l'acquisition d'un scanner, le fabricant vous livre un logiciel capable de faire (plus ou moins bien) cela.

Utilisant relativement peu mon scanner (et ayant eu depuis l'occasion de perdre les drivers et logiciels), j'ai voulu récemment récupérer deux ou trois textes sans avoir à les retaper

Je me suis donc mi en quête d'un logiciel permettant de faire ceci (gratuitement bien sur) et j'ai trouvé FreeOCR.net un freeware basé sur la technologie tesseract capable de lire :

  • Les fichiers images
  • Les fichiers PDF
  • et gérant les scanners compatibles twain

et de convertir leur contenu

  • en texte qu'on peut copier,
  • en fichier texte
  • ou en document Word.

De plus, on peut facilement lui rajouter des dictionnaires de conversion dans plusieurs langues.

On est certes loin de la précision de certains outils payant, mais après quelques test sur des fichier pdf et des scans (dont un d'un document en comic sans ;o) ) on gagne quand même pas mal de temps si on a beaucoup de textes à récupérer (par contre, il n'est pas possible de récupérer un tableau formaté)

suggest
profile

protéger ses adresses e-mail contre le spam avec Jquery

Il y a quelques mois, je vous avais présenté une petite astuce en javascript pour protéger les adresses E-mail en javascript.

Le principe en était simple, comme les robots spameurs utilisent souvent comme motif de capture ce qu'il y a autour des l'arobases pour eviter qu'ils retrouvent les adresse au sein d'une page web, on remplace toute les arobases du document par un motif

Par exemple au lieu d'écrire :

tagada@tsointsoin.net

< a href="mailto:tagada@tsointsoin.net" >tagada@tsointsoin.net

on remplace l'arobase par un motif :

tagada|at|tsointsoin.net

< a href="mailto:tagada|at|tsointsoin.net" >tagada|at|tsointsoin.net

Puis on demande a javascript de remplacer le motif par une arobase.

Ainsi, le vilain robot spameur (pour peu qu'il n’interprète pas javascript) ne peut pas copier l'adresse Email, cependant que le navigateur web (interprète  javascript à l'ouverture du document) rend les adresse Email accecibles aux utilisateurs de la page.

Bien sur, la méthode n'est pas infaillible, mais elle peut éviter quelques spams...

... et c'est toujours ça de pas pris ;o)

Comme ces derniers temps j'ai travaillé sur un projet dans lequel j'ai beaucoup utilisé Jquery, j'en ai profité pour réécrire ce petit bout de code pour Jquery ce qui donne  ceci...

<script type="text/javascript" src="javascript/jquery-1.4.4.js">script>
<script type="text/javascript">
$(document).ready(function() {
$("a[href^='mailto:']").bind("mouseover focus",function() { var motif= "|at|";//texte du motif $(this).html($(this).html().replace(motif, "@")); $(this).attr("href",$(this).attr("href").replace(motif, "@"))  });
});
 script>

Les adresse E-mails inclues dans les liens  restent ainsi cachées jusqu'à ce qu'on survole les liens avec la souris, ou qu'on leur donne le focus avec la barre de tabulation...

notice
feedback
notice
Bear

Switch to our mobile site

research