OCR sur fichiers PDF

Publié : 13.11.2009 - 22h39 par superpantoufle

Salut les gens!

Dites, je cherche une solution à un manque… Il y a 2-3 ans, je me suis mis à scanner toutes nos factures et autres documents administratifs, relevés téléphoniques, etc. Du coup je gagne une place folle en éliminant les classeurs fédéraux d'archives, et un temps fou pour rechercher un document. En effet le pilote des scanners Canon (comme ceux de la plupart des marques, j'imagine) permet de créer des PDF « texte+image », qui ont le double mérite d'être une copie fidèle des documents scannés, et dont le texte peut être sélectionné et indexé par Spotlight. Et c'est parfait.
Alors bon, ce n'est sans doute pas la solution d'OCR la plus performante, mais ça convient bien à mes besoins dans ce cas précis.

Mais dites-moi… comment puis-je obtenir un résultat similaire avec des fichiers PDF qui ne proviennent pas de mon scanner? Pratiquement, j'ai commencé une formation cet automne, et dans ce cadre nous recevons beaucoup d'articles de revues en PDF. Ceux qui proviennent de revues disponibles en lignes sont la plupart du temps des PDF en bonne et due forme, dont le texte est sélectionnable, mais beaucoup d'autres sont des scans plus ou moins anciens et de plus ou moins bonne qualité, dont le texte n'est pas sélectionnable, ni indexable par Spotlight. Et ça m'embête.

Auriez-vous une solution à me proposer? Je pourrais évidemment m'offrir un logiciel d'OCR complet, mais je n'ai pas besoin d'une usine à gaz et selon ma modeste expérience ces logiciels sur Mac sont très cher et que moyennement efficaces. Je viens par ailleurs d'essayer Prizmo que François a récemment testé ici-même, qui a priori aurait bien répondre à mes besoins. J'ai trouvé ce programme super joli, intuitif, efficace et bien réalisé, mais s'il est capable de créer des PDF « texte+image » parfaits, malheureusement il n'accepte pas le PDF comme format d'entrée, mais uniquement les formats d'image.
Auriez-vous une suggestion à me proposer, quitte à modifier un peu mon flux de travail? Merci d'avance!


Re: OCR sur fichiers PDF

Publié : 14.11.2009 - 8h03 par supercopieur

Si Prizmo te convient, le plus simple est de sauver ton PDF dans un format image qui est reconnu comme format d'entrée.


Re: OCR sur fichiers PDF

Publié : 14.11.2009 - 13h37 par BLUES

superpantoufle a écrit :omment puis-je obtenir un résultat similaire avec des fichiers PDF qui ne proviennent pas de mon scanner?


On en parlé à plusieurs reprises... Pour ceux qui l'ont : tout simplement avec Acrobat (mais pas le reader), ça fonctionne plutôt bien pour du basique. Il existe aussi à ce que j'ai entendu des softs pas cher, voir gratuit.

Mais si on veut du pointu/solide voici des softs bien connu sur notre plate-forme (payants) :
- OmniPage Pro
ou
- ABBYY FineReader

MAis il y a mieux : des collègues ont dernièrement acheté Readiris 12 justement parce qu'ils voulaient un soft pour Océriser/archiver du pdf, d'après leur analyse il semblait que c'était le meilleur et pour 129 Euros, c'est pas si cher. VOIR ICI


Re: OCR sur fichiers PDF

Publié : 14.11.2009 - 22h45 par superpantoufle

Merci pour vos réponses!
supercopieur a écrit :Si Prizmo te convient, le plus simple est de sauver ton PDF dans un format image qui est reconnu comme format d'entrée.

Certes, et ça marche pas mal. Mais pour un PDF de plusieurs pages c'est pas le pied… et le positionnement manuel de la grille de Prizmo est assez fastidieux.

Blues, je ne possède malheureusement pas Acrobat. Et je parle bien d'une utilisation très occasionnelle, qui ne justifie à mon sens pas d'investissement financier trop important. Tu parles de softs pas chers voire gratuits; aurais-tu des pistes? Au contraire, il me semblait que le paysage de l'OCR sur Mac était assez misérable, peuplé des quelques dinosaures du secteur, efficaces mais hors de prix… Peut-être me trompé-je! Toujours qu'OmniPage est à 500$, et ABBY à 89€, ReadIris à 129€, c'est vachement chérot, d'autant plus que l'OCR basique de mon scanner me convient très bien pour les docs que je scanne moi-même.

En gros, le truc qu'il me faudrait c'est un moyen de faire passer les fichiers reçus à la moulinette du pilote de scanner Canon…


Re: OCR sur fichiers PDF

Publié : 15.11.2009 - 8h35 par marief

Vuescan se vante de faire aussi de l'OCR : http://www.hamrick.com/ocr.html
Il y a une démo, qui sort des images taguées (de $, du moins il y a quelques années). Non testé.


Re: OCR sur fichiers PDF

Publié : 15.11.2009 - 11h21 par jibu

J'utilise Read iris depuis plus d'une année, on scanne toutes les factures fournisseurs, il est parfait.
J'ai acheté l'update sortie récemment, si on possède une version ancienne, il faut demander une offre de mise à jour par email, ce que j'ai reçu.

Attention toutefois, il faut faire la mise à jour dès que le soft est installé !
En effet la version que j'ai installé m'a effacer mes fichier source ! l'update a corrigé le problème.


Re: OCR sur fichiers PDF

Publié : 15.11.2009 - 13h22 par BLUES

superpantoufle a écrit : efficaces mais hors de prix… Peut-être me trompé-je!


Oui je pense que tu te trompes -> car pour moins de 200.- Frs, les collègues dont j'ai parlé ont fait une longue analyse de leurs besoins (pas si pro que ça), il en est ressorti que c'est le meilleur soft orienté PDF (archivage, récup OCR, etc..) et qu'en quelques coups de Scan l'investissement serait rentabilisé. Jibu vient justement de dire qu'il est parfait :wink: Perso même si usage irrégulier, je pense que 200.- je les mettrais.

Bonne chance pour ta recherche... et surtout redis-nous la soluce que tu auras choisie au final 8)

Éventualité : Il y aussi la solution d'acheter Acrobat en version édu par un de tes amis étudiants, par exemple la creative suite design standard CS4 qui ne coute que 280.- frs et comprend : InDesign, Photoshop, Illustrator, et Acrobat, voir ici si intéressé, ce qui te permettra d'avoir le plein de bon softs pour pas cher ! Why Not


Re: OCR sur fichiers PDF

Publié : 15.11.2009 - 14h07 par jibu

Je tiens à préciser que je ne connais pas trop les concurrents, j'avais testé acrobat en v7 et ça ressemblait pas mal, sauf qu'il était en anglais, livré avec un scansnap. L'avantage à Iris était sa légèreté (par rapport à acrobat), et le traitement par lot très simple à mettre en place.


Re: OCR sur fichiers PDF

Publié : 15.11.2009 - 17h04 par Hervé

Pour faire ce que tu fais, j'utilisePDFPen qui, quand il reçoit un document scanné me demande si je veux passer par l'OCR : je n'ai jamais utilisé cette fonction, mais cela vaut la peine d'essayer : essai gratuit et vente pour 49 $ (honnêtement, moi je l'ai eu dans un bundle)


Re: OCR sur fichiers PDF

Publié : 19.11.2009 - 14h17 par mirou

jibu a écrit :J'utilise Read iris depuis plus d'une année, on scanne toutes les factures fournisseurs, il est parfait.
J'ai acheté l'update sortie récemment, si on possède une version ancienne, il faut demander une offre de mise à jour par email, ce que j'ai reçu.

Attention toutefois, il faut faire la mise à jour dès que le soft est installé !
En effet la version que j'ai installé m'a effacer mes fichier source ! l'update a corrigé le problème.


Il y a une offre de rabais en ce moment pour Read Iris et je me demande... Comment ça se passe avec le scanner ? La dernière fois que j'ai essayé, mais avec une version antérieur, le processus était vite un peu long:
- Cliquer sur scanner
- La fenêtre du scanner s'ouvre (canon)
- On règle tout dans la fenêtre de canon
- On clique sur ok
- ça scanne
- Le doc s'ouvre dans ReadIris.

Est-ce que maintenant c'est plus rapide, ie:
- Cliquer sur scanner
- ça scanne
- Le doc s'ouvre dans ReadIris.
?
Il n'y a pas de version démo de ce machin là, sinon j'essayerais moi-même....


Re: OCR sur fichiers PDF

Publié : 19.11.2009 - 14h25 par KHannibal

Je ne sais pas ce que ça vaut, mais tu peux tester ça : http://www.onlineocr.net/


Re: OCR sur fichiers PDF

Publié : 19.11.2009 - 15h49 par Okapi

Je viens de tester le service en ligne, étonnant, mais pas très pratique à grande échelle bien entendu.


Re: OCR sur fichiers PDF

Publié : 20.11.2009 - 7h47 par jibu

En fait je n'en sais rien (l'article de François d'aujourd'hui répond à ta question).
Je procède en 2 temps, scanne en vrac (le snapscan possède un chargeur recto/verso), ensuite on renomme les fichiers et on laisse Readiris reconnaître le tout tout seul.