Archives du forum Cuk.ch • OCR sur fichiers PDF

Publié : **13.11.2009 - 22h39** par **superpantoufle**

Salut les gens!

Dites, je cherche une solution à un manque… Il y a 2-3 ans, je me suis mis à scanner toutes nos factures et autres documents administratifs, relevés téléphoniques, etc. Du coup je gagne une place folle en éliminant les classeurs fédéraux d'archives, et un temps fou pour rechercher un document. En effet le pilote des scanners Canon (comme ceux de la plupart des marques, j'imagine) permet de créer des PDF « texte+image », qui ont le double mérite d'être une copie fidèle des documents scannés, et dont le texte peut être sélectionné et indexé par Spotlight. Et c'est parfait.
Alors bon, ce n'est sans doute pas la solution d'OCR la plus performante, mais ça convient bien à mes besoins dans ce cas précis.

Mais dites-moi… comment puis-je obtenir un résultat similaire avec des fichiers PDF qui ne proviennent pas de mon scanner? Pratiquement, j'ai commencé une formation cet automne, et dans ce cadre nous recevons beaucoup d'articles de revues en PDF. Ceux qui proviennent de revues disponibles en lignes sont la plupart du temps des PDF en bonne et due forme, dont le texte est sélectionnable, mais beaucoup d'autres sont des scans plus ou moins anciens et de plus ou moins bonne qualité, dont le texte n'est pas sélectionnable, ni indexable par Spotlight. Et ça m'embête.

Auriez-vous une solution à me proposer? Je pourrais évidemment m'offrir un logiciel d'OCR complet, mais je n'ai pas besoin d'une usine à gaz et selon ma modeste expérience ces logiciels sur Mac sont très cher et que moyennement efficaces. Je viens par ailleurs d'essayer Prizmo que François a récemment testé ici-même, qui a priori aurait bien répondre à mes besoins. J'ai trouvé ce programme super joli, intuitif, efficace et bien réalisé, mais s'il est capable de créer des PDF « texte+image » parfaits, malheureusement il n'accepte pas le PDF comme format d'entrée, mais uniquement les formats d'image.
Auriez-vous une suggestion à me proposer, quitte à modifier un peu mon flux de travail? Merci d'avance!

Publié : **14.11.2009 - 8h03** par **supercopieur**

Si Prizmo te convient, le plus simple est de sauver ton PDF dans un format image qui est reconnu comme format d'entrée.

Publié : **14.11.2009 - 13h37** par **BLUES**

superpantoufle a écrit :omment puis-je obtenir un résultat similaire avec des fichiers PDF qui ne proviennent pas de mon scanner?

On en parlé à plusieurs reprises... Pour ceux qui l'ont : tout simplement avec Acrobat (mais pas le reader), ça fonctionne plutôt bien pour du basique. Il existe aussi à ce que j'ai entendu des softs pas cher, voir gratuit.

Mais si on veut du pointu/solide voici des softs bien connu sur notre plate-forme (payants) :
- OmniPage Pro
ou
- ABBYY FineReader

MAis il y a mieux : des collègues ont dernièrement acheté Readiris 12 justement parce qu'ils voulaient un soft pour Océriser/archiver du pdf, d'après leur analyse il semblait que c'était le meilleur et pour 129 Euros, c'est pas si cher. VOIR ICI

Publié : **14.11.2009 - 22h45** par **superpantoufle**

Merci pour vos réponses!

supercopieur a écrit :Si Prizmo te convient, le plus simple est de sauver ton PDF dans un format image qui est reconnu comme format d'entrée.

Certes, et ça marche pas mal. Mais pour un PDF de plusieurs pages c'est pas le pied… et le positionnement manuel de la grille de Prizmo est assez fastidieux.

Blues, je ne possède malheureusement pas Acrobat. Et je parle bien d'une utilisation très occasionnelle, qui ne justifie à mon sens pas d'investissement financier trop important. Tu parles de softs pas chers voire gratuits; aurais-tu des pistes? Au contraire, il me semblait que le paysage de l'OCR sur Mac était assez misérable, peuplé des quelques dinosaures du secteur, efficaces mais hors de prix… Peut-être me trompé-je! Toujours qu'OmniPage est à 500$, et ABBY à 89€, ReadIris à 129€, c'est vachement chérot, d'autant plus que l'OCR basique de mon scanner me convient très bien pour les docs que je scanne moi-même.

En gros, le truc qu'il me faudrait c'est un moyen de faire passer les fichiers reçus à la moulinette du pilote de scanner Canon…

Publié : **15.11.2009 - 8h35** par **marief**

Vuescan se vante de faire aussi de l'OCR : http://www.hamrick.com/ocr.html
Il y a une démo, qui sort des images taguées (de $, du moins il y a quelques années). Non testé.

Publié : **15.11.2009 - 11h21** par **jibu**

J'utilise Read iris depuis plus d'une année, on scanne toutes les factures fournisseurs, il est parfait.
J'ai acheté l'update sortie récemment, si on possède une version ancienne, il faut demander une offre de mise à jour par email, ce que j'ai reçu.

Attention toutefois, il faut faire la mise à jour dès que le soft est installé !
En effet la version que j'ai installé m'a effacer mes fichier source ! l'update a corrigé le problème.

Publié : **15.11.2009 - 13h22** par **BLUES**

superpantoufle a écrit : efficaces mais hors de prix… Peut-être me trompé-je!

Oui je pense que tu te trompes -> car pour moins de 200.- Frs, les collègues dont j'ai parlé ont fait une longue analyse de leurs besoins (pas si pro que ça), il en est ressorti que c'est le meilleur soft orienté PDF (archivage, récup OCR, etc..) et qu'en quelques coups de Scan l'investissement serait rentabilisé. Jibu vient justement de dire qu'il est parfait :wink:

Perso même si usage irrégulier, je pense que 200.- je les mettrais.

Bonne chance pour ta recherche... et surtout redis-nous la soluce que tu auras choisie au final

Éventualité : Il y aussi la solution d'acheter Acrobat en version édu par un de tes amis étudiants, par exemple la creative suite design standard CS4 qui ne coute que 280.- frs et comprend : InDesign, Photoshop, Illustrator, et Acrobat, voir ici si intéressé, ce qui te permettra d'avoir le plein de bon softs pour pas cher ! Why Not

Publié : **15.11.2009 - 14h07** par **jibu**

Je tiens à préciser que je ne connais pas trop les concurrents, j'avais testé acrobat en v7 et ça ressemblait pas mal, sauf qu'il était en anglais, livré avec un scansnap. L'avantage à Iris était sa légèreté (par rapport à acrobat), et le traitement par lot très simple à mettre en place.

Publié : **15.11.2009 - 17h04** par **Hervé**

Pour faire ce que tu fais, j'utilisePDFPen qui, quand il reçoit un document scanné me demande si je veux passer par l'OCR : je n'ai jamais utilisé cette fonction, mais cela vaut la peine d'essayer : essai gratuit et vente pour 49 $ (honnêtement, moi je l'ai eu dans un bundle)

Publié : **19.11.2009 - 14h17** par **mirou**

jibu a écrit :J'utilise Read iris depuis plus d'une année, on scanne toutes les factures fournisseurs, il est parfait.
J'ai acheté l'update sortie récemment, si on possède une version ancienne, il faut demander une offre de mise à jour par email, ce que j'ai reçu.

Attention toutefois, il faut faire la mise à jour dès que le soft est installé !
En effet la version que j'ai installé m'a effacer mes fichier source ! l'update a corrigé le problème.

Il y a une offre de rabais en ce moment pour Read Iris et je me demande... Comment ça se passe avec le scanner ? La dernière fois que j'ai essayé, mais avec une version antérieur, le processus était vite un peu long:
- Cliquer sur scanner
- La fenêtre du scanner s'ouvre (canon)
- On règle tout dans la fenêtre de canon
- On clique sur ok
- ça scanne
- Le doc s'ouvre dans ReadIris.

Est-ce que maintenant c'est plus rapide, ie:
- Cliquer sur scanner
- ça scanne
- Le doc s'ouvre dans ReadIris.
?
Il n'y a pas de version démo de ce machin là, sinon j'essayerais moi-même....

Publié : **19.11.2009 - 14h25** par **KHannibal**

Je ne sais pas ce que ça vaut, mais tu peux tester ça : http://www.onlineocr.net/

Publié : **19.11.2009 - 15h49** par **Okapi**

Je viens de tester le service en ligne, étonnant, mais pas très pratique à grande échelle bien entendu.

Publié : **20.11.2009 - 7h47** par **jibu**

En fait je n'en sais rien (l'article de François d'aujourd'hui répond à ta question).
Je procède en 2 temps, scanne en vrac (le snapscan possède un chargeur recto/verso), ensuite on renomme les fichiers et on laisse Readiris reconnaître le tout tout seul.

Archives forum Cuk • OCR sur fichiers PDF

OCR sur fichiers PDF

Re: OCR sur fichiers PDF

Re: OCR sur fichiers PDF

Re: OCR sur fichiers PDF

Re: OCR sur fichiers PDF

Re: OCR sur fichiers PDF

Re: OCR sur fichiers PDF

Re: OCR sur fichiers PDF

Re: OCR sur fichiers PDF

Re: OCR sur fichiers PDF

Re: OCR sur fichiers PDF

Re: OCR sur fichiers PDF

Re: OCR sur fichiers PDF