OCR sur fichiers PDF
Publié : 13.11.2009 - 22h39 par superpantoufle
Salut les gens!
Dites, je cherche une solution à un manque… Il y a 2-3 ans, je me suis mis à scanner toutes nos factures et autres documents administratifs, relevés téléphoniques, etc. Du coup je gagne une place folle en éliminant les classeurs fédéraux d'archives, et un temps fou pour rechercher un document. En effet le pilote des scanners Canon (comme ceux de la plupart des marques, j'imagine) permet de créer des PDF « texte+image », qui ont le double mérite d'être une copie fidèle des documents scannés, et dont le texte peut être sélectionné et indexé par Spotlight. Et c'est parfait.
Alors bon, ce n'est sans doute pas la solution d'OCR la plus performante, mais ça convient bien à mes besoins dans ce cas précis.
Mais dites-moi… comment puis-je obtenir un résultat similaire avec des fichiers PDF qui ne proviennent pas de mon scanner? Pratiquement, j'ai commencé une formation cet automne, et dans ce cadre nous recevons beaucoup d'articles de revues en PDF. Ceux qui proviennent de revues disponibles en lignes sont la plupart du temps des PDF en bonne et due forme, dont le texte est sélectionnable, mais beaucoup d'autres sont des scans plus ou moins anciens et de plus ou moins bonne qualité, dont le texte n'est pas sélectionnable, ni indexable par Spotlight. Et ça m'embête.
Auriez-vous une solution à me proposer? Je pourrais évidemment m'offrir un logiciel d'OCR complet, mais je n'ai pas besoin d'une usine à gaz et selon ma modeste expérience ces logiciels sur Mac sont très cher et que moyennement efficaces. Je viens par ailleurs d'essayer Prizmo que François a récemment testé ici-même, qui a priori aurait bien répondre à mes besoins. J'ai trouvé ce programme super joli, intuitif, efficace et bien réalisé, mais s'il est capable de créer des PDF « texte+image » parfaits, malheureusement il n'accepte pas le PDF comme format d'entrée, mais uniquement les formats d'image.
Auriez-vous une suggestion à me proposer, quitte à modifier un peu mon flux de travail? Merci d'avance!
Dites, je cherche une solution à un manque… Il y a 2-3 ans, je me suis mis à scanner toutes nos factures et autres documents administratifs, relevés téléphoniques, etc. Du coup je gagne une place folle en éliminant les classeurs fédéraux d'archives, et un temps fou pour rechercher un document. En effet le pilote des scanners Canon (comme ceux de la plupart des marques, j'imagine) permet de créer des PDF « texte+image », qui ont le double mérite d'être une copie fidèle des documents scannés, et dont le texte peut être sélectionné et indexé par Spotlight. Et c'est parfait.
Alors bon, ce n'est sans doute pas la solution d'OCR la plus performante, mais ça convient bien à mes besoins dans ce cas précis.
Mais dites-moi… comment puis-je obtenir un résultat similaire avec des fichiers PDF qui ne proviennent pas de mon scanner? Pratiquement, j'ai commencé une formation cet automne, et dans ce cadre nous recevons beaucoup d'articles de revues en PDF. Ceux qui proviennent de revues disponibles en lignes sont la plupart du temps des PDF en bonne et due forme, dont le texte est sélectionnable, mais beaucoup d'autres sont des scans plus ou moins anciens et de plus ou moins bonne qualité, dont le texte n'est pas sélectionnable, ni indexable par Spotlight. Et ça m'embête.
Auriez-vous une solution à me proposer? Je pourrais évidemment m'offrir un logiciel d'OCR complet, mais je n'ai pas besoin d'une usine à gaz et selon ma modeste expérience ces logiciels sur Mac sont très cher et que moyennement efficaces. Je viens par ailleurs d'essayer Prizmo que François a récemment testé ici-même, qui a priori aurait bien répondre à mes besoins. J'ai trouvé ce programme super joli, intuitif, efficace et bien réalisé, mais s'il est capable de créer des PDF « texte+image » parfaits, malheureusement il n'accepte pas le PDF comme format d'entrée, mais uniquement les formats d'image.
Auriez-vous une suggestion à me proposer, quitte à modifier un peu mon flux de travail? Merci d'avance!