Transformer un pdf en texte
Vous disposez d’un texte scanné et vous souhaitez le modifier. Malheureusement votre scan est une image que votre traitement de texte ne peut retoucher. Il vous faudrait d’abord le retaper entièrement. Pour éviter ça, il faut faire de la reconnaissance de caractère.
Il existe une solution gratuite pour ça…
Google Doc
Vous devez préalablement créer un compte Google Doc si vous ne l’avez pas déjà fait. Ensuite, rendez vous sur compte.
De là vous importez le fichier pdf en cliquant sur Importer dans la marge de gauche. Dans la fenêtre qui s’ouvre:
- cochez l’option “Convertir le texte de fichier image ou pdf au format Google document” qui déclenchera la Reconnaissance Optique de Caractère (ROC ou OCR en anglais)
- vous pouvez également choisir de cocher “Convertir les documents, feuille de calcul et présentation au format Google Doc correspondant”. Ensuite “Sélectionnez les fichiers”. Choisissez le fichier sur votre disque dur, par exemple un document scanné en pdf.
L’importation du document et la reconnaissance de caractères démarrent puis il est stocké dans vos documents Google Doc.
Ouvez ce document. Il présente chaque page avec l’image de départ suivi du texte tel qu’il a été reconnu. Vous observez des erreurs qu’il vous reste à corriger à la main.
Votre document est transformé un texte que vous pouvez éditer. L’opération n’est pas entièrement automatique, mais vous avez gagné du temps.
Si vous souhaitez retrouver la mise en page de départ, il vous reste à la reconstituer en incluant les images si nécessaire.