PDFpen logo PDFpen logo
 

Aide : OCR (reconnaissance optique des caractères)

OCR (Reconnaissance optique de caractères) est le processus de conversion d'une image bitmap de texte (comme un document numérisé) en texte qui peut être sélectionné, copié et fouillé par PDFpen et d'autres logiciels de traitement de texte.

Une fois que le texte a été reconnu par OCR, il est placé sur une couche invisible ci-dessus de l'image de texte que vous pouvez voir. Lorsque vous copiez du texte, le texte est copié à partir de cette couche OCR invisible. La technologie OCR ne produira pas un rendu parfait du texte bitmap. Vous aurez besoin de relire et modifier le texte qui résulte de OCR

Utilisation de l'OCR dans PDFpen

  1. Ouvrez un document PDF qui a été numérisé (scanné) dans PDFpen.
  2. Une boîte d'alerte s'ouvre contenant le message « Ce document semble avoir été numérisé (scanné). Souhaitez-vous effectuer une reconnaissance optique des caractères (OCR) ur celui-ci ? ». Vous disposez alors de trois options :
    • Annuler
      Aucune OCR ne sera effectuée.
    • OCR de la page
      Une OCR sera faite sur la page actuelle.
    • OCR du document
      Si votre document contient de multiples pages, l'OCR sera effectuée sur toutes les pages.

Lorsque PDFpen est en train d'effectuer l'OCR, une barre de progression apparaîtra. Cette opération peut prendre plusieurs secondes ou plus, selon la taille du document numérisé (scanné) et de son contenu.

Pour effectuer manuellement une OCR, choisissez Édition > OCR. PDFpen commence alors à effectuer l'OCR et une barre de progression apparaît.

Forçage d’OCR

PDFpen regarde si le document n'est composé que d'une seule image qui fait la taille de la page. Si tel est le cas, PDFpen présume que le document a été numérisé (scanné) et offre alors la possibilité d'effectuer une OCR. Dans certains cas, PDFpen peut ne pas reconnaître un document numérisé (scanné). À partir du menu Édition > OCR Page, l'option sera grisée et impossible à sélectionner.

  1. Maintenez enfoncées à la fois la touche Commande (Pomme) et la touche Option.
  2. Choisissez Édition > OCR Page à partir du menu.

Sélection, copie et correction de texte

Une fois OCR est terminée, le texte du document peut être modifié comme tout autre texte. Pour apporter les modifications de texte visibles on utilise le texte corrigé, détaillée dans l’utilisation du texte..

Recherche du texte issu d'une OCR

Le texte généré par l'opération d'OCR peut être recherché comme tout autre texte. Cf. recherche à l'intérieur d'un fichier PDF.

Astuces pour améliorer les résultats de l'OCR de votre document :

  • La qualité du document original affecte la qualité de l'opération de reconnaissance optique des caractères (OCR). Des documents originaux, en bon état, non froissés, non tâchés et avec un texte contrasté produiront de meilleurs résultats avec l'OCR que des documents photocopiés, froissés, tâchés et pâles.
  • Placez votre document original dans votre scanner aussi droit que possible. Si vous utilisez un document PDF qui n'est pas droit, utilisez un logiciel pour faire pivoter votre document avant de l'ouvrir avec PDFpen.
  • Augmentez le contraste de vos documents numérisés afin que le fond soit aussi blanc que possible.

Affichage de la couche de texte d’OCR

Une fois que le texte est reconnu par le processus d'OCR, il est placé sur une couche invisible ci-dessus de l'image de texte que vous pouvez voir. Lorsque vous copiez du texte, le texte est copié à partir de cette couche de texte d’OCR invisible.

Le texte de la couche de texte d'OCR est un proche, mais pas parfait, le rendu du texte bitmap. Vous aurez besoin de relire et modifier le texte qui résulte de l'OCR. Lorsque vous copiez et collez le texte d'OCR, vous pouvez noter quelques inexactitudes que vous pouvez corriger à ce moment.

Affichez la couche de texte d'OCR:

  1. Dans le menu d’affichage, choisissez la couche d'OCR. Une couche de texte apparaîtra sur votre document, en représentant le texte d'OCR que normalement est invisible.

Suppression de la couche OCR

Pour supprimer complètement la couche OCR d'un document:

  1. Ouvrez le menu Édition et choisissez Nettoyer la Couche OCR… (Cmd+Opt+O).

Pour cette étape, vous devrez soit refaire l'OCR, soit utiliser le document tel quel. Si vous souhaitez supprimer l'OCR d'un document pour le refaire, vous utiliserez plutôt Forçage d'OCR.

Modification de la couche de texte d'OCR (Seulement PDFpenPro)

Effectuez des corrections sur la couche de texte d'OCR.

  1. Dans le menu d’affichage, choisissez afficher les informations d'OCR. Une couche de texte apparaîtra sur votre document, en représentant le texte d'OCR que normalement est invisible.
  2. Sélectionnez du texte et une fenêtre apparaîtra avec des options pour modifier le texte d'un mot ou d'une ligne à la fois.

Les modifications apportées à la couche de texte d'OCR ne sont pas les mêmes que les modifications apportées à l'aide de l’ Outil de correction du texte puisque les changements à la couche de texte d'OCR ne sont pas faits pour le texte visible du document.

En plus, comme l'utilisation de l'outil de correction du texte, cette action vise à corriger les fautes de frappe et de petites erreurs, ce n’est pas pour reformater un document en entier, des changements de mise en page et des principales modifications, exportez le document au format Word , et apportez les modifications dans un traitement de texte.

 

 

 
 
© 2003-2017 SmileOnMyMac, LLC dba Smile. All rights reserved.
PDFpen and PDFpenPro are registered trademarks of Smile. The Smile logo is a trademark of Smile.