PDFpen logo PDFpen logo

Hilfe: OCR (Optical Character Recognition - Optische Texterkennung)

OCR (Optical Character Recognition) bezeichnet den Prozess, bei dem ein Bitmap-Bild von einem Text (z.B. ein gescanntes Dokument) zu editierbarem Text konvertiert wird, der dann von PDFpen oder anderen Textverarbeitungsprogrammen ausgewählt, kopiert, gefunden etc. werden kann. Sobald ein Text durch die OCR Texterkennung gelaufen ist, wird er auf einer unsichtbaren Ebene über das Bild des Textes gelegt, welches Sie sehen. Wenn Sie Text kopieren, geschieht dies von der unsichtbaren OCR Ebene aus. Die OCR Technologie produziert in der Regel kein perfektes Ergebnis. Sie müssen OCR Text korrekturlesen und bearbeiten.

OCR-Technik erzeugt aus dem Bildtext kein perfektes Abbild des Bildtextes. Sie müssen den Text, der aus der OCR entsteht, noch korrekturlesen und bearbeiten.

OCR in PDFpen verwenden

  1. Öffnen Sie ein in PDFpen gescanntes PDF.
  2. Es erscheint eine Warnbox mit folgendem Hinweis:
    "Dieses Dokument scheint gescannt zu sein. Wollen Sie eine optische Zeichenerkennung (OCR) darauf ausführen? Nach der OCR können Sie dann Text auswählen."
    Sie haben drei Möglichkeiten:
    • Abbrechen:
      Es wird keine OCR vorgenommen.
    • Seite erkennen:
      Auf die Seite wird eine OCR ausgeführt.
    • Dokument erkennen:
      Wenn Ihr Dokument aus mehreren Seiten besteht, wird eine OCR auf alle diese Seiten ausgeführt.

    Stellen Sie unter Einstellungen > OCR ein, welche Sprachen bei der OCR erkannt werden sollen.

Während PDFpen eine OCR ausführt, erscheint ein Fortschrittsbalken. Der Vorgang kann ein paar Sekunden oder länger dauern, je nach Größe und Inhalt des gescannten Dokuments.

Um eine OCR manuell auszuführen, rufen Sie den Menüpunkt Bearbeiten > OCR auf Seite anwenden. PDFpen leitet den OCR-Vorgang ein und der Fortschrittsbalken erscheint.

OCR-Text auswählen,kopieren und korrigieren

Text auswählen, kopieren und verbessern Wenn die OCR Erkennung fertig ist, kann der Dokument-Text wie jeder andere Text editiert werden. Um Textänderungen sichtbar zu machen, verwenden Sie die Text-Korrektur; Details hierzu finden Sie in Arbeiten mit Text.

OCR-Text durchsuchen

Der Text, der durch den OCR-Vorgang erzeugt wurde, kann wie jeder andere Text durchsucht werden. Siehe Suchen innerhalb eines PDFs.

Tipps zum Verbessern der OCR-Ergebnisse Ihres Dokuments:

  • Die Qualität des Ursprungs-Dokuments beeinflusst die Qualität des OCR-Vorgangs. Knackige, saubere Vorlagen mit klarem Text führen zu besseren Ergebnissen als verknitterte, verblasste Fotokopien.
  • Platzieren Sie Ihr Ursprungs-Dokument so gerade wie möglich auf dem Scanner. Wenn Sie ein PDF haben, das nicht gerade, sondern ein wenig gedreht ist, drehen Sie dieses inPRODUCTNAME so, dass das Bild gerade (oder entzerrt) ist, indem Sie den Menüpunkt Bearbeiten > Bild entzerren und anpassen… aufrufen.
  • Erhöhen Sie den Kontrast Ihres gescannten Dokuments, so dass der Hintergrund so weiß wie möglich ist. Sie können den Kontrast des Bildes anpassen, indem Sie den Menüpunkt Bearbeiten > Bild entzerren und anpassen… aufrufen.

OCR erzwingen

PDFpen prüft das Dokument und falls es ein Bild in Seitengröße findet, wird angenommen, dass es sich beim Dokument um einen Scan handelt. In diesem Fall wird automatisch ein OCR-Durchlauf angeboten. In einigen Fällen erkennt PDFpen ein gescanntes Dokument vielleicht nicht. Dann ist im Bearbeiten-Menü die Funktion OCR auf Seite anwenden ausgegraut und kann nicht ausgewählt werden.

  1. Halten Sie die Command- und die Options-Taste gleichzeitig gedrückt.
  2. Wählen Sie im Menü > OCR auf Seite anwenden.

Ansicht OCR Text-Ebene

Sobald ein Text durch die OCR Texterkennung gelaufen ist, wird er auf einer unsichtbaren Ebene über das Bild des Textes gelegt, welches Sie sehen. Wenn Sie Text kopieren, geschieht dies von der unsichtbaren OCR Ebene aus.

Text aus der OCR Erkennung ist ein ungefähres aber nicht perfektes Rendering des Bitmap-Textes. Sie müssen OCR Text korrekturlesen und bearbeiten. Wenn Sie den OCR Text kopieren und einfügen, werden Ihnen manche Fehler auffallen, die Sie bei dieser Gelegenheit korrigieren können.

Ansicht OCR Text-Ebene:

  1. Wählen Sie im Menü Ansicht OCR Ebene. Dann erscheint eine Text-Ebene über Ihrem Dokument, die den normalerweise unsichtbaren OCR Text anzeigt.

OCR-Ebene entfernen

So entfernen Sie eine OCR-Ebene komplett von einem Dokument:

  1. Öffnen Sie das Menü Bearbeiten und wählen Sie OCR-Ebene löschen… (Cmd+Opt+O).

An diesem Punkt können Sie OCR wiederholen, oder das Dokument wie es ist, verwenden. Wenn Sie OCR von einem Dokument entfernen, um OCR zu wiederholen, können Sie OCR erzwingen verwenden.

OCR Text-Ebene bearbeiten (PDFpenPro Only)

Korrekturen auf der OCR Text-Ebene durchführen.

  1. Wählen Sie im Menü Ansicht die OCR Information. Es erscheint eine Text-Ebene über Ihrem Dokument, die den normalerweise unsichtbaren OCR Text anzeigt.
  2. Wählen Sie Text aus. Ein Popup-Fenster öffnet sich und bietet verschiedene Optionen zum Editieren des Textes wort- oder zeilenweise an.

Veränderungen an der OCF Text-Ebene sind nicht das Gleiche, wie Änderungen, die mit dem Text verbessern-Werkzeug gemacht werden, denn Änderungen am OCR-Text tangieren den sichtbaren Dokumenten-Text nicht.

Wie auch beim Text verbessern-Werkzeug dient dies nur zum Korrigieren von kleinen Schreibfehlern, aber nicht dazu, ein gesamtes Dokument neu zu formatieren. Für größere Bearbeitungen oder Layout-Änderungen, exportieren Sie das Dokument in Word Format, und führen die Änderungen in einer Textverarbeitung durch.




© 2003-2017 SmileOnMyMac, LLC dba Smile. All rights reserved.
PDFpen and PDFpenPro are registered trademarks of Smile. The Smile logo is a trademark of Smile.