ヘルプ: OCR (光学文字認識)
OCR(光学文字認識)はテキストのビットマップ画像(スキャン文書など)を PDFpen や他のテキストエディタにより選択、コピーおよび検索可能なテキストに変換するプロセスです。
一旦テキストがOCRにより認識されれば、テキスト画像の上に見えないレイヤーが配置されます。テキストをコピーした場合、テキストはこの見えないOCRレイヤーからコピーされます。OCRの技術はビットマップテキストからの完全なレンダリングを生成する物ではありません。OCR結果は校正と編集が必要です。
OCRの実行
- PDFpen を使って、スキャンされたPDFを開きます。
- 警告ボックスが表示され、
「これはスキャンされた書類です。光学式文字認識(OCR)しますか? OCRの処理後にテキストを選択することができます。」
というメッセージが現れます。
このダイアログでは、3つの操作を選択できます:
- キャンセル:
OCRを実行しません。
- OCRページ:
OCRを現在開かれているページで実行します。
- OCR書類:
ドキュメントが複数ページあるときは、OCRは全てのページで実行されます。
OCRで認識する言語を選択します。詳細は環境設定>OCRをご参照ください。
PDFpen でOCRを実行しているときには、プログレスバーが表示されます。この操作はスキャンされたドキュメントの内容量によりますが、2、3分以上かかります。
マニュアル操作でOCRを実行するときは、「編集>ページOCR」を選んでください。PDFpen がOCR操作を開始し、プログレスバーが表示されます。
OCRテキストの選択、コピーおよび編集
OCRの終了後、ドキュメントのテキストは他のテキストと同様に編集できます。表示テキストの変更を行うにはテキスト訂正を使用します。詳しくはテキストの編集をご参照ください。
OCRテキストの検索
OCR操作で作成されたテキストは、普通のテキストのように編集することができます。詳細はPDF内の検索をご参照ください。
OCR結果を改善するためのヒント
- オリジナルドキュメントの質によってOCRの結果が左右されます。 くしゃくしゃのしわになったような紙や、かすれたコピー紙を避け、はっきりとしたテキストの読めるしわのないものをご使用ください。
- オリジナルドキュメントをスキャナー上にまっすぐにおいてください。まっすぐにスキャンされていないときには、「編集> イメージのアンスキュー&調整...」を開いて、PDFpen 上のイメージをアンスキューするかまっすぐにすることができます。
- スキャンされたドキュメントのコントラストを高めることによって、背景がより白くなります。編集> イメージのアンスキュー&調整...を開いて、コントラストを調整してください。
OCRの強制
PRODUCTNAMEはドキュメントを見て、1ページのサイズのイメージを見ると、ドキュメントがスキャンであるとみなし、自動的にOCRを実行するようにします。場合によっては、PRODUCTNAMEがスキャンしたドキュメントを認識しないことがあります。 [編集]メニューの下に、OCRページがグレー表示され、選択できません。
- CommandキーとOptionキーを同時に押し続けます。
- メニューから編集を選択>[OCR Page]を選択します。
OCRテキストレイヤー
OCRによるテキストの認識後、目に見えるイメージレイヤー上に見えないテキストレイヤーが配置されます。テキストをコピーした場合、テキストはこの見えないOCRテキストレイヤーからコピーされます。
OCRテキストレイヤーのテキストはビットマップテキストのレンダリングに近いですが完全ではありません。OCR結果は校正と編集が必要です。OCRテキストをコピー&ペーストするといくつかの誤りが確認できますが、これはその時点で訂正が可能です。
OCRテキストレイヤーの表示:
- 「表示>OCRレイヤー」を選択します。テキストのレイヤーがドキュメントの上に表示され、通常では見えないOCRテキストを見ることが出来ます。
OCRレイヤーを削除する
ドキュメントからOCRレイヤーを完全に削除するには:
- [編集]メニューを開き、[OCRレイヤーを消去]を選択します… (Cmd+Opt+O).
この時点で、OCRをやり直すか、そのままドキュメントを使用することができます。ドキュメントからOCRを削除してそれをやり直す場合は、強制OCRを使用することができます。
OCRテキストレイヤーの編集
(PRONAMEのみ)
OCRテキストレイヤーに修正を行うには次のように行います。
- 「表示>OCRレイヤー」を選択します。テキストのレイヤーがドキュメントの上に表示され、通常では見えないOCRテキストを見ることが出来ます。
- テキストをいくつか選択すると、テキストを同時に1単語または1行編集できるオプションウィンドウが表示されます。
OCRテキストレイヤーへの変更は、ドキュメントの目視できるテキストに対して行われる物ではない為、テキストの修正による変更とは異なります。
また、テキストの修正ツールの使用と同じく、これはドキュメント全体の再編成ではなく誤字脱字の修正を支援します。レイアウト変更や大きな編集にはWord形式へドキュメントをエクスポートし、ワードプロセッサで変更を行います。
|