Entries

フリーのOCRソフトでテキストを抽出してみる

いきなりちょっと残念な話で恐縮だが、フリーのOCRソフトを紹介しようと思ったら、つい3ヶ月ほど前まで無料だったものが配布終了になっていた。

どーも、フリーのOCRソフトというのは消え去ってしまう運命にあるようだ。これまでも「SmartOCR」というソフトや「クセロPDF」のOCR機能を持つものが消えていった。


OCR(Optical Character Reader)とは

光学式文字読取装置。手書き文字や印字された文字を光学的に読み取り、前もって記憶されたパターンとの照合により文字を特定し、文字データを入力する装置。スキャナで読み取った画像から文字を識別して文書に変換するOCRソフトもある。
(IT用語辞典 e-Wordsより)





今回、紹介しようと思っていたものは「Real Reader Lite」というソフトで、正確に言うと、バージョンアップに伴い、使用期間付き有料版になったのである。


OCRというのは非常に高度な技術の集積であり、各ソフトにより認識精度などにも差がある。もちろん、まだまだ人間が認識する精度には及ばない。

手書き文字の認識の難しさは誰もが想像するところだが、対象が活字であったとしても、フォントの種類や解像度などの違いにより認識率が落ちたりする。

もっと言うと、日本語か英語か、あるいは全角か半角かで認識できたりできなかったりということもあるのだ。


素人の私の勝手な見解だが、「Real Reader Lite」は、活字が対象の場合、かなりの実用レベルにあると思う。

私が試したのはVer.5.1。現在はVer.7となっている。


「Real Reader Lite」((株)データデジタル)



ただし、このソフトは画像ファイル(TIFF、JPEG、BMP、PNG、GIF)が対象で、PDFには対応していない。

そこで、このソフトを使って、テキストの貼り付いていないPDFからテキストを抽出するテストをしてみよう。


PDFファイルは例えテキストが表示されていても、画像のように表示されている。つまり、通常のテキスト文書とは違ってクリックしてカーソルで反転させ、テキストをコピペする、というようなことはできない。

まず、前提として、PDF文書からテキストを抽出するためには、前もってテキストが埋め込まれているという条件が必要だ。


最近のスキャナでは付属ソフトにOCRが組み込まれていることが多い。文書をスキャンしてPDF化するときに、「検索可能なPDFにする」というような選択ができる。これは「透明テキスト付き」とか「テキストの埋め込み」などとも言われる。

また、パソコン上で作った文書でも、フリーソフトなどを使ってPDF化するときにはテキストを埋め込むことができる。まずはこのような作業が行われた文書であることが必要となる。


このようにあらかじめ、PDF作成時に透明テキストが貼り付いているファイルなら、Adobe Reader (旧Acrobat Reader) などでテキストを抽出することは簡単だ。保存するときにテキスト形式で保存すればいいだけだ。(もちろん、スキャナのソフトがOCRするときに間違えてしまえば間違ったテキストが抽出される。)


また、フリーのPDFビューワーである「Foxit J-Reader」を使えば、面倒無くテキストを表示してくれる。


昨年、ちょっとややこしいPDFファイルを見つけたのでそれを使ってテストしてみる。

そのファイルは「第4回キッズデザイン賞」のプレスリリースである。



http://www.kidsdesignaward.jp/2011/news/pdf/n20100709.pdf



このファイルは12ページもあるので第1ページめだけを抽出し、参考としてJPEGで貼り付けておく。


110822a.jpg
(クリックで拡大)



さて、ところがこのファイルをAdobe Readerで開いてテキスト保存してみると…


110822b.jpg



なぜかこのように文字化けしてしまうのだ。分量も少ない。



同じく「Foxit J-Reader」で開きテキストビューワーにしてみると…



110822c.jpg




文字化けこそしなかったが、分量が少なく、意味不明な数字などが抽出された。



このファイル自体はセキュリティロックなども掛けられておらず、画像の部分はマークとその横のグレーの文字だけなのだ。他は拡大表示してみてもすべて追従して綺麗に表示される。なのになぜ、このような部分的な不明テキストが貼り付いているだけなのか、私にはよく分からない。もしかしたら暗号化などが施されているのかもしれない。


いずれにせよ、このようにテキストが見えているのにうまく抽出できない場合は往々にしてある。一番多いのはもともとテキストとして見えている部分が実は画像だったというような場合だろうか。


このときに前回のエントリで紹介した「PDF-Xchange Viewer」が役に立つ。



まず、このファイルを「PDF-Xchange Viewer」で開き、BMPなどの画像フォーマットでエクスポートする。このとき、BMPやTIFFなど非圧縮の形式の画像が良い。また、解像度も高いほど認識の精度がいいようだ。もちろんデータ量が重くなるのでそこは適切に。



さて、生成されたBMPファイルを前述の「Real Reader Lite」で認識させる。


110822d.jpg
(クリックで拡大)



これをテキスト保存すると…(一部抜粋)


[報道関係各位]
2010年7月9日
子どもたちの安全・安心に黄献するデザイン、創造性と未来を拓くデザイン、そして子どもを産み育てやすいデザインの顕彰制度
KlDS 「少子化対策担当大臣貪」の新設で益々注目を集め、過去最高335件の応募の中から、
DESICN
「第4回キッズデザイン賞」185点が決定!
AWARD
2010 ★8月3日には、r絵済産業大臣貪及び「少子化対策担当大臣賞など最優秀作品を発衷!
主な受賞作品を、「キッズクリエイトTOKYO2010」(会期・8月27日~2g日/会場:幕張メッセ)にて展示・公開
キッズデザイン協議会(内閣府認証NPO、本部:東京都文京区、会長:和田勇)は、様々な産業の製品や施設、
コミュニケーション・調査研究活動を対象に、子どもの安全・安心と健やかな成長発達に役立つデザインを顕彰す
るr 4・キッズデザイン 作ロ185点 出し 日 しました (※諸般の事情により、7/12に予定してい
た本発表を繰り上げさせていただきました。報道関係の皆様方におかれましては、ご配慮の程、宜しくお願い申し上げます。)
同賞では、今月7月中に最終審査会を行い、最優秀作品として「経済産業大臣賞」4点と、今回から新設された
「"子化対 担当大臣 2点及び
8 3日(火)に 翌8 4日(水)に ・式 二_いま
ニム
『キッズクリエイトTOKYO 2010』で展示・公開します。


見事にテキストが抽出できた。

「大臣賞」が「大臣貧」になっている(笑)ところなど、部分的に誤認識はあるが、ぱっと見た感じでも95%以上の精度で変換されているようだ。十分に使えるレベルである。

おもしろいことに、保存時に「透明テキスト付き」のPDFににして保存することもできる。(ただし、元が画像ファイルなのでPDFも画像形式となり、拡大表示には耐えられなくなる。)


「Real Reader Lite」は現在、使用期間が2週間となっている。




さて、調べてみた限りでは、フリーで使えるOCRがもう一つあった。
オープンソースで開発中の日本語文字認識プログラムとのこと。



日本語文字認識 - beta





このサイトでは画像をアップすると、日本語文字を認識して表示してくれる。
クラウドなのであまり大きなファイルをアップすると時間がかかるかもしれない。

同じBMPファイルをアップしてテストしてみる。

結果抜粋

【報道関係各位】
zojo . T. g B
子どもたちの安全・安心に貢献するデザイン、創造性と未来を拓<デザイン、そして子どもを産み育てやすいデザインの顕彰制度
KlDS 「少子化対策担当大臣賞抑新設で益々注目を集め、過去最高8%件の応募の中かム
DES怖N
討こ'こゝ 「第4回キッズデザイン賞Ti85点が決定!
20T0
★8月8日には/経済産業大臣賞」及W少子化対策担当大臣賞体ど最優秀作品を発表!
主な受賞作品を、「キツズクリエイトTOKYO2oloバ会期:8月27日v29日ノ会軌幕張tyセijこて展示・公開
キッズデザイン協議会納閣府認証NPへ本部:東京都文京区、会長和田勇ij\様々な産業の製品や施設、
コミユニケーショゾ調査研究活動を対象に、子どもの安全・安心と健やかな成長発達に役立つデザインを顕彰す
る「第4回キッズデザイン賞」受賞作品l85点を選出し、本日発表しました。 (※諸般の事情によYr7/12に予定してい
た本発表を繰り上げきせていただきましな報道関係の皆様方におかれましては、ご配慮の程、宜し<お願い申し上げます/
同賞では、今月 了月中に最終審査会を行い、最優秀作品として「経済産業大臣賞M点と今回から新設きれた
「少子化対策担当大臣賞〃点及び優秀賞等を8月8日秋ijこ発表、翌8月ィ臥水ijこ表彰式を行います。
主な受賞作品をバ月 z了 Et金)?29 Et臥のs 日間、幕張メッセ国際展示場(千葉市美浜区)l=て開催する
『キッズクリエイトTOKYO2ol加で展示・公開します。




結果的には「Real Reader Lite」に比べるとかなり精度が落ちる。ざっと見たところ8割ぐらいの精度か。まあギリギリ使える感じだ。

しかしながら、テキストが貼り付いていないPDFから、フリーソフトのコンボでここまでテキストが抽出できた。何かの場面で役に立つこともあるのではないだろうか。

※フリーソフトの使用は自己責任で。




この記事に対してトラックバックを送信する(FC2ブログユーザー)
http://horirium.blog7.fc2.com/tb.php/808-c6682106

0件のトラックバック

4件のコメント

[C648]

PDF-Xchange Viewerをダウンロードしてみたところ、メニューの「ドキュメント」にOCRという機能があるのを見つけ、
試してみたら英文についてはきちんとOCRできました。
日本語については不可能でしたが。

テキスト情報の付属していない英文PDFをOCRして翻訳サイトに掛ける場合、この方法が手っ取り早いですね。

[C649] Re: タイトルなし

コメントありがとうございます。

> PDF-Xchange Viewerをダウンロードしてみたところ、メニューの「ドキュメント」にOCRという機能が

お、最新版からの実装ですね。ちょっと使い勝手がよく判らないのですが…


OCRについては最近では流行りのEvernoteを利用する方法もネットで紹介されていますね。

試した見たところ、イメージファイルはBMPはダメでした。jpgはOK。ただし時間がかかります。
で、テキスト抽出に一手間かかるのと、複数候補がたくさん表示されるので実用的かというと疑問符がつきます。

今のところ、OCRを多用する場合は有料ソフトを購入するしか手がないようですね~(笑)


  • 2012-03-29
  • horirium
  • URL
  • 編集

[C671] 管理人のみ閲覧できます

このコメントは管理人のみ閲覧できます

[C672] Re: ocr

コメントを頂きました。ありがとうございます。

PDF-Xchange ViewerのOCRが日本語にも対応となりましたね。日本語パックをインストールする必要があります。
詳しくはGIGAZINEさんの記事をどうぞ。

2013年01月18日 23時00分00秒
無料でコメント・テキスト・画像をPDFファイルに簡単に追加できるPDFビューア「PDF-XChange Viewer」

http://gigazine.net/news/20130118-pdf-xchange-viewer/


ただし私がやってみたところ、A4のチラシで、精度を「高」に設定しても読み取り精度は今ひとつで、5割行くか行かないかの結果でした。
もちろん、原稿の文字の大きさや元になった画像などの精度により違いが出てくるものと思います。


  • 2013-01-21
  • horirium
  • URL
  • 編集

コメントの投稿

投稿フォーム
投稿した内容は管理者にだけ閲覧出来ます

Appendix

プロフィール

horirium

  • Author:horirium
  • My Home Page→horirium

日めくり

検索フォーム

メールフォーム

名前:
メール:
件名:
本文:

月別アーカイブ