fc2ブログ

Entries

フリーのOCRソフトでテキストを抽出してみる

いきなりちょっと残念な話で恐縮だが、フリーのOCRソフトを紹介しようと思ったら、つい3ヶ月ほど前まで無料だったものが配布終了になっていた。

どーも、フリーのOCRソフトというのは消え去ってしまう運命にあるようだ。これまでも「SmartOCR」というソフトや「クセロPDF」のOCR機能を持つものが消えていった。


OCR(Optical Character Reader)とは

光学式文字読取装置。手書き文字や印字された文字を光学的に読み取り、前もって記憶されたパターンとの照合により文字を特定し、文字データを入力する装置。スキャナで読み取った画像から文字を識別して文書に変換するOCRソフトもある。
(IT用語辞典 e-Wordsより)





今回、紹介しようと思っていたものは「Real Reader Lite」というソフトで、正確に言うと、バージョンアップに伴い、使用期間付き有料版になったのである。


OCRというのは非常に高度な技術の集積であり、各ソフトにより認識精度などにも差がある。もちろん、まだまだ人間が認識する精度には及ばない。

手書き文字の認識の難しさは誰もが想像するところだが、対象が活字であったとしても、フォントの種類や解像度などの違いにより認識率が落ちたりする。

もっと言うと、日本語か英語か、あるいは全角か半角かで認識できたりできなかったりということもあるのだ。


素人の私の勝手な見解だが、「Real Reader Lite」は、活字が対象の場合、かなりの実用レベルにあると思う。

私が試したのはVer.5.1。現在はVer.7となっている。


「Real Reader Lite」((株)データデジタル)



ただし、このソフトは画像ファイル(TIFF、JPEG、BMP、PNG、GIF)が対象で、PDFには対応していない。

そこで、このソフトを使って、テキストの貼り付いていないPDFからテキストを抽出するテストをしてみよう。


PDFファイルは例えテキストが表示されていても、画像のように表示されている。つまり、通常のテキスト文書とは違ってクリックしてカーソルで反転させ、テキストをコピペする、というようなことはできない。

まず、前提として、PDF文書からテキストを抽出するためには、前もってテキストが埋め込まれているという条件が必要だ。


最近のスキャナでは付属ソフトにOCRが組み込まれていることが多い。文書をスキャンしてPDF化するときに、「検索可能なPDFにする」というような選択ができる。これは「透明テキスト付き」とか「テキストの埋め込み」などとも言われる。

また、パソコン上で作った文書でも、フリーソフトなどを使ってPDF化するときにはテキストを埋め込むことができる。まずはこのような作業が行われた文書であることが必要となる。


このようにあらかじめ、PDF作成時に透明テキストが貼り付いているファイルなら、Adobe Reader (旧Acrobat Reader) などでテキストを抽出することは簡単だ。保存するときにテキスト形式で保存すればいいだけだ。(もちろん、スキャナのソフトがOCRするときに間違えてしまえば間違ったテキストが抽出される。)


また、フリーのPDFビューワーである「Foxit J-Reader」を使えば、面倒無くテキストを表示してくれる。


昨年、ちょっとややこしいPDFファイルを見つけたのでそれを使ってテストしてみる。

そのファイルは「第4回キッズデザイン賞」のプレスリリースである。



http://www.kidsdesignaward.jp/2011/news/pdf/n20100709.pdf



このファイルは12ページもあるので第1ページめだけを抽出し、参考としてJPEGで貼り付けておく。


110822a.jpg
(クリックで拡大)



さて、ところがこのファイルをAdobe Readerで開いてテキスト保存してみると…


110822b.jpg



なぜかこのように文字化けしてしまうのだ。分量も少ない。



同じく「Foxit J-Reader」で開きテキストビューワーにしてみると…



110822c.jpg




文字化けこそしなかったが、分量が少なく、意味不明な数字などが抽出された。



このファイル自体はセキュリティロックなども掛けられておらず、画像の部分はマークとその横のグレーの文字だけなのだ。他は拡大表示してみてもすべて追従して綺麗に表示される。なのになぜ、このような部分的な不明テキストが貼り付いているだけなのか、私にはよく分からない。もしかしたら暗号化などが施されているのかもしれない。


いずれにせよ、このようにテキストが見えているのにうまく抽出できない場合は往々にしてある。一番多いのはもともとテキストとして見えている部分が実は画像だったというような場合だろうか。


このときに前回のエントリで紹介した「PDF-Xchange Viewer」が役に立つ。



まず、このファイルを「PDF-Xchange Viewer」で開き、BMPなどの画像フォーマットでエクスポートする。このとき、BMPやTIFFなど非圧縮の形式の画像が良い。また、解像度も高いほど認識の精度がいいようだ。もちろんデータ量が重くなるのでそこは適切に。



さて、生成されたBMPファイルを前述の「Real Reader Lite」で認識させる。


110822d.jpg
(クリックで拡大)



これをテキスト保存すると…(一部抜粋)


[報道関係各位]
2010年7月9日
子どもたちの安全・安心に黄献するデザイン、創造性と未来を拓くデザイン、そして子どもを産み育てやすいデザインの顕彰制度
KlDS 「少子化対策担当大臣貪」の新設で益々注目を集め、過去最高335件の応募の中から、
DESICN
「第4回キッズデザイン賞」185点が決定!
AWARD
2010 ★8月3日には、r絵済産業大臣貪及び「少子化対策担当大臣賞など最優秀作品を発衷!
主な受賞作品を、「キッズクリエイトTOKYO2010」(会期・8月27日~2g日/会場:幕張メッセ)にて展示・公開
キッズデザイン協議会(内閣府認証NPO、本部:東京都文京区、会長:和田勇)は、様々な産業の製品や施設、
コミュニケーション・調査研究活動を対象に、子どもの安全・安心と健やかな成長発達に役立つデザインを顕彰す
るr 4・キッズデザイン 作ロ185点 出し 日 しました (※諸般の事情により、7/12に予定してい
た本発表を繰り上げさせていただきました。報道関係の皆様方におかれましては、ご配慮の程、宜しくお願い申し上げます。)
同賞では、今月7月中に最終審査会を行い、最優秀作品として「経済産業大臣賞」4点と、今回から新設された
「"子化対 担当大臣 2点及び
8 3日(火)に 翌8 4日(水)に ・式 二_いま
ニム
『キッズクリエイトTOKYO 2010』で展示・公開します。


見事にテキストが抽出できた。

「大臣賞」が「大臣貧」になっている(笑)ところなど、部分的に誤認識はあるが、ぱっと見た感じでも95%以上の精度で変換されているようだ。十分に使えるレベルである。

おもしろいことに、保存時に「透明テキスト付き」のPDFににして保存することもできる。(ただし、元が画像ファイルなのでPDFも画像形式となり、拡大表示には耐えられなくなる。)


「Real Reader Lite」は現在、使用期間が2週間となっている。




さて、調べてみた限りでは、フリーで使えるOCRがもう一つあった。
オープンソースで開発中の日本語文字認識プログラムとのこと。



日本語文字認識 - beta





このサイトでは画像をアップすると、日本語文字を認識して表示してくれる。
クラウドなのであまり大きなファイルをアップすると時間がかかるかもしれない。

同じBMPファイルをアップしてテストしてみる。

結果抜粋

【報道関係各位】
zojo . T. g B
子どもたちの安全・安心に貢献するデザイン、創造性と未来を拓<デザイン、そして子どもを産み育てやすいデザインの顕彰制度
KlDS 「少子化対策担当大臣賞抑新設で益々注目を集め、過去最高8%件の応募の中かム
DES怖N
討こ'こゝ 「第4回キッズデザイン賞Ti85点が決定!
20T0
★8月8日には/経済産業大臣賞」及W少子化対策担当大臣賞体ど最優秀作品を発表!
主な受賞作品を、「キツズクリエイトTOKYO2oloバ会期:8月27日v29日ノ会軌幕張tyセijこて展示・公開
キッズデザイン協議会納閣府認証NPへ本部:東京都文京区、会長和田勇ij\様々な産業の製品や施設、
コミユニケーショゾ調査研究活動を対象に、子どもの安全・安心と健やかな成長発達に役立つデザインを顕彰す
る「第4回キッズデザイン賞」受賞作品l85点を選出し、本日発表しました。 (※諸般の事情によYr7/12に予定してい
た本発表を繰り上げきせていただきましな報道関係の皆様方におかれましては、ご配慮の程、宜し<お願い申し上げます/
同賞では、今月 了月中に最終審査会を行い、最優秀作品として「経済産業大臣賞M点と今回から新設きれた
「少子化対策担当大臣賞〃点及び優秀賞等を8月8日秋ijこ発表、翌8月ィ臥水ijこ表彰式を行います。
主な受賞作品をバ月 z了 Et金)?29 Et臥のs 日間、幕張メッセ国際展示場(千葉市美浜区)l=て開催する
『キッズクリエイトTOKYO2ol加で展示・公開します。




結果的には「Real Reader Lite」に比べるとかなり精度が落ちる。ざっと見たところ8割ぐらいの精度か。まあギリギリ使える感じだ。

しかしながら、テキストが貼り付いていないPDFから、フリーソフトのコンボでここまでテキストが抽出できた。何かの場面で役に立つこともあるのではないだろうか。

※フリーソフトの使用は自己責任で。




『根岸博士 発見の10項目』

NHKスペシャル「2011 ニッポンの生きる道」にて、ノーベル賞受賞学者 根岸博士が表された「発見の10項目」。

個人的に気になったので、書き出しておく。





110107a.jpg







本『ちばさんの机』

本『ちばさんの机』 メディアファクトリー

先日取り上げたした『筆箱採集帳』のようにオフィスの机を写真で紹介した本。


100704a.jpg



「ちばさん」というのは最初に取り上げられたメディアファクトリーのデザイナーさんの名前で、他にも12人の方の机が紹介されています。

『筆箱・・・』より好感が持てるのは、人数を13人に絞る代わりに、一人一人に10頁ものスペースを割り当てている点。(『筆箱・・・の著者の一人である、文具王こと高畑さんの机も紹介されています。)

机だから机上のスペース以外に引き出しもいくつかあり、その分、紹介するところが多くなるわけですが、ある程度詳しく紹介しようという姿勢が伺えます・・・。しかしながら、この本の致命的な欠点は版型がB6とあまりにも小さすぎること。引き出しの写真など小さすぎて、細かいところが見にくいのです。せっかく「オフィスの机」という、普段なかなか覗くことの出来ない場所を見せる好企画なだけに残念です。


さて、私としては、ややクリエイター寄りの方ばかり取り上げられているなあ、という印象です。いや、それはそれでもちろん、嫌いではないのですが・・・。ただ、あまりにも多くの人の机上にキャラクターグッズなどが並んでいるのに驚きました。(自分、古い人間ですから・・・。)

例えばタカラトミーのリカちゃん担当のマーケティングの方の机はピンク一色、リカちゃんで埋め尽くされています。もちろん、それがお仕事の一環なんだからそれでいいのでしょう。(多分にこの写真自体がプロモーション的な意味合いもあるかと思います。)

つまり、「仕事がはかどる机づくり」と言う副題が付いているにも関わらず、この本を見て、ライフハック的な、便利で効率的な引き出し整理のコツ、なんかを見い出そうというのはやや趣旨が違うということです。むしろこの本は、取り上げられた方々がいかにオフィスの机という、多くの時間を過ごす環境をカスタマイズして、少しでも「楽しく」仕事をしようとしているかという視点で編集されています。


あと、『筆箱・・・』でもそうだったのですが、文具や引き出しの中というモノに限定する写真だけでは、個人的にはどうしても仕事をしている人の「体温」が伝わってきません。

というのも、この本に登場する何人かはNHKの「めざせ!会社の星!」に出演されているのですが、当然そこでは「顔出し」されているわけです。そのときの好印象というか、画面から伝わる個性や熱意が本書では薄まってしまっているように感じるのです。動画と静止画という違いもありますが、本の方がむしろじっくりと現場を眺められるにもかかわらず。この手の本ではここら辺りに何か工夫の欲しいところです。


この本を見て、町工場のおっちゃんの机とか、まんが家さんの机、職人さんの道具など、もっといろいろな人の仕事の現場を見てみたくなりました。そういう企画、どーでしょうか。




手帳オフ 100130 大手町

恒例の舘神さん主催の手帳オフ会に参加してきました。


100131a.jpg



今回のテーマは2回目の「自作」ということで、参加人数(20数名)x4時間のボリュームが今までで一番濃かったと思います。特に私は有志と0次会2時間、本会4時間、2次会1時間とほとんど1日どっぷり。いや、楽しかったのですが、あまりの内容の深さに正直、只今、頭が発熱中です(笑)。

また、今回はオフ会中、dterabayashi さんがtwitter中継をされました。(ハッシュタグ #techooff)これにはもう頭が下がりました。なんせ、全員の発言を140字以内にまとめながら高速タイピングされるのですから!(私などちょっとタイプしただけで肩が使い物にならなくなり頭痛が爆発します。)

Twitter で生中継することを「Tsudaる」というらしいですね。私はまだ、Twitterをはじめて数日なので分からないことだらけなんですが、ぎりぎりそのおもしろさが分かるのに間に合ってよかったです。

dterabayashi さんが手帳オフ会の中継をまとめられました。↓





詳細は上記まとめサイトと拙ブログの過去ログなどを参照いただければ・・・その他参加者の方のブログにリンクを貼っておきます。(漏れがあると思いますが、ご容赦ください。ご連絡いただければ嬉しいです。)



==============   手帳オフ参加者   ===============

(過去/未来の手帳オフも含みます。)


館神blog

トコだけ手帳

スライド手帳.com

CKM-blog

enjoy_it

りくらむのブログ

木の葉燃朗の「本と音楽の日々」

Refill Maniax

公式サイト「結果を出す人」はノートに何を書いているのか


ビジネスアスキー

マジシャン 三志郎オフィシャルウェブサイト


いと~の日記

かわりものや

MOROLOG

hirolog

COGITO ERGO SUM walter.langleyの雑記帖 

itm

100521 追記

文房具ラバー 万年筆好きのブログ

for one more day -with Moleskine

Four Green Blog

独断と偏見の文具批評

ハッピーハック-文房具-





手帳オフ会(091212)

舘神龍彦さん主催の手帳オフに行ってきました。


091213a.jpg



久々のオフ会だったので参加者も約20名に及び盛況でした。

各自の自己紹介を兼ねて、手帳スタイルを伺うだけであっという間に3時間が過ぎてしまいました。

実際、もっと質疑応答や手帳術についての話し合い、あるいはおもしろい脱線話など、聞きたいことは山ほどあるのに時間の無さがなんとももどかしい・・・

特に、文房具やデジタル系ガジェットまで皆さんいろいろ一家言おありの様子・・・いや、いろいろ伺ってみたい。

興味のない人は、なぜ、手帳ごときでそんなに熱くなれるの?手帳オタクなんて理解できないー、などと思うのでしょうね・・・違うのです、実は手帳好きというのは、手帳という最も身近なツールをキーにして、結局、興味の核心は『仕事術』にあるのですね。だから、中身はとんでもない広がりと奥行きを持っているわけです。

つまり、手帳や文具、仕事ハック、デジタルガジェット、発想法にマインドマップ、自己管理に夢実現、およそ紙で書いて仕事と関係あるすべてのことがらが興味の対象で、おそらくそれらを収斂するためのキーアイテムとして「手帳」があるのでしょう。


舘神さんも管理しきれなくなりそう、と仰っていたけれど、ほんとヘタ?すると百人規模の集会になってもおかしくない潜在力があると思います。そうすると設営スタッフを準備して、テーマ別分科会制にしたりして、なんだかすごいインプットとアウトプットが発生するような予感さえします。出版社やメーカーさんにとってもビジネスチャンスかも!?

おもしろそうなテーマとしては・・・・

「手帳」と

・デジタル
・仕事ハック
・文房具ハック
・発想法
・マインドマップ
・自作/改造
・自己管理
・夢実現
・プレゼン術
・会議術
・読書術
・勉強法
・英会話(語学学習)
・ビジネスマナー
・ダイエット/健康管理

うわ、切りがない。各分野にオーソリティーもたくさんいるだろう。とにかく書店のビジネス書コーナーのほとんどのテーマが手帳好きの興味のフィールドだと言えば、あながちヘンな人たちの集まりでもないことが分かってもらえるでしょ?(笑)



Appendix

プロフィール

horirium

  • Author:horirium
  • My Home Page→horirium

検索フォーム

メールフォーム

名前:
メール:
件名:
本文:

月別アーカイブ