前回に続いて、tesseract-ocrを使ってみました。正直、こういうのの導入ってくっっっっっっっっそめんどいイメージだったのですが、インストールは爆速で終わりました。(OpenCV導入するだけで、死にかけた系のかわいそうな人)
それでは本題。特に環境変数とか変わってる感じがなかったのでコマンドライン上でカレントディレクトリを変更します。
(内心:あれ、インストール設定間違えた!?ほかのHPではインストール後、コマンドライン上で「tesseract」と入力するだけでいいってあったのに!)
本HPは敢えて無駄な記述や表現を多数することを目的としているので、最初から行きます。
上記の識字率が驚異的だったため、「理想的環境じゃなくてもいける!!」と、スキャン文章にOCRをかけてみたけど、もう見れたもんじゃなかった。その後、スキャン文章から学習データを作成してOCRしてみたけど、BOXファイルの編集が概念すぎてやってられなかった上に、識字率も悪かった。
BOXファイルの生成をなんとかできればうまく学習できると思うので、 次回は学習データの作成というタイトルで記事を作ってみようかな。
BOXファイルの生成で使う予定のソフトウェアはこれです。文字位置を確認しながらの手編集は、つらいのでやめたほうがよいです。
Google Code Archive - Long-term storage for Google Code Project Hosting.