前回に続いて、tesseract-ocrを使ってみました。正直、こういうのの導入ってくっっっっっっっっそめんどいイメージだったのですが、インストールは爆速で終わりました。(OpenCV導入するだけで、死にかけた系のかわいそうな人)

 

 それでは本題。特に環境変数とか変わってる感じがなかったのでコマンドライン上でカレントディレクトリを変更します。

(内心:あれ、インストール設定間違えた!?ほかのHPではインストール後、コマンドライン上で「tesseract」と入力するだけでいいってあったのに!)

 

 本HPは敢えて無駄な記述や表現を多数することを目的としているので、最初から行きます。

 

tesseract-ocrの実行方法
 1, 「Windows」key → 検索ウインドウ「cmd」と入力して「Enter」key(コマンドプロンプト)

 2, tesseract-ocrのインストールフォルダにカレントディレクトリを変更。
 「dir(フォルダ内表示)」とか「cd(階層移動)」とかしまくると到達できます。

 3, 「tesseract.exe」と入力し「Enter」key

tesseract-7

  ※ 上記みたいに、ヘルプやらなんやらが表示されればOKみたいです。

 

 4, ペイントで適当な画像を作って、tesseract-ocrのインストールフォルダにぶち込む
 (pngでもtiffでも結果は変わりませんでした)

tesseract-yomitori-1-2
tesseract-yomitori-2

 5, 「tesseract.exe XXX.png(tiff) YYY -l jpn」(XXX, YYYは任意)で実行する。

 6, YYY.txtとして、tesseract-ocrインストールフォルダに結果が出てくる。

tesseract-10
tesseract-result-2



 

 上記の識字率が驚異的だったため、「理想的環境じゃなくてもいける!!」と、スキャン文章にOCRをかけてみたけど、もう見れたもんじゃなかった。その後、スキャン文章から学習データを作成してOCRしてみたけど、BOXファイルの編集が概念すぎてやってられなかった上に、識字率も悪かった。

 

 BOXファイルの生成をなんとかできればうまく学習できると思うので、 次回は学習データの作成というタイトルで記事を作ってみようかな。

 

 BOXファイルの生成で使う予定のソフトウェアはこれです。文字位置を確認しながらの手編集は、つらいのでやめたほうがよいです。

Google Code Archive - Long-term storage for Google Code Project Hosting.