2011年10月11日火曜日

TesseractOCRを使ってみる。

仕事と関係ないんだけど、
画像認識やら音声認識やらの「ほにゃらら認識」に興味が沸いたのでちょっと手を出してみた。
GoogleのOCRプロジェクト:TesseractOCR
http://code.google.com/p/tesseract-ocr/


現在のバージョンは3.0.
どうやら日本語にも対応しているみたい。しかもトレーニング次第で認識率が上がるとか。
ほぅ。

せっかくさくらVPSもあることだし、とりあえずインスコ。

特に気をつけることもなくあっさりインストールできた。

気をつけるべきトコとしては、先に以下のライブラリを入れとくくらい。
yum install libpng-devel
yum install libjpeg-devel
yum install libtiff-devel
yum install zlib-devel
※ これだけで準備できてるんだけど、とりあえずLeptonicaも。画像処理のライブラリ.
wget http://www.leptonica.com/source/leptonica-1.68.tar.gz
tar -xvzf leptonica-1.68.tar.gz
cd leptonica-1.68
./configure
make
make install
さてと。準備は出来た。
ここからスタート。 Teseract本体、言語データのダウンロード。
  1. ここから適当なところにソースを持ってくる。
    こんな感じ。
    $ wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz
    $ wget http://tesseract-ocr.googlecode.com/files/jpn.traineddata.gz
  2. 展開.
    $ tar xvzf tesseract-3.00.tar.gz
    $ gzip -d jpn.traineddata.gz

  3. 言語データを移動..
    $ mv jpn.traineddata tesseract-3.00/tessdata
  4. tesseract本体のディレクトリに移動し、インストール開始。
    $ cd tesseract-3.00
    $ ./configure
    $ make
    # make install 
使い方は、こんな感じ。(日本語)
$ tesseract hoge.tiff aaaa -l jpn
hoge.tiffから読み取った文字列をaaaa.txtに出力してくれる様子。

むむ・・・。とりあえず、トレーニングしてみるか。

0 件のコメント:

コメントを投稿