mieki256's diary

mieki256's diary

2019/07/12(金) [n年前の日記]

2019/07/12(金) [n年前の日記]

2019/07/12(金) [n年前の日記]

#1 [pc] Tesseract OCRを試用

#1 [pc] Tesseract OCRを試用

最近の日記

検索

過去ログ表示

#1 [pc] Tesseract OCRを試用

最近の日記

カテゴリ一覧

検索

過去ログ表示

◎ インストールについて。 :

◎ 動作確認。 :

◎ フロントエンド gImageReader も試用。 :

◎ OneNoteのOCRも試した。 :

◎ インストールについて。 :

◎ 動作確認。 :

◎ フロントエンド gImageReader も試用。 :

◎ OneNoteのOCRも試した。 :

◎ インストールについて。 :

◎ 動作確認。 :

◎ フロントエンド gImageReader も試用。 :

◎ OneNoteのOCRも試した。 :

以下の記事で、オープンソースで開発されている、Tesseract OCR なる OCRエンジンがあると知り。

_第577回　Tesseract OCRで文字認識をする：Ubuntu Weekly Recipe｜gihyo.jp … 技術評論社

興味が湧いたのでググってみたら、Windows版のバイナリも存在するようで。であれば試用してみようかと。

環境は Windows10 x64 1809。

以下を辿って、セットアップファイルを入手。

_Home - UB-Mannheim/tesseract Wiki
_Index of /tesseract
_Home - tesseract-ocr/tesseract Wiki

あちこちの記事を眺めたら、v4.0.0 が紹介されてる事例が多かったので、最初は tesseract-ocr-w64-setup-v4.0.0.20181030.exe をDLしてインストールしようとしたのだけれど。どうもこのバージョンは、日本語用のデータファイルが既にサーバ上から無くなっているようで、自動ではDLができなかった。

素直に、最新版の tesseract-ocr-w64-setup-v5.0.0-alpha.20190708.exe をDLしてインストールしたところ、日本語版のデータファイルもダウンロードしてインストールしてくれた。

インストールの仕方は、以下を参考にした。

_PythonとTesseract OCRで文字認識 - Qiita
_tesseractでOCR@Windows7 - Qiita

インストール時に、Additional script data、及び、Additional language data で、日本語関係(jpn、jpn_vert) のチェックを入れてインストール。横書き用と縦書き用の2つがあるらしい。

インストール後、環境変数を設定。

PATH に追加 : C:\Program Files\Tesseract-OCR
TESSDATA_PREFIX を新規作成して設定 : C:\Program Files\Tesseract-OCR\tessdata

DOS窓を開いて、適当な画像を渡して実行。

tesseract hoge.png result.txt -l jpn

それらしいテキストが得られた。素晴らしい。

Tesseract OCR はエンジン部分だけなので、利用しやすくするためにフロントエンドがいくつか開発されているらしい。

_User Projects - 3rdParty - tesseract-ocr/tesseract Wiki

一番メジャーっぽい gImageReader をインストールして試用してみる。これも Windows版のバイナリが存在する模様。ありがたや。

_Tesseract OCRをGUIから手軽に利用。画像やPDFをOCR処理する・gImageReader MOONGIFT
_manisandro/gImageReader: A Gtk/Qt front-end to tesseract-ocr.

今回は gImageReader_3.3.0_qt5_x86_64_tesseract4.0.0.beta.3.exe を入手。ファイル名からして、Tesseract OCR v4.0.0 beta3 が同梱されているのだろう。たぶん。

インストール後、起動。右上の工具っぽいアイコンをクリックするとオプション設定等ができる。Manage Languages を選ぶと、各言語用のデータファイルを追加でインストールできるので、[jpn]、及び [jpn_vert] と書いてある項目にチェックを入れて、Apply をクリック。

画面左の欄に、画像ファイルをドラッグアンドドロップすると、メインウインドウに画像が表示される。ツールバー内の、Autodetect layout で、認識する領域を自動で指定してくれる。その右隣のボタンで文字認識してくれる…らしいけど、その前に小さい三角を押して、[jpn]を選んでおくのかな。たぶん。

ただ、画面下のほうに、Spelling dictionary missing と警告が表示される。Installボタンを押しても、「ja という辞書は無いよ」とエラーが出る…。

おそらくは、gImageReaderインストールフォルダ\share\myspell\ の中に、日本語用の辞書を入れないといかんのだろうけど、ググってみてもそれらしいファイルが見当たらず。どうすればいいんだろうな…。

それでも一応、文字認識はできる模様。

ググっているうちに、そもそも Windows10 は標準でOCRエンジンを持っている、という話を見かけた。そのOCRエンジンは、OneNote で利用しているらしい。これも試用してみる。

_OneNoteでも超簡単にOCRできるのです - 情報管理LOG
_Microsoft OCR（Windows.Media.Ocr）は優秀だよというお話 | BTC RPA

自分の環境は、OneNote 2016 をインストールしてあるので、OneNote 2016 を起動。何か画像を貼り付けて、画像の上で右クリック。「画像からテキストをコピー」を選択。これでクリップボードに認識結果が入ったらしいので、どこかしらに Ctrl + V で貼り付け。

それらしい文字列が得られた。Windows10なら、一般的にはコレを使ったほうが楽かもしれない…。

ちなみに、Microsoftストア版の OneNote 上でも、同じようなことができた。

[ ツッコむ ]

以上です。

Prev - 2019/07 - Next