2019/07/12(金) [n年前の日記]
#1 [pc] Tesseract OCRを試用
以下の記事で、オープンソースで開発されている、Tesseract OCR なる OCRエンジンがあると知り。
_第577回 Tesseract OCRで文字認識をする:Ubuntu Weekly Recipe|gihyo.jp … 技術評論社
興味が湧いたのでググってみたら、Windows版のバイナリも存在するようで。であれば試用してみようかと。
環境は Windows10 x64 1809。
_第577回 Tesseract OCRで文字認識をする:Ubuntu Weekly Recipe|gihyo.jp … 技術評論社
興味が湧いたのでググってみたら、Windows版のバイナリも存在するようで。であれば試用してみようかと。
環境は Windows10 x64 1809。
◎ インストールについて。 :
以下を辿って、セットアップファイルを入手。
_Home - UB-Mannheim/tesseract Wiki
_Index of /tesseract
_Home - tesseract-ocr/tesseract Wiki
あちこちの記事を眺めたら、v4.0.0 が紹介されてる事例が多かったので、最初は tesseract-ocr-w64-setup-v4.0.0.20181030.exe をDLしてインストールしようとしたのだけれど。どうもこのバージョンは、日本語用のデータファイルが既にサーバ上から無くなっているようで、自動ではDLができなかった。
素直に、最新版の tesseract-ocr-w64-setup-v5.0.0-alpha.20190708.exe をDLしてインストールしたところ、日本語版のデータファイルもダウンロードしてインストールしてくれた。
インストールの仕方は、以下を参考にした。
_PythonとTesseract OCRで文字認識 - Qiita
_tesseractでOCR@Windows7 - Qiita
インストール時に、Additional script data、及び、Additional language data で、日本語関係(jpn、jpn_vert) のチェックを入れてインストール。横書き用と縦書き用の2つがあるらしい。
インストール後、環境変数を設定。
_Home - UB-Mannheim/tesseract Wiki
_Index of /tesseract
_Home - tesseract-ocr/tesseract Wiki
あちこちの記事を眺めたら、v4.0.0 が紹介されてる事例が多かったので、最初は tesseract-ocr-w64-setup-v4.0.0.20181030.exe をDLしてインストールしようとしたのだけれど。どうもこのバージョンは、日本語用のデータファイルが既にサーバ上から無くなっているようで、自動ではDLができなかった。
素直に、最新版の tesseract-ocr-w64-setup-v5.0.0-alpha.20190708.exe をDLしてインストールしたところ、日本語版のデータファイルもダウンロードしてインストールしてくれた。
インストールの仕方は、以下を参考にした。
_PythonとTesseract OCRで文字認識 - Qiita
_tesseractでOCR@Windows7 - Qiita
インストール時に、Additional script data、及び、Additional language data で、日本語関係(jpn、jpn_vert) のチェックを入れてインストール。横書き用と縦書き用の2つがあるらしい。
インストール後、環境変数を設定。
- PATH に追加 : C:\Program Files\Tesseract-OCR
- TESSDATA_PREFIX を新規作成して設定 : C:\Program Files\Tesseract-OCR\tessdata
◎ 動作確認。 :
DOS窓を開いて、適当な画像を渡して実行。
それらしいテキストが得られた。素晴らしい。
tesseract hoge.png result.txt -l jpn
それらしいテキストが得られた。素晴らしい。
◎ フロントエンド gImageReader も試用。 :
Tesseract OCR はエンジン部分だけなので、利用しやすくするためにフロントエンドがいくつか開発されているらしい。
_User Projects - 3rdParty - tesseract-ocr/tesseract Wiki
一番メジャーっぽい gImageReader をインストールして試用してみる。これも Windows版のバイナリが存在する模様。ありがたや。
_Tesseract OCRをGUIから手軽に利用。画像やPDFをOCR処理する・gImageReader MOONGIFT
_manisandro/gImageReader: A Gtk/Qt front-end to tesseract-ocr.
今回は gImageReader_3.3.0_qt5_x86_64_tesseract4.0.0.beta.3.exe を入手。ファイル名からして、Tesseract OCR v4.0.0 beta3 が同梱されているのだろう。たぶん。
インストール後、起動。右上の工具っぽいアイコンをクリックするとオプション設定等ができる。Manage Languages を選ぶと、各言語用のデータファイルを追加でインストールできるので、[jpn]、及び [jpn_vert] と書いてある項目にチェックを入れて、Apply をクリック。
画面左の欄に、画像ファイルをドラッグアンドドロップすると、メインウインドウに画像が表示される。ツールバー内の、Autodetect layout で、認識する領域を自動で指定してくれる。その右隣のボタンで文字認識してくれる…らしいけど、その前に小さい三角を押して、[jpn]を選んでおくのかな。たぶん。
ただ、画面下のほうに、Spelling dictionary missing と警告が表示される。Installボタンを押しても、「ja という辞書は無いよ」とエラーが出る…。
おそらくは、gImageReaderインストールフォルダ\share\myspell\ の中に、日本語用の辞書を入れないといかんのだろうけど、ググってみてもそれらしいファイルが見当たらず。どうすればいいんだろうな…。
それでも一応、文字認識はできる模様。
_User Projects - 3rdParty - tesseract-ocr/tesseract Wiki
一番メジャーっぽい gImageReader をインストールして試用してみる。これも Windows版のバイナリが存在する模様。ありがたや。
_Tesseract OCRをGUIから手軽に利用。画像やPDFをOCR処理する・gImageReader MOONGIFT
_manisandro/gImageReader: A Gtk/Qt front-end to tesseract-ocr.
今回は gImageReader_3.3.0_qt5_x86_64_tesseract4.0.0.beta.3.exe を入手。ファイル名からして、Tesseract OCR v4.0.0 beta3 が同梱されているのだろう。たぶん。
インストール後、起動。右上の工具っぽいアイコンをクリックするとオプション設定等ができる。Manage Languages を選ぶと、各言語用のデータファイルを追加でインストールできるので、[jpn]、及び [jpn_vert] と書いてある項目にチェックを入れて、Apply をクリック。
画面左の欄に、画像ファイルをドラッグアンドドロップすると、メインウインドウに画像が表示される。ツールバー内の、Autodetect layout で、認識する領域を自動で指定してくれる。その右隣のボタンで文字認識してくれる…らしいけど、その前に小さい三角を押して、[jpn]を選んでおくのかな。たぶん。
ただ、画面下のほうに、Spelling dictionary missing と警告が表示される。Installボタンを押しても、「ja という辞書は無いよ」とエラーが出る…。
おそらくは、gImageReaderインストールフォルダ\share\myspell\ の中に、日本語用の辞書を入れないといかんのだろうけど、ググってみてもそれらしいファイルが見当たらず。どうすればいいんだろうな…。
それでも一応、文字認識はできる模様。
◎ OneNoteのOCRも試した。 :
ググっているうちに、そもそも Windows10 は標準でOCRエンジンを持っている、という話を見かけた。そのOCRエンジンは、OneNote で利用しているらしい。これも試用してみる。
_OneNoteでも超簡単にOCRできるのです - 情報管理LOG
_Microsoft OCR(Windows.Media.Ocr)は優秀だよというお話 | BTC RPA
自分の環境は、OneNote 2016 をインストールしてあるので、OneNote 2016 を起動。何か画像を貼り付けて、画像の上で右クリック。「画像からテキストをコピー」を選択。これでクリップボードに認識結果が入ったらしいので、どこかしらに Ctrl + V で貼り付け。
それらしい文字列が得られた。Windows10なら、一般的にはコレを使ったほうが楽かもしれない…。
ちなみに、Microsoftストア版の OneNote 上でも、同じようなことができた。
_OneNoteでも超簡単にOCRできるのです - 情報管理LOG
_Microsoft OCR(Windows.Media.Ocr)は優秀だよというお話 | BTC RPA
自分の環境は、OneNote 2016 をインストールしてあるので、OneNote 2016 を起動。何か画像を貼り付けて、画像の上で右クリック。「画像からテキストをコピー」を選択。これでクリップボードに認識結果が入ったらしいので、どこかしらに Ctrl + V で貼り付け。
それらしい文字列が得られた。Windows10なら、一般的にはコレを使ったほうが楽かもしれない…。
ちなみに、Microsoftストア版の OneNote 上でも、同じようなことができた。
[ ツッコむ ]
#2 [anime] 「未来のミライ」を視聴
細田守監督作品。TV放送されていたので視聴してみたり。初見。
どういう内容の映画なのか全く知らなかったのだけど、結構面白かった。一応、主人公であろう幼児の成長物語、と捉えればいいのだろうか。幼いながらも、自分が兄の自覚を持つ、その瞬間を目指して物語は進んでいく。みたいな。各シーンを目にして、自分の小さい頃、あるいは、弟や妹が小さかった頃を思い出してしまったりもして。
幼児の描写がとにかく徹底してた印象。突如として意味不明な行動を取り始めるあたりなどは、「あるある」と思いつつ眺めたり。「となりのトトロ」のメイよりも、幼児的な行動パターンの網羅については、かなりしっかり描けていたのではあるまいか。監督なのかスタッフなのか、誰の手柄なのかは分からんけれど、よくまあここまで観察したもんだなと…。ある部分では宮崎駿監督の観察眼を超えたというか、もしくは並んだ・追いついてみせたような、そんな気分にすらなったわけで。
ホントかどうかは知らないけれど、海外ではそれなりに評価が高かったという話も、なんだか頷けた。たしかに、ああいった描写は、全世界で通用するというか、共通する部分だろうなと。
残念だったのは、主人公の幼児の声。どうしてこんな人を起用しちゃったの…。これでは幼児じゃなくて、若い女性の声にしか聞こえない…。あの声で、かなりの部分が台無しになってしまったと感じたり。いやまあ、いかにもなアニメ的幼児の声・演技じゃないあたりはまだマシなのかもしれないけれど、もっと他に選択肢は無かったのだろうか…。声優さんの起用がアレな点だけは、しっかりポスト宮崎駿なんだよなあ…。そこは反面教師にしたほうがよくないか…。
なんとなくだけど、「クレヨンしんちゃん」を思い出したりもして。主人公と妹が、ああいう関係になる、ほんのちょっと前の時期を、比較的真面目に描いてみた映画、と喩えることもできそうだなと。 *1
どういう内容の映画なのか全く知らなかったのだけど、結構面白かった。一応、主人公であろう幼児の成長物語、と捉えればいいのだろうか。幼いながらも、自分が兄の自覚を持つ、その瞬間を目指して物語は進んでいく。みたいな。各シーンを目にして、自分の小さい頃、あるいは、弟や妹が小さかった頃を思い出してしまったりもして。
幼児の描写がとにかく徹底してた印象。突如として意味不明な行動を取り始めるあたりなどは、「あるある」と思いつつ眺めたり。「となりのトトロ」のメイよりも、幼児的な行動パターンの網羅については、かなりしっかり描けていたのではあるまいか。監督なのかスタッフなのか、誰の手柄なのかは分からんけれど、よくまあここまで観察したもんだなと…。ある部分では宮崎駿監督の観察眼を超えたというか、もしくは並んだ・追いついてみせたような、そんな気分にすらなったわけで。
ホントかどうかは知らないけれど、海外ではそれなりに評価が高かったという話も、なんだか頷けた。たしかに、ああいった描写は、全世界で通用するというか、共通する部分だろうなと。
残念だったのは、主人公の幼児の声。どうしてこんな人を起用しちゃったの…。これでは幼児じゃなくて、若い女性の声にしか聞こえない…。あの声で、かなりの部分が台無しになってしまったと感じたり。いやまあ、いかにもなアニメ的幼児の声・演技じゃないあたりはまだマシなのかもしれないけれど、もっと他に選択肢は無かったのだろうか…。声優さんの起用がアレな点だけは、しっかりポスト宮崎駿なんだよなあ…。そこは反面教師にしたほうがよくないか…。
なんとなくだけど、「クレヨンしんちゃん」を思い出したりもして。主人公と妹が、ああいう関係になる、ほんのちょっと前の時期を、比較的真面目に描いてみた映画、と喩えることもできそうだなと。 *1
*1: と言っても、ググった感じでは、「クレヨンしんちゃん」自体も、そのあたりの時期を結構描写してるらしいのだけど。恥ずかしながら、「しんちゃん」について自分はほとんど未見なのでよく知らなかったり。
[ ツッコむ ]
以上、1 日分です。