mieki256's diary



2022/10/08() [n年前の日記]

#1 [windows] 無料で使えるOCRをいくつか試用

Windows10 x64 21H2 上で、無料で使えるOCRをいくつか試用してみた。いやまあ、以前も試用したことはあるのだけど…。

_mieki256's diary - Tesseract OCRを試用

QuickOCRを試用。 :

Windowsに標準で入っている OCR 機能を使って処理するソフトらしい。日本語と英語の読み取りに対応している。読み取り結果はウインドウ内に表示される。

_QuickOCR
_QuickOCR - k本的に無料ソフト・フリーソフト

QuickOCR-v1.04.zip を入手して解凍。今回は、C:\Prog\QuickOCR\ に置いておいた。

QuickOCR.exe を実行するとウインドウが開く。「範囲選択」ボタンをクリックしてから、デスクトップ上の任意の場所をマウスドラッグで選択すると、 ウインドウ上に読み取り結果が表示される。

NormCapを試用。 :

オープンソースのOCRエンジン、Tesseract を利用して、読み取り処理を行うソフト。Windows、Linux、Mac に対応しているらしい。読み取り結果はクリップボードに入る。

_NormCap
_tesseract-ocr/tessdata_best at 4.1.0
_NormCap のダウンロードと使い方 - k本的に無料ソフト・フリーソフト

NormCap-0.3.12-x86_64-Windows.msi を入手して実行。インストール場所の指定はできないようで、以下の場所に問答無用(?)でインストールされた。
C:\Users\(USERNAME)\AppData\Local\Programs\dynobo\NormCap\

日本語の読み取りにも対応させたい時は、 _tessdata のページ から、jpn.traineddata、jpn_vert.traineddata を入手して、以下の場所にコピーしてやる。
C:\Users\(USERNAME)\AppData\Local\normcap\tessdata\
ちなみに、*_vert は、縦書きの読み取りに対応させるためのデータ。

実行すると、デスクトップの任意の領域を指定するキャプチャ状態で起動する。読み取った部分は、クリップボードにテキストとして記録されるので、エディタ等を開いて貼付けしてやれば読み取り結果を利用できる。

一度起動すると、タスクトレイにアイコンが表示されて常駐状態になる模様。

タスクトレイのアイコンを右クリック → Capture を選ぶことで、再度キャプチャと読み取りをすることができる。

設定は、キャプチャモード状態の、右上の歯車アイコンをクリック。Languages の select を選んで、jpn にチェックを入れれば、日本語にも対応する。

日本語の読み取り結果は、何故か一文字ずつ半角空白が入ってしまう。エディタ等で空白を除去するように置換処理をする必要がありそう。

gImageReaderを試用。 :

オープンソースのOCRエンジン、Tesseract は、コマンドラインで利用できるツールだけど、それでは使う際に不便だろうということで、GUIで操作できるフロントエンドツールがいくつか公開されている。

_GUIs and Other Projects using Tesseract OCR | tessdoc

前述の NormCap もその一つだけど、gImageReader というソフトも気になったので試用。Windows と Linux に対応してる。

_manisandro/gImageReader: A Gtk/Qt front-end to tesseract-ocr.

今回は、ポータブル版、gImageReader_3.4.0_qt5_x86_64_portable.zip を入手。解凍して、D:\Prog\gImageReader_portable\ に置いてみた。

bin\gimagereader-qt5.exe を実行するとウインドウが開く。メニュー等は最初から日本語化されていた。

ウインドウの一番右に設定アイコンがあるのでクリック。言語を管理、をクリックすると、日本語用のデータをインストールすることができる。以下にチェックを入れて「適用」をクリックすれば、日本語用のデータをダウンロードして、日本語の読み取りにも対応した状態になる。
日本語 [jpn]
日本語 縦書き [jpn_vert]
Japanese [スクリプト]
Japanese_vert [スクリプト]

ウインドウの左のほうにアイコンが並んでいて、その中のカメラアイコンをクリックすると、デスクトップ全体のスクリーンショットを撮ることができる。

読み取りたい部分をマウスドラッグで指定して、上のほうの読み取りアイコンをクリックすれば、ウインドウの右側に読み取り結果が表示される。

読み取りアイコンの右側の旗っぽいアイコンをクリックすれば、どの言語で読み取るかを指定できる。

Tesseract-OCRを試用。 :

せっかくだから、コマンドラインで利用できる、Tesseract-OCR もインストールしておいた。

_Home - UB-Mannheim/tesseract Wiki

tesseract-ocr-w32-setup-v5.2.0.20220712.exe を入手して実行。インストーラが起動する。今回は、D:\Prog\Tesseract-OCR_x86\ に入れておいた。

インストールの途中で、どの言語データをインストールするのかも尋ねてくるので、jpn、jpn_vert、japanese、japanese_vert 等にチェックを入れてインストールする。ちなみに、*_vert は、縦書き用データ。

使い方は以下。入力画像ファイル名(INPUT.png)、出力ファイル名(OUTPUT_FILE)、利用言語(-l eng or -l jpn)を指定する。
tesseract.exe INPUT.png OUTPUT_FILE -l eng
tesseract.exe INPUT.png OUTPUT_FILE -l jpn

#2 [basic] Tiny Basic for Windowsを試用

CP/Mエミュレータを試用しているうちに、ふとなんとなく、Tiny Basic について興味が湧いてきた。ググってみたら、Tiny Basic for Windows というBASICがあるらしいと知ったので、少し触ってみることにした。環境は Windows10 x64 21H2。

_tbasic

tbw151set.zip をDLして解凍。任意のフォルダに置く。今回は、D:\home\prg\basic\TBasic\ に置いておいた。

TBasic.exe を実行すると、編集ウインドウと実行画面ウインドウが開いた。

この時点で、なんだか妙だなとようやく気が付いた。一般的に、Tiny Basic と言ったら、小さいバイナリサイズでそこそこ動く BASIC の類ではなかったか…。こんなにゴージャス(?)な画面が出てくるのは、おかしい…。リッチ過ぎる…。これは本当に Tiny Basic なのだろうか…?

ヘルプファイルを開いて眺めてみたら、謎が解けた。これは一般的な Tiny Basic ではなくて、N88BASIC の Tiny 版と言う意味で Tiny Basic を名乗っていたらしい。自分が期待していた Tiny Basic ではなかった…。

実は,Tiny Basic と言うと,コンピュータの歴史の中では特別な意味を持ちます。 1970年代の初期のマイクロコンピュータ(現在ではパーソナルコンピュータ)では, RAM が数キロバイトしかありませんでした。このコンピュータ上で BASIC を動かすために,当時既に,大型機上で動作していた BASIC のサブセットを極めて小さなメモリーで動かすことが考えられ,2〜3Kのメモリーで動作する BASIC が開発され,それを Tiny BASIC と呼びました。

この Tiny Basic は 1975年,Dr. Li-Chen Wang が Palo Alto マイクロコンピュータ用に,元々書いたものといわれています。これは Dennis Allison によって,Altair 8800 用に移植され,そのソースは1976年公開されました。以後,この ソースを基にした多くのコンピュータへの移植版が作られ,それらは Tiny BASIC 或いは Tiny BASIC 系言語といわれています。

このように,Tiny BASIC はコンピュータの歴史においては特定の意味を持つ名前ですが,この Tiny Basic for Windows は,これらの Tiny BASIC 系言語とは,実は関係はありません。

元々はこの Tiny Basic for Windows は DOS 版としての Tiny Basic からスタートしましたが,ここでの Tiny は当時標準的に使われていた,N88BASIC のサブセットとして,作成され,N88BASIC に比べて Tiny であるという意味から,Tiny Basic と言う名前をつけました。ですから,この当時の Tiny Basic は正確には A Tiny N88BASIC と言うものです。

それはさておき、せっかくだから少し触ってみたけれど、プログラミング学習用としてはたしかにイイ感じだなと。

もっとも、学習用なら Microsoft Small Basic なども選択肢として良さそうな気もする。

_「Microsoft Small Basic」初心者向けプログラミング言語の開発・実行環境 - 窓の杜

ただ、Microsoft Small Basic は、自分の手元の環境では 1.2 は動いたけど最終版の1.3が動かなかったりしたので、そういうところで躓くようでは学習用環境として論外かもしれないと思ったりもする。動く環境もあれば、動かない環境もあるというのがなんとも…。「どうしても使いたかったらWindowsを再インストールしろ」なんて回答されちゃうようではダメだよな…。

_mieki256's diary - Microsoft Small Basic が起動しない
_small basic 1.3 が起動しません - Microsoft コミュニティ
_SMALL BASIC 1.3 does not appear on the screen ... - Microsoft Q&A

以上、1 日分です。

過去ログ表示

Prev - 2022/10 - Next
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31

カテゴリで表示

検索機能は Namazu for hns で提供されています。(詳細指定/ヘルプ


注意: 現在使用の日記自動生成システムは Version 2.19.6 です。
公開されている日記自動生成システムは Version 2.19.5 です。

Powered by hns-2.19.6, HyperNikkiSystem Project