mieki256's diary



2005/06/13(月) [n年前の日記]

#1 [nitijyou][windows] Win98+OCRでテキストデータに変換中

網点処理された印刷物だったけど、画像にフィルタをかけて弄ったらOCRの認識率が上がった。以下の手順で画像修正。
  1. 1200dpiのグレー画像でスキャン。
  2. Photoshop で「ダスト&スクラッチ」フィルタを適用。
  3. 400dpiに画像解像度を変換。<要するに縮小。
  4. コントラスト調整。
といった処理をしてから、『読んでココ』 *1 に渡したら、かなり認識率が上がった。その代わり、「。」「(」「)」「で」「が」等、今までは問題なかった文字を誤認識してしまう状態に。線が細い文字は途切れ途切れになり、濁点のある文字は濁点部分がノイズと間違われるぐらいに小さくなったせいだろうと。でもまあ、他の漢字がすんなり認識できるようになったので、これはこれで。

テキストデータに変換はできたので後は確認作業 :

音声読み上げソフトを利用して、ミスがないか確認してみないと。そのへんのソフトを調べておかないとなぁ…。

それににしてもWin98は軽いなぁ :

同じハードの上で動いてるのに、どうしてWinXPは重いのだろう。…スタイルをクラシックスタイルにすればいいのかな。でも、それだと質問されたときに答えられなくて困ってしまうか。WinXPユーザでクラシックスタイルにして使ってる人は、周囲にほとんど居ないわけだし。

*1: 『読んでココ』=OCRソフトの一つ。

#2 [pc][windows] 音声読み上げソフトをメモ

少し検索。

_朝顔日記 - 音声読み上げ関連アプリのメモ :

おお。一覧が。ありがたや。ほとんど有償ソフトなのが、ちょっと残念ではあるけれど。

_喋るコンピュータにハマる年末の俺 - ケータイWatch スタパトロニクス :

「ねこ踊り」のwavに感動してしまった。歌ってる…! 結構歌ってる!

_YAMAHA Vocaloid :

_サンプルページ も聞いてみたり。うーむ。素晴らしい。個人的には _Vocaloid Miriam の Scarborough Harmonies に驚いたり、 _2chスレの242_658 に驚いたり。

そういや昔、 _「歌うパソコン」PC-6601 とかあったっけ。スゴイ進化を遂げたなぁ。

…いかん。横道にそれてる。そっちの情報を探してるわけではないのだった。

_akJ Speechtools - 音声合成ソフト :

_CPL(Common Public License) で配布されてるソフト。インストールしてみたり。

解凍すると180MBに。ちょっとビックリ。でも、コレ一つで音声読み上げできる簡便さはグッドな気も。

起動に数十秒かかる。Javaで作成されているらしいので、仕方ないところ。

おお! 喋った! 素晴らしい。

しかし、英数字部分と日本語部分で、英語読み上げ・日本語読み上げのエンジン(?)が切り替わるようで。「4月1日」が「フォー がつ ワン にち」と読み上げられて、うーん。…1バイト文字か、2バイト文字かで、そのあたりが切り替わっているらしい。全ての文字を2バイト文字(全角文字)に変換してから渡したら、日本語読み上げエンジンのみ使ってくれる模様。が、それでも英数字と日本語の境界でウェイトが入る。でもまあこのへん、おそらくはエンジンの仕様なのだろう。たぶん。

と思ったら違った。上のほうにあるボタン(?)を押して、「日本語部分のみ再生」モードに切り替えればいいみたい。「〜部分のみ」という表記だったから、てっきり英数字部分は読み飛ばされるのかと勘違いしてしまいますた。とりあえず、IPA辞書有効なら「よん つき いち び」、IPA辞書無効で「よん がつ いち にち」と発音してくれた。

さておき。文字列として「われわれは宇宙人だ」を渡してやると、これ以上ないくらいに宇宙人として喋ってくれることに気づいた。素晴らしい。<って君は一体何を検証してるのですか?

_Microsoft Agentのダウンロードの仕方 :

_「音声合成」でWindowsに英語を“しゃべらせる”
_読み上げ機能を使用して日本語の文書を読み上げる方法 - Adobeサポートデータベース

MSのサイトで、Windows用に、音声読み上げのエンジン(?)を配布してるらしい。

む。WinXP なら、SAPI 4.0 runtime は DL・インストールしなくてもいいのかな? と思ったがあちこち検索してみると、そういうわけでもないらしい。とりあえず、TTS engine Japanese と SAPI 4.0 runtime をDL・インストール。

WinXP のコントロールパネル → 〜 → 音声認識の欄に、選べるエンジンが増えるのかと思ってたけど。特にそのへん追加された様子はなく。謎。

_EasySpeech - 簡単にテキスト読み上げ、WAVE 保存するアプリケーション :

インストールしてみた。起動したところ、日本語のTTSエンジンとして、男性・女性が選べるようになっていた。ということは、WinXP のコントロールパネル云々に出てこないだけで、エンジン自体はちゃんとインストールされていたということかな。

音質、というか発音は、結構悪い >MS の TTS。テキストを聞き取れるかどうかも結構微妙なところ。ただ、akJ Speechtools が利用してるエンジンと違って、英数字についてもそれなりに読み上げてくれたあたり、感心したり。例えば、「4月1日に3,000円で購入しました」という文章を打つと、「しがつついたち」「さんぜんえん」等を発音してくれる。これが akJ Speechtools だと、「よんがついちにち」「さん ぜろえん」になる。「さん ぜろえん」はマズイなぁ。金額が2桁、少なくなってしまう。おそらく、辞書に「しがつ」「ついたち」が登録されてないとか、数字内のカンマについて3桁区切りは無視する処理になってるとか、そんな感じなのだろうなと想像。ただ、聞き取りやすさは akJ Speechtools のほうがグッドな感じ。

何にしても自分のPCが喋るの図は面白いなぁ :

なんだかバイファムを思い出してしまったり。「HELLO, I AM VIFAM」「WELCOME HOME, VIFAM 7. I'M MOTHER ARM COMPUTER」とか。 *1 バイオリンの音色がなんとなく脳裏に。 *2

*1: どちらもOP曲に入ってた「COM」の台詞。前者がVIFAM。後者は着艦用牽引フックのコンピューター。と、LP付属の解説書には書いてある。
*2: バイオリンは、OP曲を演奏していた TAO というロックバンドのウリ、だったらしい。

#3 [anime] 富野監督作品には喋る巨大ロボットが登場していないような気がしてきたのだけど

気のせいかしら。 *1

何かポリシーでもあるのだろうか。例えば… てな感じの理由でもあるのかなと、なんとなく想像したりもして。

でも、パイロットに音声で情報を伝えるメリットってあるよなぁ :

そのとき注目してる視覚情報から目を離さずに、別の情報を同時に受け取れるメリットがありそう。そもそも現実世界でも、飛行機のパイロットなんかは、管制塔から伝えられる音声によって情報を得ているしなぁ。

と思ったけどそのへんは、もしかすると、飛行機が生まれた当時に情報伝達手段に関して技術的制約があった故に、それが主流になってしまったという事情もあったりするのかな。…もし、視覚情報も、音声情報も、どちらも伝送することが技術的に容易である異世界で、初めて飛行機がその世界に生まれてくるとしたら…。音声によるナビゲーションは、今よりも少なくなったりするのだろうか。

*1: いや。自分が見落としてる・忘れてるだけかもしれないけど。

この記事へのツッコミ

喋る巨大ロボット by がんした    2005/06/16 01:01
=主人公登場型で巨大人型ロボットで音声ナビゲーションしてくれるタイプ

だよね?だとしたら逆に「喋る巨大ロボット」の方が、オイラ、思い浮かばない。
かろうじて「SPTレイズナー」はそうだったとか、ちょっと毛色が違うけど
「宇宙の騎士テッカマン(ブレイドじゃない無印の方)」のペガスとか。

あと何があったっけ?
Re: 喋る巨大ロボット by mieki256    2005/06/16 06:50
> 音声ナビしてくれるタイプ だよね?

だす。

サンライズロボットアニメの監督さんといえば、
富野監督、高橋監督、神田監督、かなーと思うのですが、

高橋監督 : SPTレイズナー
神田監督 : バイファム、ドラグナー(<ちと記憶が怪しい)

というわけで、富野監督作品だけ思いつかないのでした。

でもまあ、基本的に「音声ナビつき巨大ロボット」って少ないですけど。
「音声ナビつき」の定義を外せば、

『勇者シリーズ(Jデッカーとかそのへん)』
『トランスフォーマーシリーズ(全ロボットが喋りまくり)』
『魔神英雄伝ワタル(龍神丸とか)』
『超力ロボ ガラット』

とかありそうなんですが。
とはいえ。「喋る巨大ロボット」が少ないことは間違いないですな…
Re: 富野監督作品には喋る巨大ロボットが登場していないような気がしてきたのだけど by 名無しさん    2005/06/19 01:28
>何かポリシーでもあるのだろうか。例えば…

これも巨大ロボでもないし音声ナビじゃないんですけど、私は当時ブレンパワ
ードで驚いた覚えがあります。他の作品では或程度やってるんですが富野作品
なのに筆談したりテレパシーみたいなので会話したり気分を解り合ったりする
描写があって新鮮でした。更にはブレンの数え方が1人、2人だったのにも驚い
た記憶が………。
Re: 富野監督作品には喋る巨大ロボットが登場していないような気がしてきたのだけど by mieki256    2005/06/19 03:00
> ブレンパワード

ブレンパワードは未見な自分なのですが、
ロボットと筆談やテレパシーを、ですか…!?
スゲエ! スゲエぜ富野アニメ!

ロボットの見せ方・扱い方・設定に関しては、
必ず何かしら革新的なことを用意する・取り込む監督さんですよねぇ…
そこにシビレルあこがれる! というか。

であれば、やっぱりポリシーがありそうですな>音声ナビつき云々。
変わった設定に対して貪欲な富野監督が手をつけないのであれば、
そこには何かあるはず…。
でもまあ、自分が見落としてるだけの可能性も高いけど(爆)

#4 [zatta] _エレベーターの裏技

素晴らしい。…自分、高校3年の時に、「エレベーターの自動制御」というテーマでレポートを書いたのだけど。 *1 当時やってた内容を思うと…やっぱりプロ(?)が作るものはとにかくスゴイもんだなと感心。素晴らしい。 _(via del.icio.us/otsune)
*1: 3年じゃなくて、2年だったかな…。実習のテーマとして存在していた記憶も。スチール製の、人間より巨大な模型を使って実習をしていたような。かなり古い模型で、どうも不調な感じの動きだったり。なもんで、それら実習のテーマとは別に、各グループの研究テーマとしてもやったはず。コンピュータ or 電子回路を繋げて動かせる、プラスチック製の小さい模型を作る予定が…。結局上手く動かなくて完成しなかった。トホホ。

#5 [web] _「良い人」なサイトを運営するためのコツ。荒れないようにするためのコツ。

・ 宗教ネタは扱わない
・ 政治ネタは扱わない
・ もったいぶったような書き方はやめる
・ 皮肉はやめる
・ 2ch語を使わない
・ ヲタい表現を使わない
・ 明朗簡潔な表現を心がける
・ 感情を表に出さない
・ 怒らない
・ 否定的なことは書かない
・ エロネタは書かない
うっ。「書かない」とされてることを全部書いてしまっている自分なわけで。「良い人」には程遠いことを再認識。(つД`)

#6 [mozilla] 数日前からMozilla Firefox が起動に失敗するのだけど

何故だろうなぁ。やったことといえば… Tab Mix Plus に入れ替えたことぐらい、だけど。

profiles を作り直してみたり。これですんなり起動してくれればいいけど。

#7 [zatta] エンジニアの反対は文系、じゃないよな…

_昨日書いた記事 を読み返して、エンジニアの反対=文系、と思い込んでる自分に気がついてしまった。それは違うよな…。エンジニアの反対は、非エンジニアでしかない。妙な思い込み、というか偏見を持ってしまっていた自分にトホホなのでした。

エンジニアの反対=非エンジニア、ってのも変だな…。エンジニアの反対って、何だろう。 *1
*1: ていうか元々件の話は、エンジニアの反対に位置する『何か』を設定して語る話でもないような。

#8 [anime] BJ、精神科の医者は魔法使いの回

精神科の医者が、いつでもどこでもどんなときでも催眠術で他者をコントロールする様子を見て笑ってしまった。そんなバカな。

と思ったんだけど、精神科医になるにあたって、もしかすると催眠術云々は必修科目だったりするのだろうか。 _「精神科 催眠術」 でググってみたら結構デフォルトみたいだし。そうか。精神科医って本当に魔法使いなのだな。 *1

さておき、ラストの台詞、「技術だけでは、人は〜」云々に感心。あれだけドタバタしながら、台詞一つで綺麗にまとめてみせるあたりが素晴らしい。
*1: つーか、ハッカーだって時々魔法使い扱いされるから、それと似たようなもんなのかもしれないな。専門の人にしてみれば、できること・できないことが、ちゃんと明確になってるのかもしれない。

以上、1 日分です。

過去ログ表示

Prev - 2005/06 - Next
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30

カテゴリで表示

検索機能は Namazu for hns で提供されています。(詳細指定/ヘルプ


注意: 現在使用の日記自動生成システムは Version 2.19.6 です。
公開されている日記自動生成システムは Version 2.19.5 です。

Powered by hns-2.19.6, HyperNikkiSystem Project