2005/06/19(日) [n年前の日記]
#16 [windows] 読み上げツールを使ってみたのだけど
EasySpeech と akJ SpeechTools を交互に試してるような感じなのだけど。
EasySpeech のほうは、読み上げてくれる文字数に時々制限がつくような感じが。途中で音声が出なくなってしまう。 *1
akJ SpeechTools のほうは、しばらく利用してると gtalk? 音声エンジン? がエラーを出し続ける状態に。コケる条件の特定ならず…。 *2
少し試用してみた。カーソル移動と音声読み上げが連動するのがコレほど効果的とは。また、「、」「。」についても、「てん」「まる」等読み上げてくれるあたり、文字の一つ一つを的確に音声で把握できてヨサゲ。
アドインに、 _「読み上げ君」 というのが用意されている。試用してみたけど、今現在どこを読んでいるのか視覚的に表示してくれると、OCRの変換ミスや、打ち込みミス等のチェックをするのに使えるかもしれないと思ったりして。
デフォルトでは英語音声が選択されてるあたりは、ちょっともったいない(?)気もしたり。…でも、英語を読み上げたいと思う人にとっては、むしろそのほうがいいのかしら。かもしれん。
EasySpeech のほうは、読み上げてくれる文字数に時々制限がつくような感じが。途中で音声が出なくなってしまう。 *1
akJ SpeechTools のほうは、しばらく利用してると gtalk? 音声エンジン? がエラーを出し続ける状態に。コケる条件の特定ならず…。 *2
◎ _読み上げTool :
クリップボードにコピーされた文字列を読み上げてくれるツール。MSで配布されてるTTS等が必要。フリーソフト。インストールしてみた。
「、」等で wait が入るのだけど、ちょっと長すぎる感じ。…と思ったけど速度を変えると気にならなくなった。ような気も。 *3
全然関係ない話だけど。どうしてツール名の「Tool」が全角文字なんだらう。<ホントに全然関係ない話だなぁ。
「、」等で wait が入るのだけど、ちょっと長すぎる感じ。…と思ったけど速度を変えると気にならなくなった。ような気も。 *3
全然関係ない話だけど。どうしてツール名の「Tool」が全角文字なんだらう。<ホントに全然関係ない話だなぁ。
◎ _reporter - 簡単操作&高機能なテキスト読み上げソフト :
インストールしてみた。MSで配布されてるTTS等が必要。フリーソフト。
男性声 or 女性声の選択等はできないみたい。MS Agent のキャラクター画像が表示されるあたりはちょっと楽しくてグー。
う。起動すると xyzzy 内でコピー&ペーストができなくなってしまう。こりゃ厳しい…。reporter のクリップボード監視モードを無効にすると問題がでなくなるみたいだけど。
男性声 or 女性声の選択等はできないみたい。MS Agent のキャラクター画像が表示されるあたりはちょっと楽しくてグー。
う。起動すると xyzzy 内でコピー&ペーストができなくなってしまう。こりゃ厳しい…。reporter のクリップボード監視モードを無効にすると問題がでなくなるみたいだけど。
◎ _SpchW - SAPI 5.1を利用した読み上げソフト :
◎ _Microsoft Agent character files :
一応入れてみた。…昔、日本人らしき画像が出てくるキャラが居たような気もするんだけど。アレはどこで入手できたのだったか。
◎ _MS Agent Chaaracter kiyomori :
武士の兜を装着した謎生物的キャラ。インストールしたら、若干女性声に近い声で喋ってくれるようになった。ありがたい。
◎ _Microsoft Agent Ring :
MSのサイトで紹介されてた MS Agent のキャラを集めてあるサイト。
にしても。どうして、MS Agent のキャラ画像って、なんというか、その…。ぶっちゃけ、シュレックのできそこないみたいなキャラばっかりなのかしら。 _gallery を見てると、うーん。あちらの人達のセンスはわからん。
と思っていたら、 ピカチュウ発見。
…いいのかよ。
しかしまあ、この生物がダミ声でスラスラと人間の言葉を喋るの図は非常に違和感があるなぁ。クラクラしてくる。日本語・英語で喋らせてみたけど、なんというか。
一応こんな声。
_日本語版音声(mp3,12KB)。
_英語版音声(mp3,19KB)。
違うだろ。お前は別の生き物だろう。大谷育江様の美声には程遠い。
もっとも、MS Agent のそれは、おそらくピッチを変化させてるだけだろうし。バリエーションをつけられないのは仕方ないかも。
他にも色々居るみたい。 _パワーパフガールズ(たぶん) 、 _メイドさん(?) 、 _女子高生(たぶん) 。試しに女子高生を入れてみたけど、このキャラ、スゴイわ。尋常じゃないパターン数。作者の気合入りまくり。感心。でも、胸の谷間はアピールするわ、へそを出すわのデザインで、なんというか。うーむ。
にしても。どうして、MS Agent のキャラ画像って、なんというか、その…。ぶっちゃけ、シュレックのできそこないみたいなキャラばっかりなのかしら。 _gallery を見てると、うーん。あちらの人達のセンスはわからん。
と思っていたら、 ピカチュウ発見。
しかしまあ、この生物がダミ声でスラスラと人間の言葉を喋るの図は非常に違和感があるなぁ。クラクラしてくる。日本語・英語で喋らせてみたけど、なんというか。
一応こんな声。
_日本語版音声(mp3,12KB)。
_英語版音声(mp3,19KB)。
違うだろ。お前は別の生き物だろう。大谷育江様の美声には程遠い。
もっとも、MS Agent のそれは、おそらくピッチを変化させてるだけだろうし。バリエーションをつけられないのは仕方ないかも。
他にも色々居るみたい。 _パワーパフガールズ(たぶん) 、 _メイドさん(?) 、 _女子高生(たぶん) 。試しに女子高生を入れてみたけど、このキャラ、スゴイわ。尋常じゃないパターン数。作者の気合入りまくり。感心。でも、胸の谷間はアピールするわ、へそを出すわのデザインで、なんというか。うーむ。
◎ _Text to Speech Engine いろいろ :
テキストトゥスピーチ&音声素材総合スレッド のまとめです。色々なTTSの紹介ページ。Webで利用できるものあり。ローカルにインストールするものあり。
◎ _ClipReader :
クリップボード拡張ツールです。データを履歴として保存し、貼り付けや連続貼り付けするほか、仮想カレット機能により、クリップボードに入ったテキストデータの任意の場所を読み上げることができます。音声読み上げ機能もついたクリップボード拡張ツール。珍しい。
◎ _SARI - 音声読み上げを活用できるエディタ :
マイクロソフト社のWindows(95/98/ME/NT4.0/2000/XP)上で動作するテキストエディタです。
音声ガイド機能により、カレット位置の文字の自動読上げ、行移動に伴う行の自動読上げなどが可能です。おお。と思ったけどシェアウェアだった。
少し試用してみた。カーソル移動と音声読み上げが連動するのがコレほど効果的とは。また、「、」「。」についても、「てん」「まる」等読み上げてくれるあたり、文字の一つ一つを的確に音声で把握できてヨサゲ。
アドインに、 _「読み上げ君」 というのが用意されている。試用してみたけど、今現在どこを読んでいるのか視覚的に表示してくれると、OCRの変換ミスや、打ち込みミス等のチェックをするのに使えるかもしれないと思ったりして。
デフォルトでは英語音声が選択されてるあたりは、ちょっともったいない(?)気もしたり。…でも、英語を読み上げたいと思う人にとっては、むしろそのほうがいいのかしら。かもしれん。
◎ _GalateaTalkDemo :
_Galatea Project
フェイスアニメーション等もできるみたいなので、Windows版をDLしてみた。メールアドレスを渡さなきゃいけないのがちょっとアレだけど。
Galatea Project は、擬人化音声対話エージェントのツールキット Galatea Toolkit を開発し、オープンソース、ライセンスフリーで公開提供するプロジェクトで、国内の十数大学などの音声・言語・画像研究者が参加して進めています。顔、声、音声合成テキスト、認識文法、対話の流れなどはカスタマイズ可能で、これを用いて容易に人間の顔と表情を持ち、音声で対話する自分独自のエージェントを作成することができます。また、構成要素(音声認識、音声合成、顔画像合成など)を別々に無償で利用することもできます。商用利用も可能です。前述の akJ SpeechTools が、これの音声合成エンジンを利用してる。らしい。MS配布のTTSよりは聞き取りやすい。
フェイスアニメーション等もできるみたいなので、Windows版をDLしてみた。メールアドレスを渡さなきゃいけないのがちょっとアレだけど。
◎ _テキスト読み上げソフトで、スレを音声で"聞こう"♪ :
Googleキャッシュから。音声合成エンジンの開発に関して興味深い話がチラホラ。
高価格帯な製品は別として、一般ユーザ向けの低価格な製品の開発は、ほとんど停滞してしまってるのが現状らしい。それでいて、これ以上ないくらい人間に近い音声合成が既にできているのかといえば、さにあらず。結局のところ、企業にとっては、研究開発・商品化してみてもなかなか売れない・割りに合わない製品ジャンルということらしいなぁ…。
もしかすると、使い方に関するアイデアが求められていたりするのかもしれないな。使わないより、使うほうが、圧倒的に便利・快適と感じる、そんな使い方、とか。
高価格帯な製品は別として、一般ユーザ向けの低価格な製品の開発は、ほとんど停滞してしまってるのが現状らしい。それでいて、これ以上ないくらい人間に近い音声合成が既にできているのかといえば、さにあらず。結局のところ、企業にとっては、研究開発・商品化してみてもなかなか売れない・割りに合わない製品ジャンルということらしいなぁ…。
もしかすると、使い方に関するアイデアが求められていたりするのかもしれないな。使わないより、使うほうが、圧倒的に便利・快適と感じる、そんな使い方、とか。
[ ツッコむ ]
以上です。