mieki256's diary



2015/05/15(金) [n年前の日記]

#3 [prog] リップシンクが気になる

とあるアニメ監督さんが、「演出が口パクのタイムシート *1 をつけるのは無駄じゃないか。コンテ撮りのアフレコ音声から自動でタイムシートを作るプラグインを作るべきだ」とつぶやいているのを見かけて。なんだか面白そうだな、そういうのできそうだよなと興味が湧いて。

ちなみに、音に合わせて口がパクパク動くのを、「リップシンク」と呼ぶわけですが。

もしかして既にあるんじゃないかと、「リップシンク ○○」等でググってみたら、AE(After Effects)用にそういうスクリプトはあるようで。 *2

_ボイスに合わせてリップシンクアニメーションを自動作成:Auto Lip-Sync (オート リップシンク) / aescripts

ゲーム用でも、母音を解析して、音にあった口パクにしてくれるミドルウェアがあるらしい。

_口パターン作成ミドルウェア「CRI Clipper」 - CRI Middleware

また、MMDの世界では、リップシンク用のツールがいくつかあるらしくて。手作業でつけていくものもあるけれど、 _ボーカロイドのvsqファイル を与えて自動でやってくれるツールもある模様。

さらにググってたら、エロゲは自動でリップシンクするのが結構当たり前っぽくて。
484 :名無しさん@初回限定:2012/01/06(金) 14:19:47.76 ID:DL10UEAh0
人がやったらすごくお金がかかるじゃないか。
当然プログラムで解析して自動っすよ
ただ、PCならリアルタイム処理できるけど、コンシューマの場合はCPU資源がもったいないので、
事前に計算して単純なデータにおとしておきます

母音解析して あいうえお×音量別まですることも可能ではあるけど(昔のF&Cはそこまでしてた)、
いまどきの表情数だと素材つくるのが大変になるわりに効果は薄いので、
音量だけで判定して3段階(閉・中・開) で処理ってのが落としどころです

エロゲのシステムまわりを考える(A・H・OP ver.7) より

膨大な音声データと対峙しなきゃいけないから、そりゃそうなるよなあ…。

そして、Oculus Rift 絡みのVR環境でも、音声データを基にしてリップシンクする実験もされていたようで。

_フォルマントから母音推定してリップシンクを目指してみる - 凹みTips

なんというか…。ニコニコ動画に自動でリップシンクした動画が趣味でアップロードされてたり、エロゲが自動でリップシンクしてたりするこんな時代に、演出さんが手作業で口パクの指示をタイムシートにつけていくなんて、アニメ業界のおいてけぼり感たるや尋常じゃねえなあ、と思ったりもしました。

もし、アニメ業界内に、自動でリップシンクするツールが普及した場合、アフレコは過去のものになって、ほとんどプレスコになったりするのかな、てな妄想も。どうなんだろう。まあ、プレスコとアフレコのどっちがいいのかは、自分は素人なので分からんのですが。

PythonやRubyで実験できんかな。 :

要するに、wavファイルを読み込んで解析してタイミングを出していければいいんだよな。そのくらいならLLでやれるんじゃないかと。まずは wavファイルを読み込めないと話にならないなと。

Pythonの場合、どうも標準で wave というモジュール? ライブラリ? があるようで。ソレを使えば、wavファイルを読み込めるのかな。

_21.5. wave ・ WAVファイルの読み書き ・ Python 2.7ja1 documentation

実際に音を出したいときは、おそらく PyAudio というモジュールをインストールして使えばいいのだと思う。

_Python によるオーディオ処理 - Kaiseki
_[Python] Pythonで音楽再生 | wave, PyAudio | FiFiFactory Official Page

Rubyの場合はちと分からなくて。wavファイルを読み込めるモジュールが標準で入ってるわけではナサゲ。ググったところ、 _wavefile と、 _wav-file が公開されてるらしい。それぞれの違いはよく分からず。

母音を判別するのは、フォルマントとやらを抽出すればできるっぽい。が、そもそも日本のアニメの口パクって、母音に合わせて種類を作ってたかな、どうだったかな、という疑問が。

もし、口がパカパカ動くだけでいいなら、音量を調べて、口の種類をランダムに切り替えるだけでもそれらしく見えそうな。母音の解析までしなくていいんじゃないか。たぶん。

日本のアニメの口パク種類。 :

以下の記事で、日本のアニメの口パクについてまとめられていた。ありがたや。

_アニメーションにおける奥深き"クチパク"の世界
_WEBアニメスタイル | 色彩設計おぼえがき[辻田邦夫]第46回 なぜか今週は「色」じゃなくて「口パク」のお話
_WEBアニメスタイル | β運動の岸辺で[片渕須直]第76回 筆者多忙中につき
_平松禎史先生の「口パク話」 - Togetterまとめ
_WEBアニメスタイル | β運動の岸辺で[片渕須直]第23回 ABCは知ってても
_listeningside sideA
_Flashアニメ作家・青池良輔の「創作番長クリエイタ」 (22) Flashアニメーションのキャラクターの口の動きを考える | マイナビニュース

欧米アニメの場合、6種類+特殊な発音で数種類ほど口の形が用意されるらしい。AKIRAもプレスコだったので、基本は7種類あったという話で。もっとも、ちゃんとやろうとすると種類は増えて…。AKIRAに参加したアニメーターさんの話では、「馬鹿野郎」(「あああおう」)を表現するのに原画を22枚描いた事例が紹介されていた。

ただ、日本のアニメはそこまでやってなくて…。
日本の従来のやり方は、アフレコ録音で作画先行で、作画上では、

「閉じ口」
「閉じ口と開き口の中割り」
「開き口」

の3種類を作り、これら3種類をランダムに配置する、というものだった。例えば「1323121321231」というふうに。3枚の出現頻度は均等となるようにし、基本的に3コマ打ちで行う。

WEBアニメスタイル | β運動の岸辺で[片渕須直]第23回 ABCは知ってても より


3種類をパカパカ切り替える、しかも3コマ撮りでいいなら、母音解析までしなくて良さそうだなと。音量を見るだけで全然イケそうな気がする。というか、エロゲがそういうやり方でやってるらしいから、そのほうが実績はあるのだろうと。

どうでもいい妄想。 :

コンピュータが自動でリップシンクしてくれますよ、という話になれば、アニメだって、もしかするともっと口の種類を増やして発音にキッチリ合わせよう、という流れになったりするのかもしれない。

と思ったけれど、体が3コマ撮りで動いてるのに口だけ1コマで動いてたら、結構気持ち悪いんじゃないか、てな予感も。日本のアニメが3コマ撮りを基本にして作られてる限り、発音にキッチリ合わせて口を動かそうという話にはならないのではないか。たぶん。

ググっていて、 _3DCG界隈では自動でリップシンクするのが当たり前っしょ、 てな空気を感じたり。となると、手描きアニメ制作に3DCGのアレコレがもっと組み込まれていけば、演出家さんが口パクのタイミングをシートに書く作業に、それら技術が導入される可能性もあるんかなと。

演出家さんが、口パクタイミング抽出用の専用3DCGモデルデータ+3DCGソフト+プラグインを使ってタイミングを抽出するけれど。しかしソレを、「目視」と「手書き」で、タイムシートにわざわざ書き写す。そのタイムシートを受け取った撮影さんが、「目視」でシートを読みながらタイミングを合わせる、という光景になるのだろうか。なんじゃそりゃ。まさかね。そんなバカな。

タイムシートの共通デジタルフォーマットが存在してないので、何かツールを作っても狭い範囲でしか使われない、という状況がありそうな気もしてきたり。例えば、MMD界隈で誰かが趣味でゴイスなツールを作っても、その技術はアニメ業界に持っていけない。なぜなら、持っていくための共通・汎用フォーマットが無いから。

画像フォーマットも、動画フォーマットも、そこそこ普及したフォーマットはあるけれど。その中間に位置するフォーマットが普及してないことで、制作作業をしてる方々が不便な目に合ってるのかなあ、と思えてきたりもして。まあ、エンドユーザには関係ない話だし、制作作業をしている方々が不便を不便と思ってない節もあるので、どうでもいいことなのかも。

*1: タイムシートという呼び方でいいのだろうか。タイミングシート? いや、ググった感じでは、タイムシートでいいのかな。
*2: しかも1万円未満で買える。

以上です。

過去ログ表示

Prev - 2015/05 - Next
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

カテゴリで表示

検索機能は Namazu for hns で提供されています。(詳細指定/ヘルプ


注意: 現在使用の日記自動生成システムは Version 2.19.6 です。
公開されている日記自動生成システムは Version 2.19.5 です。

Powered by hns-2.19.6, HyperNikkiSystem Project