2024/07/04(木) [n年前の日記]
#1 [neta][cg_tools] 作画崩壊カットを画像生成AIで修正できないものだろうか
一応手を動かして実験していたけど、これはほとんど妄想メモ。
ここ数日、画像生成AIツールの Stable Diffusion web UI Forge版で、顔の入れ替えができないものかと試していたのだけど。そこでふとなんとなく妄想してしまった。
コレを使ったら、深夜TVアニメでたまに見かける作画崩壊カットを修正できたりするのでは…? 顔を入れ替えるだけでも印象が違ってくるのではないか…?
もし、画像生成AIを使って修正ができるなら、かなりメリットがありそうな気がする。絵描きさんじゃなくて、直接絵を描かない業種の人でもそのカットをガンガン修正できるわけだから…。演出家さんでもいいし、撮影さんでもいいし、制作進行さんでもいい。手が空いてる人さえ居れば誰でも修正作業ができてしまうはず。
でも、本当にそんなことができるのだろうか。気になったので少し試してみた。
ここ数日、画像生成AIツールの Stable Diffusion web UI Forge版で、顔の入れ替えができないものかと試していたのだけど。そこでふとなんとなく妄想してしまった。
コレを使ったら、深夜TVアニメでたまに見かける作画崩壊カットを修正できたりするのでは…? 顔を入れ替えるだけでも印象が違ってくるのではないか…?
もし、画像生成AIを使って修正ができるなら、かなりメリットがありそうな気がする。絵描きさんじゃなくて、直接絵を描かない業種の人でもそのカットをガンガン修正できるわけだから…。演出家さんでもいいし、撮影さんでもいいし、制作進行さんでもいい。手が空いてる人さえ居れば誰でも修正作業ができてしまうはず。
でも、本当にそんなことができるのだろうか。気になったので少し試してみた。
◎ ReActorはダメだった :
まずは Stable Diffusion web UI Forge + img2img + ReActor で、アニメ絵の顔の入れ替えができるか実験。
これはダメだった。ReActor の参考画像(元画像)に、写真ではなく、「モナリザ」「真珠の耳飾りの少女」等の絵画を指定してるサンプルが多いのでイケるかなーと思ったのだけど、残念ながら書き換えられる側の画像(対象画像。ターゲット画像)に対して、顔がある部分を認識することができなかった。
顔認識に失敗した理由は不明。アニメ絵はえてして目が大き過ぎるので、人間の顔として認識できないのだろうか。それとも、作画崩壊カットは人間の顔とは思えぬ顔パーツの配置になってるということなのか…。後者だったらなんだかちょっと面白い状況かもしれない。AIにすら、「この画像の中に人間の顔は存在しないと思われます」と判断されていることになるし…。
これはダメだった。ReActor の参考画像(元画像)に、写真ではなく、「モナリザ」「真珠の耳飾りの少女」等の絵画を指定してるサンプルが多いのでイケるかなーと思ったのだけど、残念ながら書き換えられる側の画像(対象画像。ターゲット画像)に対して、顔がある部分を認識することができなかった。
顔認識に失敗した理由は不明。アニメ絵はえてして目が大き過ぎるので、人間の顔として認識できないのだろうか。それとも、作画崩壊カットは人間の顔とは思えぬ顔パーツの配置になってるということなのか…。後者だったらなんだかちょっと面白い状況かもしれない。AIにすら、「この画像の中に人間の顔は存在しないと思われます」と判断されていることになるし…。
◎ Reference onlyもダメだった :
img2img + ControlNet + Reference only も試したけれど、ダメだった。元々の作画崩壊カットより、更に作画崩壊している状態になった。見ているだけでこちらの精神が病んでしまいそう。この生成結果画像を見た後で、元々の作画崩壊カットを目にしたら、「なんだ。結構整ってるやん…全然アリやん…」と思えてしまった。そのくらい、この変換結果はヤバイ。
Reference only は、参考画像からそれほど離れていない構図じゃないと、すぐに破綻してしまうようだなと…。
Reference only は、参考画像からそれほど離れていない構図じゃないと、すぐに破綻してしまうようだなと…。
◎ OpenPoseはそこそこ良さそう :
OpenPose という、ポーズを指定するためのフォーマット画像があるのだけど、コレを使ってみたところ、そこそこイイ感じの結果が得られた。ただ、顔以外の部分も ―― 服装その他も大きく変わってしまうけど…。手作業で顔の部分だけ切り抜いて貼り付ける感じになりそう。
一応手順をメモ。元の作画崩壊カットを下絵にして、openpose-editor で、目の位置、耳の位置、鼻の位置、首の根本、肩の位置を決めて、img2img の ControlNet に送信。
_fkunn1326/openpose-editor: Openpose Editor for AUTOMATIC1111's stable-diffusion-webui
モデルデータは、animelike25D_animelike25DV11Pruned.safetensors を使用。
これで、元の作画崩壊カットと比べたら「おおー」と思える画像を生成することができた。このレベルなら作画崩壊なんてまず言われないだろう…。
実験結果画像を載せたいところだけど、著作権的にアウトだろうから見せられないのが残念…。元になった作画崩壊カット画像も一緒に出して比較しないと意味がないだろうけど、その画像を載せたら「違法。捕まるよマジで」と言われちゃうだろうし。こういうのって研究(?)のための引用の範疇として許してもらえないものだろうか…。
自分で新規に作画崩壊カットを描けばいいのかな。それもなかなか難易度高そう。新規に描くと変換しやすい画を最初から無意識に描いてしまう気がする…。それじゃダメなのだ…。人工モノではなく、天然モノの崩壊具合がそこに無いと実験にならない…。
一応手順をメモ。元の作画崩壊カットを下絵にして、openpose-editor で、目の位置、耳の位置、鼻の位置、首の根本、肩の位置を決めて、img2img の ControlNet に送信。
_fkunn1326/openpose-editor: Openpose Editor for AUTOMATIC1111's stable-diffusion-webui
モデルデータは、animelike25D_animelike25DV11Pruned.safetensors を使用。
これで、元の作画崩壊カットと比べたら「おおー」と思える画像を生成することができた。このレベルなら作画崩壊なんてまず言われないだろう…。
実験結果画像を載せたいところだけど、著作権的にアウトだろうから見せられないのが残念…。元になった作画崩壊カット画像も一緒に出して比較しないと意味がないだろうけど、その画像を載せたら「違法。捕まるよマジで」と言われちゃうだろうし。こういうのって研究(?)のための引用の範疇として許してもらえないものだろうか…。
自分で新規に作画崩壊カットを描けばいいのかな。それもなかなか難易度高そう。新規に描くと変換しやすい画を最初から無意識に描いてしまう気がする…。それじゃダメなのだ…。人工モノではなく、天然モノの崩壊具合がそこに無いと実験にならない…。
◎ 問題点 :
問題点もいくつか見えてきた。
一つは、利用する学習モデルデータによって絵柄が決まってしまう点。今回は、animelike25D という、TVアニメ風の絵柄を学習したモデルデータを利用したので、パッと見はTVアニメ風/セルルックな画像が生成されたけど、作画崩壊を起こしていた某作品の絵柄とは違うわけで…。今回生成した画像が本編内でポンと出てきたら「誰やコレ」と言われてしまうだろうなと。いやまあ、そもそも元の作画崩壊カットも「誰やコレ」なのだけど。
ただ、このあたりは LoRAと呼ばれる追加学習モデルを作ることで解決できそうな気もする。学習モデルデータを作るためには膨大な数の画像が必要になるからおいそれと作れないけれど、LoRA なら数十枚の画像で作成できるらしいし…。
もう一つは、動画には利用できないであろう点。止め絵+口パクしかしないカットなら全然使えるかもしれないけれど、横から見た図で全力疾走する女の子とか、その場でクルクルと回る女の子とか、あるいはほんのちょっと顔の向きか変わるだけのカットすら使えないだろうなと…。
更にもう一つ。色を塗ってある画像じゃないと利用できない気がする。線画だけではどこに何があるのかAIが認識できないはず。だから動画の段階で「これはマズイ。修正しよう」というわけにはいかなくて、一旦最後まで作画崩壊カットを崩壊したまま仕上げないといけないはず。それもそれで、なんだかな…。
一つは、利用する学習モデルデータによって絵柄が決まってしまう点。今回は、animelike25D という、TVアニメ風の絵柄を学習したモデルデータを利用したので、パッと見はTVアニメ風/セルルックな画像が生成されたけど、作画崩壊を起こしていた某作品の絵柄とは違うわけで…。今回生成した画像が本編内でポンと出てきたら「誰やコレ」と言われてしまうだろうなと。いやまあ、そもそも元の作画崩壊カットも「誰やコレ」なのだけど。
ただ、このあたりは LoRAと呼ばれる追加学習モデルを作ることで解決できそうな気もする。学習モデルデータを作るためには膨大な数の画像が必要になるからおいそれと作れないけれど、LoRA なら数十枚の画像で作成できるらしいし…。
もう一つは、動画には利用できないであろう点。止め絵+口パクしかしないカットなら全然使えるかもしれないけれど、横から見た図で全力疾走する女の子とか、その場でクルクルと回る女の子とか、あるいはほんのちょっと顔の向きか変わるだけのカットすら使えないだろうなと…。
更にもう一つ。色を塗ってある画像じゃないと利用できない気がする。線画だけではどこに何があるのかAIが認識できないはず。だから動画の段階で「これはマズイ。修正しよう」というわけにはいかなくて、一旦最後まで作画崩壊カットを崩壊したまま仕上げないといけないはず。それもそれで、なんだかな…。
◎ 技術があっても使われない :
少し実験してみたことで、画像生成AIを使えば作画崩壊カットをそこそこ修正できる可能性がありそうだなと思えたのだけど。こういう技術があっても実際には使えない/使われないだろうとも思えてきた。
作画崩壊カットがTVで流れるということは、現場は時間的余裕が全くなくてギリギリの状態で作ってるはずだから、修正のための時間すら1秒たりとも捻出できないだろうと…。修正するためのツールの学習や、そういう事態が起きた時のための特殊な作業フローの構築をする余裕なんて無さそう。「どうせそのうち事故を起こすからその時のために今のうちから準備しておこう」なんて言ってる余裕は無さそうだなと…。
こういった技術を利用できるように環境を整えることができるスタジオや制作現場では、上手いアニメーターさんもちゃんとゲットできているだろうし、作業時間その他もそこそこ余裕がありそうだし、であれば今までと同じやり方で修正していけば済んでしまうので、こういう技術は最初から必要とされないはず。
技術が欲しい場面では導入してる余裕がないし、導入できる余裕があるならこんな技術はそもそも要らない。だから、結局誰も使えないし、使わない。そういうオチになりそう。
作画崩壊カットがTVで流れるということは、現場は時間的余裕が全くなくてギリギリの状態で作ってるはずだから、修正のための時間すら1秒たりとも捻出できないだろうと…。修正するためのツールの学習や、そういう事態が起きた時のための特殊な作業フローの構築をする余裕なんて無さそう。「どうせそのうち事故を起こすからその時のために今のうちから準備しておこう」なんて言ってる余裕は無さそうだなと…。
こういった技術を利用できるように環境を整えることができるスタジオや制作現場では、上手いアニメーターさんもちゃんとゲットできているだろうし、作業時間その他もそこそこ余裕がありそうだし、であれば今までと同じやり方で修正していけば済んでしまうので、こういう技術は最初から必要とされないはず。
技術が欲しい場面では導入してる余裕がないし、導入できる余裕があるならこんな技術はそもそも要らない。だから、結局誰も使えないし、使わない。そういうオチになりそう。
[ ツッコむ ]
以上です。