2023/06/11(日) [n年前の日記]
#1 [cg_tools] 画像生成AIでポーズ指定ができなくてハマってる
画像生成AI Stable Diffusion web UI でポーズ指定が思ったようにできなくてちょっとハマってる。txt2img 上で単語を並べて指定する方法は上手くいかなくて、ControlNet の OpenPose を使ってみたりしたけれど…。
例えば、女性が一人立っています、特に変わったポーズではありません、みたいな画像であればフツーに生成できるのだけど。人物が二人以上居て、それぞれが横方向/平面的ではなく前後に配置されていて、しかもそれぞれの四肢が前後で交差しているポーズを取らせようとすると、たちまちクリーチャーというかホラー画像が生成されてしまう…。
要するに、人物画像を生成しようとしても、「奇麗なお人形さん絵」ぐらいしか得られない…。複数の人物が映ると破綻するし、奥行きを伴う配置も破綻する…。
AIが絵描きの仕事を奪うだのなんだの言われてるけど、少なくとも現状では、AIに描けない構図、AIに描けないポーズが山ほどあるので、人間の絵描きさんがAI相手に画力で圧勝することもまだ容易な気がする。とは言うものの、今まで奇麗なお人形絵しか描いてませんでした、みたいな絵描きさんだと絵柄・スタイルを学習されてたちまちアレなことになるのかもしれんけど…。
例えば、女性が一人立っています、特に変わったポーズではありません、みたいな画像であればフツーに生成できるのだけど。人物が二人以上居て、それぞれが横方向/平面的ではなく前後に配置されていて、しかもそれぞれの四肢が前後で交差しているポーズを取らせようとすると、たちまちクリーチャーというかホラー画像が生成されてしまう…。
要するに、人物画像を生成しようとしても、「奇麗なお人形さん絵」ぐらいしか得られない…。複数の人物が映ると破綻するし、奥行きを伴う配置も破綻する…。
AIが絵描きの仕事を奪うだのなんだの言われてるけど、少なくとも現状では、AIに描けない構図、AIに描けないポーズが山ほどあるので、人間の絵描きさんがAI相手に画力で圧勝することもまだ容易な気がする。とは言うものの、今まで奇麗なお人形絵しか描いてませんでした、みたいな絵描きさんだと絵柄・スタイルを学習されてたちまちアレなことになるのかもしれんけど…。
◎ 与える画像の品質が生成結果に関係しそう :
OpenPose でポーズを指定しようとしても上手く行かなくて、別のやり方を試し始めた。実在する人物を撮影したのであろう写真、かつ、望むポーズに近い画像をGoogle画像検索で探してみて、その画像を img2img に渡して生成してみるのはどうだろうと…。
しかし、その方法で試していたところ、顔の真ん中に紙を破いたような亀裂が入ったり、腕や足が途中で千切れるような生成結果が続出して、これはどういうことだろうと悩んでしまった。
少し試しただけなので自信が無いけれど、どうやらjpeg関係のノイズが盛大に載ってる画像を元画像にすると、そういうことが起きるようだなと…。ブロックノイズだかモスキートノイズだかの並びが、たまたま偶然何かの形状をAIに連想させてしまって、そこに無いはずの物体を召喚してしまうのだろう…。
そこからふと妄想。人間の目では「ちょっと画質が悪いかな?」程度にしか見えない画像だけど、その画像をAIに学習データや参照画像として与えた途端、AIの認識がグチャグチャになってしまう、そんな画像を作ることも不可能ではないのかもしれない…。実際、単にjpeg関連ノイズが乗ってるだけなのに、生成される人の顔がこうして真っ二つに切れてしまうわけだし…。
そういう技術、というか裏技が発見/発明されたら…。絵柄/スタイルをAIに盗まれたくない絵描きさんは、特定のパターンを表面にうっすら入れる画像処理ソフトを経由させてからネットで自作の画像を発表する ―― そんな流れが当たり前になるのかもしれない。
もっとも、今現在は誰も彼もが、「どうしたらより高品質な画像を生成できるか」という方向で実験してるはずだろうし…。AIが途端におかしくなっちゃう画像の法則を探そうとしてる人なんてほとんど居ないはずなので…。AIの学習状態を汚染してしまう特定パターンを見つけ出す人なんて居ないだろうし、となると、絵描きさんが「コイツを通せば俺の絵柄を盗まれずに済むぞ」とニンマリするソフトも出てこないだろう…。このあたり、なんだかブルーオーシャンの気配がする…。
しかし、その方法で試していたところ、顔の真ん中に紙を破いたような亀裂が入ったり、腕や足が途中で千切れるような生成結果が続出して、これはどういうことだろうと悩んでしまった。
少し試しただけなので自信が無いけれど、どうやらjpeg関係のノイズが盛大に載ってる画像を元画像にすると、そういうことが起きるようだなと…。ブロックノイズだかモスキートノイズだかの並びが、たまたま偶然何かの形状をAIに連想させてしまって、そこに無いはずの物体を召喚してしまうのだろう…。
そこからふと妄想。人間の目では「ちょっと画質が悪いかな?」程度にしか見えない画像だけど、その画像をAIに学習データや参照画像として与えた途端、AIの認識がグチャグチャになってしまう、そんな画像を作ることも不可能ではないのかもしれない…。実際、単にjpeg関連ノイズが乗ってるだけなのに、生成される人の顔がこうして真っ二つに切れてしまうわけだし…。
そういう技術、というか裏技が発見/発明されたら…。絵柄/スタイルをAIに盗まれたくない絵描きさんは、特定のパターンを表面にうっすら入れる画像処理ソフトを経由させてからネットで自作の画像を発表する ―― そんな流れが当たり前になるのかもしれない。
もっとも、今現在は誰も彼もが、「どうしたらより高品質な画像を生成できるか」という方向で実験してるはずだろうし…。AIが途端におかしくなっちゃう画像の法則を探そうとしてる人なんてほとんど居ないはずなので…。AIの学習状態を汚染してしまう特定パターンを見つけ出す人なんて居ないだろうし、となると、絵描きさんが「コイツを通せば俺の絵柄を盗まれずに済むぞ」とニンマリするソフトも出てこないだろう…。このあたり、なんだかブルーオーシャンの気配がする…。
◎ jpegノイズ除去ソフトを探した :
jpegノイズが盛大に乗ってる画像を元画像として使うと、画像生成AIが妙な結果ばかり出してくることに気づいたので、jpegノイズを除去/削除するソフトを少し探した。環境はWindows10 x64 22H2。
GIMP 2.10.34 Portable のフィルターの選択的ガウスぼかしや、ノイズ軽減を使ってみたけれど、どうも今一つと言うか…。たしかにノイズは消えるのだけど、ノイズ以外の部分、フィルタをかけてほしくないところまで、ぼかし処理がかかってしまう印象で…。
_3.8. 選択的ガウスぼかし...
_4.5. Noise Reduction
色々ググっているうちに、waifu2x-caffe にもノイズ除去機能があると知ったので試用してみた。
_waifu2x-caffe の使い方 - k本的に無料ソフト・フリーソフト
たしかに、全体的にそれっぽいノイズをうっすらと除去してくれた。まあ、等倍表示では違いが分からないけど、拡大表示すれば違いが分かる感じ。
Neat Image というソフトもノイズを除去できるらしいので試用してみたけれど。
_「Neat Image」ディテールを保ちつつデジカメ画像のノイズを低減 - 窓の杜
これは、ぼかしてほしくないところまで、ガンガンぼかすっぽいなと…。もはや何が映ってるのか分からない状態になった…。
そもそも Stable Diffusion web UI でノイズ除去をする機能はないのだろうか? ググってみたけど、それらしい情報には辿り着けず。Stable Diffusion ってノイズから元画像を推測して生成する仕組みだから、「ノイズ除去」でググってみても、画像生成AIの仕組みを解説してるページばかりリストアップされてしまう…。
GIMP 2.10.34 Portable のフィルターの選択的ガウスぼかしや、ノイズ軽減を使ってみたけれど、どうも今一つと言うか…。たしかにノイズは消えるのだけど、ノイズ以外の部分、フィルタをかけてほしくないところまで、ぼかし処理がかかってしまう印象で…。
_3.8. 選択的ガウスぼかし...
_4.5. Noise Reduction
色々ググっているうちに、waifu2x-caffe にもノイズ除去機能があると知ったので試用してみた。
_waifu2x-caffe の使い方 - k本的に無料ソフト・フリーソフト
たしかに、全体的にそれっぽいノイズをうっすらと除去してくれた。まあ、等倍表示では違いが分からないけど、拡大表示すれば違いが分かる感じ。
Neat Image というソフトもノイズを除去できるらしいので試用してみたけれど。
_「Neat Image」ディテールを保ちつつデジカメ画像のノイズを低減 - 窓の杜
これは、ぼかしてほしくないところまで、ガンガンぼかすっぽいなと…。もはや何が映ってるのか分からない状態になった…。
そもそも Stable Diffusion web UI でノイズ除去をする機能はないのだろうか? ググってみたけど、それらしい情報には辿り着けず。Stable Diffusion ってノイズから元画像を推測して生成する仕組みだから、「ノイズ除去」でググってみても、画像生成AIの仕組みを解説してるページばかりリストアップされてしまう…。
[ ツッコむ ]
以上、1 日分です。