2023/04/14(金) [n年前の日記]
#1 [cg_tools] img2imgをまだ試用中
画像生成AI、Stable Diffusion web UI の img2img を試用中。
実際に触ってみてなんとなく分かってきたアレコレと言うか、雑感をメモ。
実際に触ってみてなんとなく分かってきたアレコレと言うか、雑感をメモ。
◎ CG画像を元画像にするとよろしくないのかもしれない :
とある3DCGゲームのキャプチャ画像を元画像にして実験していたけれど、生成画像内の人間の顔の種類が全く変化しなくて、これは妙だなと。
ふと気付いた。CG画像内の人体モデルの顔パーツのバランスが現実の人間から離れてしまっていて、人間の顔として認識されていないのでは?
試しに元画像をレタッチして、頭の長さを少し短めにしてみたら、生成される顔つきにバリエーションが出てきた。なるほど、そういう罠もあるのか…。現実の人間を映した写真と、モデラーさんの好みの形状にデザインされたCG人間の画像では、画像生成AIの認識具合が違ってくることもあるのだなと。
もっとも、現実の人間だって色んな顔があるわけで、そうなると、AIに認識されやすい人、されにくい人の両方が実在してそうな気もしてくる。おそらく、パーツの配置が平均値に近い顔は認識されやすくて、そこから離れた顔は、AIが、「コレ、人間の顔じゃないでしょ? え? 人間なの? 嘘だろ。俺の学習データからするとそんなわけないんだけど」と失礼なジャッジを…。
ふと気付いた。CG画像内の人体モデルの顔パーツのバランスが現実の人間から離れてしまっていて、人間の顔として認識されていないのでは?
試しに元画像をレタッチして、頭の長さを少し短めにしてみたら、生成される顔つきにバリエーションが出てきた。なるほど、そういう罠もあるのか…。現実の人間を映した写真と、モデラーさんの好みの形状にデザインされたCG人間の画像では、画像生成AIの認識具合が違ってくることもあるのだなと。
もっとも、現実の人間だって色んな顔があるわけで、そうなると、AIに認識されやすい人、されにくい人の両方が実在してそうな気もしてくる。おそらく、パーツの配置が平均値に近い顔は認識されやすくて、そこから離れた顔は、AIが、「コレ、人間の顔じゃないでしょ? え? 人間なの? 嘘だろ。俺の学習データからするとそんなわけないんだけど」と失礼なジャッジを…。
◎ 画像を回転させると良い結果が得られる場合もありそう :
人がのけぞった感じの元画像を渡して処理させたら、生成画像内の顔がとんでもないことになった。これもまた、顔として認識されてない気がする…。
試しに、元画像を、左や右に90度回転させて渡してみたら、それっぽい顔を生成してくれた。その代わり、体のほうはぐちゃぐちゃになったけど。
考えてみたら、自分達が人間の写真を撮る際、大体は目が上にあって口が下にある状態の写真を撮るわけで。当然、学習モデルデータも、そういう写真で学習しているわな…。
であれば、img2imgに、元画像を90/180/270度回転させてから処理をして、生成画像は元の角度に戻す、といった機能があると随分違った結果を出してくれるようになるのかもしれない。実はそういう機能があったりしないのだろうか。
試しに、元画像を、左や右に90度回転させて渡してみたら、それっぽい顔を生成してくれた。その代わり、体のほうはぐちゃぐちゃになったけど。
考えてみたら、自分達が人間の写真を撮る際、大体は目が上にあって口が下にある状態の写真を撮るわけで。当然、学習モデルデータも、そういう写真で学習しているわな…。
であれば、img2imgに、元画像を90/180/270度回転させてから処理をして、生成画像は元の角度に戻す、といった機能があると随分違った結果を出してくれるようになるのかもしれない。実はそういう機能があったりしないのだろうか。
◎ img2imgと雑コラ職人スキル :
ここからは雑感。思考メモ。
img2img を使ってると、生成画像に対して、もうちょっとどうにかならないかと思えてくる場面が結構あって。こっちの画像のこの部分と、そっちの画像のこの部分が一緒に入ってたら理想の画像になるのだけどなあ、どうにかならんかなあ、みたいな。
そこで、img2img だけで全てを解決しようとするのは面倒臭いから GIMP で合成してしまおうかと思いついてしまった。
しかし、GIMP を立ち上げて、画像を読み込んで、レイヤーを重ねて、ちょこちょこと修正しているうちに、修正/レタッチ作業で延々時間を費やしてしまって、アレアレ? 自分は一体何をやっているのだろう? という気分に…。
画像生成AIを触ると、最終的には、雑コラ職人スキルを磨きたくなってくるなと…。いやまあ、理想の画像が欲しいなら、不満を持った部分を、自分の手を動かして修正しちゃうのが早いので、おかしいことではないのだろうけど。
最終的な編集は既存の画像編集ソフトで行うとして、画像生成AIは素材画像を大量生成するのに向いているツールなのだと捉えてしまえば楽かもしれないなと。お前に多くは望まない。素材さえ作ってくれれば後はこっちでどうにかしてやんよ。みたいな。
img2img を使ってると、生成画像に対して、もうちょっとどうにかならないかと思えてくる場面が結構あって。こっちの画像のこの部分と、そっちの画像のこの部分が一緒に入ってたら理想の画像になるのだけどなあ、どうにかならんかなあ、みたいな。
そこで、img2img だけで全てを解決しようとするのは面倒臭いから GIMP で合成してしまおうかと思いついてしまった。
しかし、GIMP を立ち上げて、画像を読み込んで、レイヤーを重ねて、ちょこちょこと修正しているうちに、修正/レタッチ作業で延々時間を費やしてしまって、アレアレ? 自分は一体何をやっているのだろう? という気分に…。
画像生成AIを触ると、最終的には、雑コラ職人スキルを磨きたくなってくるなと…。いやまあ、理想の画像が欲しいなら、不満を持った部分を、自分の手を動かして修正しちゃうのが早いので、おかしいことではないのだろうけど。
最終的な編集は既存の画像編集ソフトで行うとして、画像生成AIは素材画像を大量生成するのに向いているツールなのだと捉えてしまえば楽かもしれないなと。お前に多くは望まない。素材さえ作ってくれれば後はこっちでどうにかしてやんよ。みたいな。
◎ 法律がブレーキをかけてきそう :
画像生成AIを、素材画像生成ツールとして捉えた場合、権利関係をクリアにするのが大変そう…。今後、ライセンス面で完全に問題無いことが保証された学習データに価値が出てきそうな気もする。でも、どこかで何かがひっそり混ざってしまいそうでもあるな…。
昔は問題無かった学習データが、法律改変で問題のあるデータに変わってしまうこともあり得るだろうなと。例えば、かつては人の顔に権利なんて認められなかったけど、今は肖像権云々が言われてしまうわけで。未成年の裸体も同様か。昔は問題視されてなかったし。
法律でブレーキをかける国より、ブレーキをかけない国のほうが技術が発達して、前者は世界から取り残されていくんだろうなあ…。
例えば昔の日本では、法的に、コンピュータ同士を電話回線で接続することが電電公社以外許されてなくて、それでインターネット関連技術の発展が欧米より遅れたという話も…。モデムを使って接続するだけで研究者が犯罪者扱いになる国では、そりゃ後れを取りますわ。まあ、さすがに今は法改正されたけど。そもそも電電公社無くなったし。
ただ、そんな感じで、ブレーキをかけてる法律がまだまだありそうだなと。そういえば著作権関係もそうか。保護期間が長引いたことで研究用データの入手と活用が更に難しくなった面もあるのだろうな…。
昔は問題無かった学習データが、法律改変で問題のあるデータに変わってしまうこともあり得るだろうなと。例えば、かつては人の顔に権利なんて認められなかったけど、今は肖像権云々が言われてしまうわけで。未成年の裸体も同様か。昔は問題視されてなかったし。
法律でブレーキをかける国より、ブレーキをかけない国のほうが技術が発達して、前者は世界から取り残されていくんだろうなあ…。
例えば昔の日本では、法的に、コンピュータ同士を電話回線で接続することが電電公社以外許されてなくて、それでインターネット関連技術の発展が欧米より遅れたという話も…。モデムを使って接続するだけで研究者が犯罪者扱いになる国では、そりゃ後れを取りますわ。まあ、さすがに今は法改正されたけど。そもそも電電公社無くなったし。
ただ、そんな感じで、ブレーキをかけてる法律がまだまだありそうだなと。そういえば著作権関係もそうか。保護期間が長引いたことで研究用データの入手と活用が更に難しくなった面もあるのだろうな…。
◎ 画像生成AIは写真に似ている :
以前、ネット上のどこかで、「画像生成AIは写真の発明に似ている」といった感想を述べてる記事を見かけて、「それは全然違うだろ」的感想が山ほどついてた、そんな場面を目にした記憶があるのだけど。
実際に触ってみると、たしかに写真と似ている部分があるなと自分も感じてしまった。
昔、何かのTV番組で目にしたけれど。例えば雑誌の表紙になるような、女優さんや女性アイドルの写真を撮影する時は…。一眼レフデジカメを連射モードにして、女優さんが髪をかき上げるほんの一瞬をマシンガンのように撮影して、すぐさま写真群をPCにワイヤレスで転送して、PCのディスプレイに映った何十枚〜何百枚の写真の中から、たった一枚を選ぶ、ということをしていたわけで。
画像生成AIも、触っているうちに、大体似た感じになってくるなと。とりあえずお試しで、何十枚〜何百枚も画像を生成させてみて、その中から良さそうな数枚を選ぶのが当たり前。そんな感覚に変わってくる。
これがもし、自分の手を動かして絵を描くソレだったら、「とりあえず」で何十枚も描いてみて、その中から一枚を選ぶ、なんてことは、ほぼ無理。一枚描くのに数時間〜数日かかるから…。 *1 いやまあ、ラフ絵でいいなら何枚でも描けるけど。あるいは絵描きさんを何人も呼んでくれば並列で生産(?)できるけど。
一枚の画を生成するのにかかる時間が短くなると、扱いというか、接する時の感覚が、写真に近づいていくなと…。
もっとも、写真にも、フィルムカメラ/銀塩カメラとデジカメの違いがあるわけだけど。フィルムは現像しないと何が撮れているのか分らないし、フィルム代もかかるので、撮った画が理想と離れていても諦めるしかないけれど。ビデオカメラやデジカメの登場で、撮ったその場で何が映ってるのか確認できるようになって、画の取捨選択がしやすくなったところはあるなと。
それはともかく。同じカメラを使っても、素人の撮った写真と、プロカメラマンの撮った写真で全然違うわけだけど、そのあたりも現状の画像生成AIは似ている気がする。プロンプトエンジニアリングに精通している人ならイイ感じの画像を召喚というか錬成できるけど、何も知らない人が使うと酷い画像しか出てこない。道具が同じでも、使う人の知識量によって得られる結果が違ってくる。
でもまあ、それは、手描きの絵も同じか…。Photoshopを使ったら誰でも奇麗なイラストが描けるわけでもないし…。
ただ、写真の場合、素人も偶然イイ感じの写真が撮れてしまう時があって、画像生成AIもそのあたりは似ているのかも。たまたま、疑似乱数という、サイコロの出した目によって、イイ感じの画像が出てくる時もあるわけで。これが手描きの絵だと、そうはならない。素人も偶然ゴイスな絵が描けちゃいました、なんてことはほぼ100%ありえない。そう考えると、やはり画像生成AIは、写真と似ているところがありそうだなと。
実際に触ってみると、たしかに写真と似ている部分があるなと自分も感じてしまった。
昔、何かのTV番組で目にしたけれど。例えば雑誌の表紙になるような、女優さんや女性アイドルの写真を撮影する時は…。一眼レフデジカメを連射モードにして、女優さんが髪をかき上げるほんの一瞬をマシンガンのように撮影して、すぐさま写真群をPCにワイヤレスで転送して、PCのディスプレイに映った何十枚〜何百枚の写真の中から、たった一枚を選ぶ、ということをしていたわけで。
画像生成AIも、触っているうちに、大体似た感じになってくるなと。とりあえずお試しで、何十枚〜何百枚も画像を生成させてみて、その中から良さそうな数枚を選ぶのが当たり前。そんな感覚に変わってくる。
これがもし、自分の手を動かして絵を描くソレだったら、「とりあえず」で何十枚も描いてみて、その中から一枚を選ぶ、なんてことは、ほぼ無理。一枚描くのに数時間〜数日かかるから…。 *1 いやまあ、ラフ絵でいいなら何枚でも描けるけど。あるいは絵描きさんを何人も呼んでくれば並列で生産(?)できるけど。
一枚の画を生成するのにかかる時間が短くなると、扱いというか、接する時の感覚が、写真に近づいていくなと…。
もっとも、写真にも、フィルムカメラ/銀塩カメラとデジカメの違いがあるわけだけど。フィルムは現像しないと何が撮れているのか分らないし、フィルム代もかかるので、撮った画が理想と離れていても諦めるしかないけれど。ビデオカメラやデジカメの登場で、撮ったその場で何が映ってるのか確認できるようになって、画の取捨選択がしやすくなったところはあるなと。
それはともかく。同じカメラを使っても、素人の撮った写真と、プロカメラマンの撮った写真で全然違うわけだけど、そのあたりも現状の画像生成AIは似ている気がする。プロンプトエンジニアリングに精通している人ならイイ感じの画像を召喚というか錬成できるけど、何も知らない人が使うと酷い画像しか出てこない。道具が同じでも、使う人の知識量によって得られる結果が違ってくる。
でもまあ、それは、手描きの絵も同じか…。Photoshopを使ったら誰でも奇麗なイラストが描けるわけでもないし…。
ただ、写真の場合、素人も偶然イイ感じの写真が撮れてしまう時があって、画像生成AIもそのあたりは似ているのかも。たまたま、疑似乱数という、サイコロの出した目によって、イイ感じの画像が出てくる時もあるわけで。これが手描きの絵だと、そうはならない。素人も偶然ゴイスな絵が描けちゃいました、なんてことはほぼ100%ありえない。そう考えると、やはり画像生成AIは、写真と似ているところがありそうだなと。
◎ お金をかけずにガチャを楽しめる :
画像生成AIを触っていて思うのは、これはガチャだなあ、と。
ハードウェアスペックさえ満たしていれば、レアカードならぬレア画像が出てくるまで、いつまでも延々とガチャを回し続けることができてしまう。しかも、課金無し。
なるほど、これは皆さんハマるわけだなと。ゲームで課金してガチャを回すより、こっちを回したほうが楽しい。お金もかからんし…。いやまあ、ハードウェア購入の初期投資と、電気代はかかっているけど。でも、ソレはゲームも同じか。
まあ、ゲットしたレア画像を公開できないのはアレだけど。学習データの権利関係で色々ありそうだし。もっとも、ゲットしたソレを公開できない点は、ゲームの類も同じだろうか。
ハードウェアスペックさえ満たしていれば、レアカードならぬレア画像が出てくるまで、いつまでも延々とガチャを回し続けることができてしまう。しかも、課金無し。
なるほど、これは皆さんハマるわけだなと。ゲームで課金してガチャを回すより、こっちを回したほうが楽しい。お金もかからんし…。いやまあ、ハードウェア購入の初期投資と、電気代はかかっているけど。でも、ソレはゲームも同じか。
まあ、ゲットしたレア画像を公開できないのはアレだけど。学習データの権利関係で色々ありそうだし。もっとも、ゲットしたソレを公開できない点は、ゲームの類も同じだろうか。
*1: もっとも、描いてる最中、Ctrl+Zは何度も押すし、レイヤーの透明度だの色調整だのの各種数値はチビチビ調整しまくるので、手描きで画像を作成する過程には、理想の画に近づけるための調整作業がまるっと含まれているわけで。故に、かかる時間だけを見て単純に比較するのは乱暴な気もする。
[ ツッコむ ]
以上です。