うねp

イレイナさん絵（そしてstable diffusionの活用をした上での長文所感）

Added 2022-10-19 19:49:53 +0000 UTC

かなり久々になってしまいましたが、生きてはいます。ここ数か月8月末くらいまで、労働関連で深層学習のE資格とかいう面倒くさい労働資格を受験する羽目になってしまい、私生活まで完全に浸食されており、何もする余裕が無い状態になっていました... 何とかその資格取得は終わったのですが、終わったときには完全に虚無で、前はどうやって私生活で遊びをしていたんだっけ？という状態で、ここ一月くらいリハビリして漸く元の感覚に戻ってきました。そんな数か月の間に、なんか深層学習の潜在拡散モデルを使った画像生成がすごい流行ってしまいましたね。ということもあり、stable diffusion が公開されたあたりから、何か活用したいなと思って描き始めたのがこのイレイナさん絵です。題材がイレイナさんなのは、深い理由があったわけではないのですが、背景を画像生成した時に上手くはまりそうだなぁ、くらいの理由です。あと、フォロワーのフォロワーの銀髪好きの人がよくイレイナさんをRTしてたから、それに影響されてじゃあイレイナさんにするかぁ...くらいのノリでやりはじめました。背景は、遠景の空や建物をstable diffusionで生成し、おかしなところなどを中心に手を加えています。空と聖堂っぽい建物部分は text to image で生成 -> image to image を何度も繰り返して調整し、奥の建物は適当に描いたラフを元に image to image を何度か繰り返して生成しています。今 NovelAI で流行ってる特殊なプロンプト芸はほとんどしていません。それ以外のパースがかかる中景の建物などは、clip studio のアセットストアで買った3Dモデルを元にしました。 AI画像生成は、ぱっと見のクオリティが既に普通の人間を越えている部分もあり、脅威と言われていますが、絵に活用しようとしたときに自分が意外と苦戦したのが解像度問題でした。 stable diffusion のモデルは、元が512*512 pixelの画像で学習されていることもあり、それ以上の解像度の画像を生成してもそもそも学習データに無い高画質画像なわけなので、ぼやけてしまったり細かく見ると粗があったりということが多いです。印刷に耐えられるサイズとして A4 350dpi を基準とすると 2894*4093 pixel 程度あるので、512*512と比べると単純に45倍程度大きいわけです。これでは、生成した画像そのままではとても使い物になりません。自分はRTX2070 super で stable diffusion を動かしましたが、 VRAMは8GBで、これでは512*512でも生成するのは結構かつかつ、小メモリに最適化されたFork版でさえ1024*512位の画像生成が限界でした（余談ですが、今メインで使っているRTX2070 super搭載のゲーミングPCは3年分割のローンで買いました。まだ毎月ローン支払いしてます...とても一括では買えないので）。Google colabで使える最も性能の高いGPUの A100でさえ、VRAMは40GB程度なため、生成できる画像は512*512の5倍程度のサイズが限界ということになります。A4 350dpiサイズには全く届いていません。単純に考えるとA100の9倍も大きなVRAMを持ったGPUが必要なわけです。学習と違い推論なので、マルチGPUによる分散処理という訳にもいかないため、単一のGPUのメモリが数倍増えるか、潜在拡散モデルを超える小メモリモデルが出てこない限り、これは解決できないのでは？とはじめに検証した時には思いました。ということで、9月上旬くらいの頃はこの解像度問題で、AI画像生成が手書き絵の本当の脅威になるのは相当（数年は）先だろうと考えていました。。。実際は、解像度問題はあまり注目されずに、キャラクター生成がすごく上手くできるという方向で話題になる流れになってしまいましたが。ただ、この解像度問題については9月下旬あたりに色々検証して、これまた深層学習による高解像度化モデルを使用するという方向である程度解決の目途が立ち、実際の絵に使えるかもという程度の解像度の画像生成結果が得られるくらいにはなりました。今回使った高解像度化モデルは、stable diffusion web UI という Fork で利用できる、Real ESRGAN というモデルです。これを2回かけて16倍くらいまで拡大し、そこからさらに clip studio で使える深層高解像度化フィルタを1回使って元の32倍まで高解像度化しました。3回 Real ESRGAN を使わなかったのは、この Real ESRGANもそこそこ GPU パワーを使うモデルというのが理由です。ただ、その分高解像度化の品質は高く、ある程度満足できる結果が得られました。とはえいえ、それでも元々の画像を32倍も大きくしている訳なので、齟齬が無いわけはなく、どうしても細かく見ると明らかにAI生成だとわかるし、建物については特に屋根などが上手く生成できておらず、変な感じに溶けるみたいな現象がよく起きており、これは結局最後まで解決出来ませんでした。この辺については、結局手描きで修正ということをしています。今の画像生成モデルは、結局2次元画像だけから学習しており、構造を理解する能力に限界があるのだろうといった印象があります。NovelAIもキャラの手の生成が苦手ですが、手も構造を理解していないと上手く描けない対象ですし、こういった複雑な構造を持つ物体の生成が今の画像生成モデルの課題なんだろうなと何となく思いました。ということで、いろいろ試したこともあり記録に残しておきたいことが多く、長文になってしまいましたが、一応 AI画像生成を絵を描くのに活用できたということで、当初の目的は達成できたかなと思います。現状のAI画像生成は、3Dモデルに加えて新しい選択肢が増えたなと捉えていますが、皆は今キャラ生成を頑張っているみたいなので、キャラ部分にも使えるいいアイディアが出てくればもっと絵描くの楽になるだろうなと期待しています。特に個人でえっちぴくちゃーが量産できたら実用的にはとても便利です。sk〇bとかの依頼で大金を出してオーダーメイドのエロ絵を絵師に描かせるみたいなことをしなくても自分の望みのえっちぴくちゃーが大量に生成できてしまいますからね。