最近の生成AIブームにのっかり、定番(?)のStable Diffusionをインストールするので、その手順を2024年版としてメモ程度に残す。
インストール前の注意
あまりAI関連に詳しくないため、できるだけ簡単に環境構築できる手法を選んだ。
Windows 11とNVIDIA GeForce RTX 2070 SUPERが搭載されている環境でインストールを試した。
Stable Diffusionに触れて3日の知識量。
あくまでも参考までに。
AUTOMATIC1111の導入
Stable Diffusionを使うにあたり、AUTOMATIC1111というWeb上でのUIを使うのが主流らしい。
ありがたいことに、Windows 10以上かつRTX搭載機ではわずか2クリックでインストールできる。
- こちらのリンクからsd.webui.zipをダウンロードする
- sd.webui.zipを適当なフォルダへ展開する
- 展開したフォルダ内にあるupdate.batを実行する
- run.batを実行する
たった2つのバッチファイルを実行するだけでStable Diffusionのインストールと実行が可能になる。
しかも展開したフォルダを持ち歩けば、Stable Diffusionを持ち歩けるのとほぼ同義だ。
これで画像生成AIの世界への入口が開かれた!おめでとう!
使い方について
腐るほど解説してる人がたくさんいるので自分で調べてみよう。
拡張機能について
Stable Diffusionではブラウザの拡張機能と同じように、便利な機能を追加することができる。
拡張機能の追加の仕方は腐るほど解説してる人がたくさんいるので自分で調べてください。
ここでは自分が導入している拡張機能をズラッと並べてみる。
日本語化
stable-diffusion-webui-localization-ja_JP
英語力弱めなので日本語化プラグインを入れた。英語力強めの人は入れなくていい。
sd-webui-bilingual-localization
解説しているサイトとかを見ると英語のまま説明しているところも多いので、日本語と英語どちらも表示できるようにしている。
プロンプト補助
AI初心者なのでプロンプト補助プラグインを入れた。
未だに理解できていないので、とりあえず使いやすそうなものを2つ入れた。
今のところ競合はしていない。
a1111-sd-webui-tagcomplete
入力予測変換してくれる。単語の言い換えもサポート。
sd-webui-prompt-all-in-one
プロンプト辞典が追加される。入力したプロンプトのお気に入り登録や、プロンプトの翻訳なども可能。
痒いところに手が届く
標準のままでは機能が物足りないときに使う用。
sd-webui-controlnet
とりあえず入れとけ系プラグイン。色々できる。
特にキャラクターを維持したまま服装やポーズなどを変更できるReference機能が気に入っている。
adetailer
実際に画像を生成するとわかるが、顔や手足など体の一部が崩れがちになる。
そういう現象をマシにしてくれるらしい。効果は正直わからない。
Stable-Diffusion-WebUI-TensorRT
NVIDIA公式のStable Diffusion用拡張機能。
RTXに搭載されているTensorRTを利用して生成を高速化するらしい。
公式ではVRAM容量が12GB以上での利用が推奨されている。
RTX 2070 SUPERではVRAMが8GBしかないので効果はいまいちかも。
モデルについて
学習モデルを変更することで生成される内容が大きく変わる。
導入方法やおすすめのモデルなどは腐るほど解説してる人がたくさんいるので自分で調べてください。
ここでは自分が導入しているモデルをズラッと並べてみる。
Stable Diffusion v2-1-base
Stable Diffusion公式モデルの最新版。
インストール初期はv1-5だったが、v2-1があるならそっちを入れたかった。
v1-5とv2-1の比較はしていないが、最新にしておけば間違いないだろう。多分。
SD-XL 1.0-base
Stable Diffusion公式モデルのデラックス版。
デラックス版なので要求されるPCスペックも高くなる。
噂によるとVRAM20GBくらい喰うらしいのでVRAM容量16GB搭載GPUか、RTX 4090推奨?
ちなみに手元のRTX 2070 SUPERでは動作が不安定。生成できたりできなかったり。
この機会にRTX 4080 SUPERにアップグレードしたいね。4090は高すぎる。早くAD102チップ完全版出して。というかなんで4080 SUPERのVRAM20GBじゃないの?(早口)
LittleStepMix_A
アニメ特化のモデル。いくつかタイプがあるが、Aタイプが一番アニメに近い。
比較的安全なモデルで、生成した画像への制限が少ないらしいので使っている。
更新が半年以上前なので、そろそろバージョンアップを期待したいところ。
Counterfeit-V3.0
こちらもLittleStepMixに並んで人気のアニメ特化モデル。そこそこ厚塗りになっているのが特徴。
AI絵っぽいとよくいわれるのがこういうのかも。
このモデルで生成した画像も制限が少ないので実験的に入れているが、個人的にはLittleStepMixが好み。
最後に
とても可能性を感じる生成AI。うまくやれば動画とかもいけるらしい。
うまくやればVTuberツールとしても利用可能かも?
この機会にRTX 4080 SUPER買っちゃおうかな♪
コメント