画像生成AI「Stable Diffusion Demo」を試してみた

今年（2022年）の7月から8月にかけて、画像描画AI「Midjourney（ミッドジャーニー）」のオープンベータ版や「Stable Diffusion（ステーブル・ディフュージョン）」が公開されると、インターネット上でたちまち大きな話題になりました。今ではSNSやWebサイトなどで、これらの画像生成サービスを利用して作成した画像がたくさん投稿されています。
一言で画像生成サービスといっても、パソコンで高品質な画像を作成できるものから、スマホ上で手軽に画像を作成できるものまで、さまざまなサービスがあります。また、写真のような描画が得意だったり、アニメ調の描画が得意だったりと、特定の画風に特化したサービスも登場しています。

今回は、画像描画AI「Stable Diffusion」をWebブラウザー上で簡単に試せる「Stable Diffusion Demo」を使って、富士山の画像を作成してみました。

▼Stable Diffusion Demo
https://huggingface.co/spaces/stabilityai/stable-diffusion

「Stable Diffusion Demo」とは？

「Stable Diffusion Demo」で使用している「Stable Diffusion」は、イギリスの企業「Stability AI」が公開している画像描画AIです。同じく有名どころの画像描画AIには「Midjourney」がありますが、「Stable Diffusion」はオープンソースであり、無料で何枚でも画像を作成できるというのが大きな特徴です。そのため、後発の画像生成サービスには、「Stable Diffusion」をベースにして作られているものもあります。

画像を作成するには、入力欄にテキストで画像の内容を指定し、「Generate image」ボタンをクリックします。そのまま数秒待つと、画像が自動で4種類生成されます。今回試した際はどの画像も10秒弱で表示されました。テキストは英語で入力する必要がありますが、「富士山」のような一部のポピュラーな日本語は認識されるようです。

実際に「Stable Diffusion Demo」を使ってみる

まずは英語で「Mt. Fuji（富士山）」とだけ入力して画像を生成しました。

Stable Diffusion Demoの生成例1 — Mt.Fuji （富士山）

現在（11月）の季節が秋のためか、紅葉とセットになっている画像が2枚生成されました。
よく見るとやや画像を切り貼りしたようなものもありますが、ぱっと見ただけではリアルな富士山の写真そのものではないでしょうか。

続いて、「winter（冬）」、「sunny（晴れ）」といったキーワードを追加して生成します。

Stable Diffusion Demoの生成例2 — Mt.Fuji winter sunny（富士山、冬、晴れ）

先ほどの画像と比べると、冬らしい景色になっています。
ただし、右下の画像ではなぜか人物や満開の桜の木が追加されました。
人は冬服（ダウンジャケット？）を着ているので冬の要素があるのは分かりますが、桜が咲くのはちょっと早いように思います。

画質のキーワードで雰囲気を変えてみる

ここで、画像を大きく変えることができる、あるキーワードを追加します。
下の画像は、先のキーワードに続けて「photorealistic（写実的な）」というキーワードを入れて生成したものです。

Stable Diffusion Demoの生成例3 — Mt.Fuji winter sunny photorealistic（富士山、冬、晴れ、写実的な）

これまでとは打って変わり、同じリアルな画像でも、CGのような画質の画像が生成されました。
このように、画質や画風、絵の種類をキーワードとして追加すると、生成される画像が大きく変化します。
画風や絵の種類のキーワードには、主に次のようなものがあります。

キーワードと意味の例

画質のキーワード	意味
high quality	高いクオリティで
photorealistic	写実的な
4k	4k画質で
Unreal Engine	非現実的に

画風のキーワード	意味
ukiyo-e	浮世絵
cartoon	漫画風
anime	アニメ風
Vincent van Gogh	ゴッホ風
Pablo Picasso	ピカソ風
Claude Monet	モネ風

絵の種類のキーワード	意味
painting	絵画
watercolor painting	水彩画
acrylic painting	アクリル画
oil painting	油絵
art print	版画
pen drawing	ペン画
Japanese painting	日本画

ほかにも再現したい表現がある場合は、英語で入力すると概ね反映されるようです。
英訳が不明な場合は、翻訳サイトを利用するとすぐに調べられ、そのままコピー＆ペーストができて便利です。

より理想の画像を生成するには？

AIが生成する画像を自分が作成したい画像に近づけるには、いくつかポイントがあります。

（1）キーワードをたくさん指定する

入力するキーワードが少ないと、さまざまな傾向の画像が生成されてしまい、理想の画像がなかなか作れない可能性が高いです。キーワードとして複数入力すると、AIはその情報をもとに、キーワードに当てはまるような画像を生成します。
ただし、必ずしもキーワードの内容が含まれる画像が生成されるとは限りません。
また、特定の要素ばかり目立ってしまい、本来目立たせたい要素が影をひそめてしまう可能性があるため、何でもかんでも入れればいいわけではありません。
必要な要素、表現を表すキーワードを取捨選択して入力するのが適切なようです。

（2）文章で入力する

単にキーワードを並べただけでも問題なく生成されますが、可能であれば文章で入力すると、AIがより理解しやすくなります。人間でも、絵を描いてほしいといわれたら、単語の羅列よりも文章のほうがより正確に内容を把握できるので、そこは人間もAIも変わらないのだなと思いました。
下の画像では、「Mt.Fuji on a sunny day in winter（冬の晴れた日の富士山）」と、先ほどまでに入力したキーワードを文章で指定し直しています。

Stable Diffusion Demoの生成例4 — Mt.Fuji on a sunny day in winter（冬の晴れた日の富士山）

文章の要素はすべて画像内に取り入れられており、切り貼り感が少なく自然な画像になりました。
右上の画像に桜のような木が写っているのが気になりますが、そこはAIが判断した結果なので、文章やキーワードをもっと工夫すれば改善できそうです。AIの学習元となった画像では、桜と富士山がともに写っている写真が多いのかもしれません。

なお、生成時に入力する文章は「呪文」や「プロンプト」とも呼ばれます。
呪文の概要や作り方のコツの解説だけでなく、キーワードを選んでボタンをクリックして呪文を作成したり、画像を読み込んで当てはまる呪文を出力したりできるWebサイトもあるので、これらを参考にして試してみるのも良さそうです。

（3）複数回生成する

同じキーワードや文章を入力しても、「Generate image」ボタンを押すたびに生成される画像は変わります。そのため、画像の生成を繰り返し行うのも手段の1つです。試行錯誤を重ねることで、理想の画像を作れるだけでなく、思いがけず良い画像が作れる可能性もあります。

なお、一度生成された画像と同じ画像は、もう二度と表示されません。気に入った画像は再度生成を行う前に保存しておくことをおすすめします。

「もしも」が実現できる夢のサービス

最後に、私が今回画像を出力した中で最も気に入った画像、「Mt. Fuji on a clear winter day by Claude Monet（クロード・モネが描いた冬の晴れた日の富士山）」を紹介します。

Stable Diffusion Demoの生成例5 — Mt. Fuji on a clear winter day by Claude Monet（クロード・モネが描いた冬の晴れた日の富士山）

なかなかモネに近い画風になりました。
もしモネが日本に来て富士山を描いたら、このような絵になったのでしょうか。

現実にはモネの描いた富士山は存在せず、これはあくまで架空の画像でしかありませんが、「もしも」を手軽に試してリアルに再現できるというのは、なかなか興味深いです。
特に私は絵心がないため、このような本格的な画像をわずか数秒で生成できるというというだけでも、夢のようなサービスだと感じました。

ちなみに、もっと大きいサイズで高画質な画像を作成したい、パソコンのローカル環境で試したいという場合は、今回利用したデモ版ではなく、大元の「Stable Diffusion」の利用がおすすめです。
先述の通り、オープンソースとしてGithub上で公開されています。

▼GitHub – CompVis/stable-diffusion
https://github.com/CompVis/stable-diffusion

また、同じAIによる画像生成サービスでも、サービスによって得意分野や絵のタッチは変わります。
ほかの画像生成サービスでも生成して、それぞれの結果を比べながら、より理想の画像を追及するのも面白いのではないでしょうか。