以下の内容はhttps://gigazine.net/news/20220831-stable-diffusion-process-performance/より取得しました。



2022年8月に一般公開された画像生成AI「Stable Diffusion」は、まるで人間のアーティストが描いたような高クオリティの画像を生成できると話題を呼んだ一方で、「アーティストの権利を侵害している」「ポルノや政治に関するフェイク画像を生成できてしまう」といったことが問題視され、SNSやオンライン掲示板などで物議を醸しています。そんなStable Diffusionが画像を生成する仕組みやパフォーマンスについて、データサイエンティストのNir Barazida氏が解説しています。

Stable Diffusion: Best Open Source Version of DALL·E 2 | by Nir Barazida | Aug, 2022 | Towards Data Science
https://towardsdatascience.com/stable-diffusion-best-open-source-version-of-dall-e-2-ebcdf1cb64bc

Stable Diffusionはロンドンとカリフォルニアを拠点とするスタートアップ・Stability AIや大学の研究者らが共同開発した画像生成AIで、「美しさ」を重視したデータセットであるLAION Aestheticsで訓練されています。「入力したテキストを基に画像を生成する」という技術自体は以前から存在していましたが、Brazida氏は生成する画像の精度においてStable Diffusionは革新的であり、オープンソースプロジェクトである点も驚きに値すると述べています。

Brazida氏によると、Stable Diffusionに使われているモデルは、OpenAIが開発した画像生成AI「DALL・E2」でも使われているlatent diffusion model(潜在拡散モデル)というものだとのこと。基本的な拡散モデルは、トレーニングデータが純粋なノイズになるまでガウスノイズを追加して破損させ、このプロセスを逆転させてノイズ除去を行い、画像を復元するようにトレーニングされています。学習後のAIは逆破損プロセスを実行することで純粋なノイズからデータを生成でき、そこに条件を付与することで任意の画像を生成できるという仕組みです。

以下が、拡散モデルによるデータの破損プロセス(右向きの矢印)と、復元プロセス(左向きの矢印)を示したもの。


基本的な拡散モデルでは大量のプロセスを繰り返してノイズ軽減を行う必要があるため、膨大な計算リソースが必要となります。しかし、Stable Diffusionで用いられている潜在拡散モデルでは計算リソースを圧縮するため、実際のピクセル空間を使用する代わりに、より低い次元の潜在空間(latent space)を適用しているとのこと。

Stable Diffusionのアーキテクチャは、「ランダムノイズをより低い次元の潜在空間に縮小し、処理後に元の次元の潜在空間に変換するオートエンコーダー」「ノイズを除去するU-Netブロック」「入力された文章を処理するテキストエンコーダー」という3つの主要コンポーネントで構成されています。この仕組みにより、Stable Diffusionは比較的軽量な10GB VRAMを搭載したGPU上で実行可能だとBrazida氏は説明しています。


一般的に、画像生成AIによって生成された画像の品質比較にはフレシェ開始距離(FID)という尺度が用いられますが、Stable Diffusionは他のAIとの比較を可能にするベンチマークスコアを公表していません。そこでBrazida氏は「テキストを基に画像を生成する」という仕組みを利用し、「同じ文章を複数のモデルで入力して精度を比較する」というテストを行いました。

実際にBrazida氏が「Boston Terrier with a mermaid tail, at the bottom of the ocean, dramatic, digital art.(人魚の尻尾を持つボストン・テリアが海の底にいる、ドラマチックなデジタルアート)」という文章を、Stable Diffusion(左)とDALL・E2(右)で比較したものが以下。Stable Diffusionは確かにボストン・テリアだとわかる犬を描いているものの、人魚の尻尾を持っているのではなく魚の上に乗っている画像になっています。一方、DALL・E2はかなり文章に忠実な画像を生成しているのがわかります。


また、「A Boston Terrier jedi holding a dark green lightsaber, photorealistic(深緑色のライトセーバーを持ったボストン・テリアのジェダイ、フォトリアリスティック)」という文章で生成されたものがこれ。DALL・E2の方はライトセーバーを持っている様子がはっきり確認でき、文章をしっかり反映した画像となっています。


しかし、Brazida氏は非オープンソースのDALL・E2だけではなく、Stable Diffusionと同じオープンソースのCraiyonという画像生成AIとも比較しています。「Nerdy boston terrier with glasses behind computer writing code anime style(コンピュータの後ろでメガネをかけたボストン・テリアがコードを書いている、アニメスタイルで)」という文章を入力した結果が以下。Stable Diffusion(左)はCraiyon(右)と比較してかなり高精度な画像を生成しているのが見て取れます。


Brazida氏は、Stable Diffusionが確かに優れた画像生成AIであると認めつつも、登場してから短期間で多くの議論を引き起こした存在であることも指摘。「Stable DiffusionはDALL・E2とは違い、生成できるコンテンツにほとんど制約がありません。リリースされた時にユーザーはその限界をテストし、名前に基づいた人々の画像、ポルノ画像、素材の使用に同意しなかったアーティストの作品に疑わしいほど類似した画像などを作成しました」「Stable Diffusionは、以前のテキストから画像を生成するオープンソースモデルと比較して、すべての面で大きく改善されており、最先端の結果をもたらしました。この領域で将来何が起きるのかを知る日が待ち遠しいですが、それが示唆するものには懸念を拭えません」と述べました。

まるで人間のアーティストが描いたような画像を生成するAIが「アーティストの権利を侵害している」と批判される - GIGAZINE




以上の内容はhttps://gigazine.net/news/20220831-stable-diffusion-process-performance/より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14