以下の内容はhttps://cysec148.hatenablog.com/entry/2025/08/13/171836より取得しました。


第64回|VAEとは?確率分布から画像をつくる技術

Hello there, ('ω')ノ

🎯 VAEってどんな技術?

VAEとは、画像などのデータを「圧縮」し、そこから「再構築」することに特化したAIモデルです。

でも、ただの再構成ではありません。 潜在空間(latent space)に「確率的な分布」を導入することで、新しい画像を“創り出す”こともできるのがVAEの特徴です。


🔁 基本構造:オートエンコーダ+確率の要素

VAEはざっくり以下の構成です:

  1. エンコーダ(Encoder) → 入力画像を「潜在ベクトル」に圧縮(要するに特徴だけ取り出す)

  2. 潜在空間(Latent space) → 特徴を「正規分布(平均・分散)」として表現

  3. デコーダ(Decoder) → 潜在ベクトルから「元のような画像」を再構築

📌 ポイントは、固定の1点ではなく“分布”で表すことにより、そこからサンプルを生成できることです!


🧠 例えるなら…

  • オートエンコーダ:コピー機(できるだけ原本と同じ画像を再現)
  • VAE:  → コピーだけでなく、「似たような別バージョン」も作れる高度なコピー機!  → 正確に複製するよりも、「似たような雰囲気の別パターン」を出力することが得意です。

📊 確率分布を使うってどういうこと?

VAEは、潜在空間で「1つのベクトル(点)」ではなく、平均(μ)と分散(σ)で分布を表現します。

入力画像 → エンコーダ → [μ, σ] → 潜在ベクトル z をサンプリング → デコーダ → 再構成画像

つまり、VAEは:

  • 1つの画像を
  • 「こういうタイプの画像は、だいたいこの辺にあるよ」という形で
  • 潜在空間に“確率的に表現”します。

これが、新しい画像を自然に生成できる理由なんです。


🔍 VAEとGANのちがい

項目 VAE GAN
学習の安定性 安定しやすい 不安定になりがち(競争構造ゆえ)
出力画像の質 少しぼやけることがある 非常にリアル(鮮明)
学習の構造 単一のネットワーク(Encoder + Decoder) 2つのネットワーク(GとD)
応用しやすさ 潜在変数が明確で扱いやすい 潜在空間の構造が不明確

🏗 VAEの構造イメージ(シンプルな例)

# Encoder
nn.Linear(784, 400) → ReLU → 出力は μ(平均)と log(σ^2)

# 潜在変数 z のサンプリング
z = μ + σ * ε(εは標準正規分布からランダムに生成)

# Decoder
nn.Linear(z, 400) → ReLU → Linear → Sigmoid(28×28画像へ)

この「μとσからzをサンプリングする」という操作がVAE特有の部分です。


📦 VAEの応用例

分野 応用内容
手書き文字生成 MNISTデータで学習 → 新しい文字を生成
顔画像の生成 顔のバリエーションを滑らかに変化させられる
異常検知 「正常な画像しか見ていないVAE」で“違和感”を数値化
医療画像補完 欠けた部分を自然に補って補完画像を生成

🧭 まとめ:VAEは「確率の世界で創造する」安定型の生成AI

✅ 画像を「平均と分散」で圧縮し、そこから再構成するAIモデル

✅ 生成品質はGANより控えめだが、安定して学習できるのが強み

✅ 潜在空間を滑らかに移動でき、画像のバリエーションや分析に強い

✅ 応用分野も広く、「生成+理解」のハイブリッドに最適!

Best regards, (^^ゞ




以上の内容はhttps://cysec148.hatenablog.com/entry/2025/08/13/171836より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14