https://pydocument.hatenablog.com/entry/2023/09/28/000601

pix2pixは、画像から画像への変換を行うための深層学習モデルです。条件付きGAN (Conditional GAN) をベースとしており、ある画像を入力として、別の画像を出力します。例えば、白黒写真のカラー化、地図画像から航空写真の生成、スケッチからの写真のような画像の生成などに利用できます。ここでは、pix2pixの概要とPython PyTorchによる実装について説明していきます。

GAN (Generative Adversarial Network) とは

GANは、2つのニューラルネットワーク、生成器 (Generator) と識別器 (Discriminator) を競合させることで学習を行う生成モデルです。生成器は本物に近いデータを生成しようとし、識別器は生成されたデータと本物のデータを見分けようとします。この競争を通じて、生成器はより本物に近いデータを生成できるようになります。

pix2pix の仕組み

pix2pixは、条件付きGAN (cGAN) の一種です。cGANは、生成器に入力画像（条件）を与え、その条件に対応する出力画像を生成するよう学習します。

pix2pix の構成要素

pix2pixは、主に以下の2つのネットワークから構成されます。

生成器 (Generator): 入力画像を受け取り、出力画像を生成します。一般的に、U-Netと呼ばれる構造が用いられます。U-Netは、エンコーダで入力画像の特徴を抽出し、デコーダで出力画像を生成する際に、エンコーダの各層の特徴も利用することで、高精度な画像変換を実現します。
識別器 (Discriminator): 入力画像と生成器が生成した画像のペア、または入力画像と本物の出力画像のペアを受け取り、それが本物のペアか生成されたペアかを識別します。識別器は、生成器の出力が本物の画像にどれだけ近いかを評価し、生成器の学習を助けます。

pix2pix の学習プロセス

pix2pixの学習は、以下の手順で進みます。

データの準備: 入力画像と、それに対応する出力画像のペアを大量に用意します。
生成器の学習: 生成器は、入力画像から出力画像を生成します。最初はランダムな画像を生成しますが、徐々に出力画像に近づくように学習します。
識別器の学習: 識別器は、生成器が生成した画像と本物の画像を区別できるように学習します。
生成器と識別器の交互学習: 生成器は識別器を騙せるように、識別器は生成画像を見抜けるように、交互に学習を繰り返します。

このプロセスを繰り返すことで、生成器は入力画像から高品質な出力画像を生成できるようになります。

pix2pix の応用例

pix2pixは、以下のような多様なタスクに応用できます。

入力画像	出力画像	応用例
セグメンテーションマップ (物体の境界線)	写真	自動運転のためのシーン理解、景観デザイン
白黒写真	カラー写真	古い写真の復元、画像編集
地図	航空写真	都市計画、環境モニタリング
スケッチ	写真	デザイン支援、イラスト作成
輪郭線	製品画像	工業デザイン、製品カタログ作成
低解像度画像	高解像度画像	画像の超解像、監視カメラ画像の鮮明化

pix2pix の Python (PyTorch) による実装例

ここでは、PyTorchを用いたpix2pixの実装例を段階的に示します。

1. 環境準備

まず、必要なライブラリをインポートします。

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
from torchvision import transforms, datasets
import matplotlib.pyplot as plt #結果の表示で使用します。

2. データセットの準備

pix2pixでは、入力画像と出力画像のペアのデータセットが必要です。適切なデータセットクラスを定義します。

# 例: Facadesデータセット用のクラス (簡略版)
class FacadesDataset(Dataset):
    def __init__(self, root_dir, transform=None):
        # データセットの読み込みと前処理を記述
        self.root_dir = root_dir
        self.transform = transform
        # ここではサンプルとして、transformsを使って画像のリサイズとテンソル化を行います。
        self.transform = transforms.Compose([
            transforms.Resize((256, 512)),  # 入力画像と出力画像を同じサイズにする
            transforms.ToTensor(),
            transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # [-1, 1] に正規化
        ])
        self.image_paths = datasets.ImageFolder(root_dir).imgs


    def __len__(self):
        return len(self.image_paths)

    def __getitem__(self, idx):
        img_path, label = self.image_paths[idx]
        image = datasets.folder.default_loader(img_path)

        # 入力画像とターゲット画像を分割
        width = image.width // 2
        input_image = image.crop((0, 0, width, image.height))
        target_image = image.crop((width, 0, image.width, image.height))

        if self.transform:
            input_image = self.transform(input_image)
            target_image = self.transform(target_image)

        return input_image, target_image

3. モデルの定義 (Generator, Discriminator)

U-Netベースの生成器と、PatchGANベースの識別器を定義します。

# U-Net Generator (簡略版)
class UNetGenerator(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        # エンコーダ (ダウンサンプリング)
        self.enc1 = self.conv_block(in_channels, 64, normalize=False)
        self.enc2 = self.conv_block(64, 128)
        # ... 他のエンコーダ層 ...
        # デコーダ (アップサンプリング)
        self.dec1 = self.upconv_block(512, 512)
        self.dec2 = self.upconv_block(1024, 512)
        # ... 他のデコーダ層 ...

        self.final = nn.Sequential(
            nn.Upsample(scale_factor=2),
            nn.Conv2d(128, out_channels, kernel_size=3, padding=1),
            nn.Tanh()  # [-1, 1] の範囲の出力
        )
    # エンコーダの畳み込み
    def conv_block(self, in_channels, out_channels, normalize=True):
        layers = [nn.Conv2d(in_channels, out_channels, kernel_size=4, stride=2, padding=1)]
        if normalize:
            layers.append(nn.BatchNorm2d(out_channels))
        layers.append(nn.LeakyReLU(0.2))
        return nn.Sequential(*layers)
    # デコーダの逆畳み込み
    def upconv_block(self, in_channels, out_channels):
         return nn.Sequential(
            nn.ConvTranspose2d(in_channels, out_channels, kernel_size=4, stride=2, padding=1),
            nn.BatchNorm2d(out_channels),
            nn.ReLU()
        )

    def forward(self, x):
      #U-Netのフォワードパスを記述(エンコーダ→デコーダ, スキップ接続)
      # ...
        return x
# PatchGAN Discriminator (簡略版)
class PatchGANDiscriminator(nn.Module):
    def __init__(self, in_channels):
        super().__init__()
        self.model = nn.Sequential(
            nn.Conv2d(in_channels * 2, 64, kernel_size=4, stride=2, padding=1),  # 入力とターゲットを結合
            nn.LeakyReLU(0.2),
            # ... 他の畳み込み層 ...
            nn.Conv2d(512, 1, kernel_size=4, stride=1, padding=1)  # 1つの値を出力 (真偽)
        )

    def forward(self, input_image, target_image):
        # 入力画像とターゲット画像をチャネル方向に結合
        x = torch.cat((input_image, target_image), dim=1)
        return self.model(x)

4. 損失関数と最適化アルゴリズム

pix2pixでは、生成器はGAN LossとL1 Lossの組み合わせ、識別器はGAN Lossを使用します。

# 損失関数
criterion_GAN = nn.BCEWithLogitsLoss() # 識別器用
criterion_L1 = nn.L1Loss() # 生成器用 (ピクセルレベルの差)

# 最適化アルゴリズム
generator_optimizer = optim.Adam(generator.parameters(), lr=0.0002, betas=(0.5, 0.999))
discriminator_optimizer = optim.Adam(discriminator.parameters(), lr=0.0002, betas=(0.5, 0.999))

5. 学習ループ

学習ループでは、生成器と識別器を交互に更新します。

# 学習ループ (主要部分のみ)
num_epochs = 200
for epoch in range(num_epochs):
    for i, (input_images, target_images) in enumerate(dataloader):
        # 識別器の学習
        discriminator_optimizer.zero_grad()
        # 識別器の損失を計算
        real_preds = discriminator(input_images, target_images)
        real_loss = criterion_GAN(real_preds, torch.ones_like(real_preds))

        fake_images = generator(input_images)
        fake_preds = discriminator(input_images, fake_images.detach())  # 生成器の勾配は計算しない
        fake_loss = criterion_GAN(fake_preds, torch.zeros_like(fake_preds))
        discriminator_loss = (real_loss + fake_loss) / 2
        # 識別器のパラメータ更新
        discriminator_loss.backward()
        discriminator_optimizer.step()
         # 生成器の学習
        generator_optimizer.zero_grad()
         # 生成器の損失を計算
        fake_preds = discriminator(input_images, fake_images)
        gan_loss = criterion_GAN(fake_preds, torch.ones_like(fake_preds))
        l1_loss = criterion_L1(fake_images, target_images)
        generator_loss = gan_loss + 100 * l1_loss  # L1 Lossの重みを大きくする
        # 生成器のパラメータ更新
        generator_loss.backward()
        generator_optimizer.step()
    # 結果の表示(簡略)
    if (epoch + 1) % 10 == 0:
      with torch.no_grad():
          fake_images = generator(input_images)
          # 入力画像、生成画像、正解画像を並べて表示
          combined_image = torch.cat((input_images, fake_images, target_images), dim=3)
          plt.imshow(0.5 * combined_image[0].permute(1, 2, 0).cpu().numpy() + 0.5)
          plt.show()

6. より高度な実装に向けて

上記は基本的な実装例です。より高度な実装を行うには、以下のような点を考慮します。

データ拡張: 回転、反転、クロップなどを行い、データセットの多様性を高めます。
ハイパーパラメータ調整: 学習率、バッチサイズ、L1損失の重みなどを調整し、最適な設定を見つけます。
学習の安定化: 学習率スケジューラ、重み初期化、勾配クリッピングなどを導入します。
評価指標: 生成画像の品質を定量的に評価するため、FID (Frechet Inception Distance) などの指標を用います。

まとめ

pix2pixは、多様な画像変換タスクに適用可能なモデルです。その汎用性と性能から、コンピュータビジョン分野で広く活用されています。この記事では、pix2pixの基本的な仕組み、応用例、Python (PyTorch) での実装例について解説しました。より高度な画像変換を実現するためには、データセットの準備、モデルの設計、学習方法の工夫が重要となります。

最後にPython、機械学習の学習に利用できるUdemy のサイトを紹介します。ぜひ活用ください。

[PR]

click.linksynergy.com