https://touch-sp.hatenablog.com/entry/2023/04/13/123532

最終更新日：2023年4月21日

PyTorch 2.0 + xFormerの組み合わせで以前よりVRAM使用量がかなり削減されています。

github.com

結果

元動画

作成動画

prompt:「An ostrich walking in the desert, photorealistic, 4k」

PROMPT="An ostrich walking in the desert, photorealistic, 4k"\
VIDEO="input/flamingo.mp4" \
OUTDIR="results/" \

NAME="video_adapter" \
CONFIG_PATH="models/adapter_t2v_depth/model_config.yaml" \
BASE_PATH="models/base_t2v/model.ckpt" \
ADAPTER_PATH="models/adapter_t2v_depth/adapter.pth" \

python scripts/sample_text2video_adapter.py \
    --seed 123 \
    --ckpt_path $BASE_PATH \
    --adapter_ckpt $ADAPTER_PATH \
    --base $CONFIG_PATH \
    --savedir $OUTDIR/$NAME \
    --bs 1 --height 512 --width 512 \
    --frame_stride -1 \
    --unconditional_guidance_scale 15.0 \
    --ddim_steps 50 \
    --ddim_eta 1.0 \
    --prompt "$PROMPT" \
    --video $VIDEO

VRAM使用量

320x320

VRAM 7.7GB使用しました。

384x384

VRAM 8.4GB使用しました。

448x448

VRAM 8.7GB使用しました。

512x512

VRAM 9.3GB使用しました。

その他の動画作成モデル

【VideoCrafter】また新しい動画作成モデルが公開されていました。さっそく使ってみました。

結果

元動画

作成動画

VRAM使用量

320x320

384x384

448x448

512x512

関連記事

その他の動画作成モデル

Tune-A-Video

Text-to-video synthesis

Text2Video-Zero