最終更新日:2023年4月21日
PyTorch 2.0 + xFormerの組み合わせで以前よりVRAM使用量がかなり削減されています。
github.com
結果
元動画

作成動画
prompt:「An ostrich walking in the desert, photorealistic, 4k」
PROMPT="An ostrich walking in the desert, photorealistic, 4k"\
VIDEO="input/flamingo.mp4" \
OUTDIR="results/" \
NAME="video_adapter" \
CONFIG_PATH="models/adapter_t2v_depth/model_config.yaml" \
BASE_PATH="models/base_t2v/model.ckpt" \
ADAPTER_PATH="models/adapter_t2v_depth/adapter.pth" \
python scripts/sample_text2video_adapter.py \
--seed 123 \
--ckpt_path $BASE_PATH \
--adapter_ckpt $ADAPTER_PATH \
--base $CONFIG_PATH \
--savedir $OUTDIR/$NAME \
--bs 1 --height 512 --width 512 \
--frame_stride -1 \
--unconditional_guidance_scale 15.0 \
--ddim_steps 50 \
--ddim_eta 1.0 \
--prompt "$PROMPT" \
--video $VIDEOVRAM使用量
320x320
VRAM 7.7GB使用しました。
384x384
VRAM 8.4GB使用しました。
448x448
VRAM 8.7GB使用しました。
512x512
VRAM 9.3GB使用しました。