大晦日だか正月だかにQwen-Image-2512が公開されましたが、これが「そこらへんにいそうな人」が生成できるということで話題。
ということで4ビット量子化のGGUFと4 step LoRAで動かしてみたので手順をまとめました。
Qwen-Image-2512の詳細はこちら。
Qwen-Image-2512: Finer Details, Greater Realism
生成してみる。
生成した画像がこれ。なんか、いそう。箒が折れてなければ違和感あまりないですね。

プロンプトはこう。
カメラで撮影したスナップ写真。晴れた日の路地裏でほほに手をついて座っているメイドさん。メイドさんは20歳くらいの日本人女性で少し垂れ目のギャル。髪形は明るい茶髪のロングストレート。石畳でレンガ造りの家の前の植栽の横に座り込んでいる。上からのアングルで撮影。カメラ目線。メイドさんは左側に位置している。横には箒と集めた落ち葉。ハイレゾリューション
GIGAZINEのメイドプロンプトを改変してます。
AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能 - GIGAZINE
Qwen Imageだとこう。

悪くはないけど、ちょっとボヤけてますね。落ち葉は撮影のために集めてきたようだし、箒も作り物っぽい。いや、箒は作り物ではあるけど。
848x480の画像が、RTX 4080 Ti 16GB、4steps LoRAで35秒、LoRAなしの50 stepsで278秒

導入
ComfyUIとGGUFノードについてはこちらの後半を見てください。
ComfyUIで動画生成AIのWan2.2をGGUFで動かす - きしだのHatena
テンプレートでQwen-Imageでフィルタして、「Qwen-Imageテキストから画像」を選びます。

モデルが足りないといわれるので、vaeとtext_encodersの「ダウンロード」をクリックします。ダウンロードしたファイルはそれぞれComfyUI/models/vaeとComfyUI/models/text_encodersに移動。

lorasとdeiffusion_modelsは2512のものに入れ替えます。
2512のGGUFとLoRAのダウンロード
Qwen-Image-2512本体のGGUFはUnslothさんのを使います。
https://huggingface.co/unsloth/Qwen-Image-2512-GGUF/tree/main
いろいろあるので、VRAMサイズに合わせて選びます。Q4_K_Mを使ってますが、画像生成は量子化の影響が大きいようなので、動かせる範囲でなるべく大きいのがいいと思います。

あとはLoRA。
https://huggingface.co/lightx2v/Qwen-Image-2512-Lightning/tree/main
bf16でいいと思います。

GGUFはComfyUI/models/unetに、LoRAはComfyUI/models/lorasに置いておきます。
GGUFとLoRAの設定
「拡散モデルを読み込む」のノードは不要なので削除します。

ノードがなくなったところで右クリックして「ノードを追加 > bootleg > Unet Loder(GGUF)」を選択

「Unet Loder(GGUF)」のノードが置かれるので、2512で検索してさっきのGGUFを設定します。

ファイルの配置が反映されてない場合は、Managerを開いてComfyUIをリスタートしてください。
Unet Loderの「モデル」からLoRAローダーの「モデル」にドラッグして線を結びます。

「LoRAローダーモデルのみ」でもモデルを同様に入れ替えます。

Kサンプラーのステップを4にしたら設定終了

生成
プロンプトのところに、香港の街っぽい指定があります。上側がポジティブプロンプトで、下側がネガティブ。

サイズは左下の「Image size」で。

下のほうに「実行する」ボタンが浮いてるので、押すと生成が始まります。

Managerの下に生成状況が表示されますね。

クリックすると詳細が見えたり、Kサンプラーのところでも進行状態が見えます。

けど、コンソール見るのがいいですね。

しばらくすると画像ができます。ComfyUI/outputsに保存されています。

LoRAを外して生成
4 steps LoRAがかかってると生成が甘くなるので、本番画像を作るときはLoRAをはずして50 stepsで生成するのがよさそうです。
プロンプトを4stepsで確かめて、生成は50steps、という感じで。
ということでLoRAローダーノードをバイパスします。左から2番目のボタン。

Kサンプラーのステップを50にして生成すると、かなりはっきりした画像になってます。
