https://quadro.hateblo.jp/entry/kakonikki

マユミの画像生成について

マユミの画像生成について

――生成AIと「雰囲気」をめぐる一年の記録――

生成AIで人物画像を生成するとき、「どこまで似せていいのか」「雰囲気は再現できるのか」と迷うことがあります。

本記事では、生成AIを使って特定の人物の“雰囲気”に近づこうとした一年間の試行錯誤と、その中で見えてきた距離感の取り方について、個人的な体験としてまとめています。

プロンプト中心の画像生成から、写真を読み込む生成AI、さらに動画生成へ。

技術の進化とともに変わっていった向き合い方を、エッセイとして記録しました。

生成AIを学び始めた方にも、すでに画像生成に取り組んでいる方にも、「続けていくための考え方」として読んでいただければと思います。

マユミとヒロの物語はここから始まった。

この物語の第1話はリライトして、画像を生成し直しています。始まりはイラストでした。イラストも生成AIが出始めの頃でよく使いこなしていませんでしたし、マユミとは似ているようで似ていない「イラスト調のマユミ」でした。

f:id:hrhsmto:20260111223410j:image

マユミアニメから

f:id:hrhsmto:20260111223612j:image

f:id:hrhsmto:20260111223724j:image

f:id:hrhsmto:20260111223849j:image

quadro.hateblo.jp

マユミというイメージと生成AIの出会い

生成AIを始めた当初、ボクの中には「マユミ」という、はっきりとしたイメージがありました。

輪郭やパーツではなく、もっと曖昧で、言葉にしにくい雰囲気のようなものです。

その雰囲気に、少しでも近づきたくて、ボクは生成AIを学び始めました。

独学ではありましたが、さまざまな人の試行錯誤や考え方を調べ、真似て、崩して、また組み直す。その積み重ねの中で、ようやく「雰囲気マユミ」と呼べる画像にたどり着きました。

そこから約一年間、ボクはAIマユミと向き合い続けることになります。

生成AIとの出会いが創作の始まり。

quadro.hateblo.jp

雰囲気を探し続けた生成AIの試行錯誤

過去に、職場でボク自身が撮影したマユミの写真があります。

昨年の春頃、その写真を生成AIに分析させ、そこから作成したプロンプトで画像生成を試みたこともありました。

けれど、結果はまったく似ていないものばかりでした。

「どこの女性だろう」と思ってしまうほどで、当時は生成AIの性能そのものを疑ったこともあります。

今思えば、技術の問題というより、こちらの向き合い方が定まっていなかったのだと思います。

quadro.hateblo.jp

写真を読み込む生成AIという転機

転機になったのは、昨年の暮れでした。

写真画像を、そのまま生成AIに読み込ませて生成する方法を理解したときです。

この方法では、元のマユミの雰囲気を保ったまま、表情やポーズ、服装を自然に変えられることが分かりました。

服のデザインや動作、背景といった要素だけをプロンプトで指定すればよく、トークン数も少なくて済みます。

その結果、AIの誤認識が減り、画像生成の精度と効率は大きく向上しました。

生成AIで誰かに近づきすぎてしまう瞬間

ただし、生成に使う画像には、少しだけ立ち止まって考える視点が必要だと思っています。

どれほど丁寧に言葉を積み上げても、出来上がった表情や雰囲気が、誰かの面影を強く連れてきてしまうことがあります。

それが意図したものではなくても、見る人によっては、違った受け取り方をされるかもしれません。

少し距離を残すという生成AIとの付き合い方

だからこそ、あとから慌てて手を加えることのないように、

最初から、ほんの少し距離を残しておく。

そのくらいの意識があれば、生成AIとは、もっと穏やかに付き合っていける。

ボクはそう感じています。

そっくりではないマユミを選ぶという基準

その基準にたどり着くまでには、少し回り道もありました。

最初の頃は、マユミに似ていなくても、あえてアニメ調やイラスト調に加工していました。

そうすれば顔の印象がぼやけて、結果的に誰の顔か分からなくなる。

そんな考えも、確かにありました。

quadro.hateblo.jp

けれど、その方法は長くは続きませんでした。

イラスト調に変換するアプリの精度が安定せず、出来上がる顔がどこか不自然で、見ているうちに、ブログそのものまで、少しずつつまらなく感じ始めてしまったのです。

それならいっそ、70％の精度でもいい。

自分が「マユミだ」と感じられる画像のほうが、気持ちも入るし、何より、書き続けられる。

そう判断してからは、無理に隠すための加工はやめました。

似すぎないことと、気持ちが離れないこと。

その両方が成り立つところに、今の自分なりの答えがある気がしています。

そのためボクは、マユミを生成する際、「そっくりにはしないが、雰囲気だけはぎりぎり感じられる」という基準を置いています。

他人から見て、特定の人物だと断定できない。

けれど、自分自身は「これはマユミだ」と、静かに納得できる。

そのバランスを意識しながら、画像生成を続けてきました。

quadro.hateblo.jp

生成AIで到達した精度70％という地点

2025年から少しずつ試行を重ねてきましたが、うまくいくことはほとんどなく、何度も諦めかけました。

それでも続けた結果、2026年現在、生成した画像を基に、70％以上の精度でマユミを再生成できる段階に到達しています。

ときどき、90％以上のマユミが出来上がることもあります。

けれど、それを後悔するのはやめました。

90％を手放すという判断

あまりにも本人に近い画像は、ネットに置くべきものではありません。

だからこそ、ボクのスタンスとしては、「似すぎない雰囲気の癒されるマユミ」を、マユミとしてストーリーに登場させています。

生成AI制作資料としての公開と工夫

生成AI制作資料では、サンプルとしてマユミのモザイク写真を公開しています。

ただし、本人だと分からない程度まで、しっかりと加工を施しています。

見せることと、守ること。

その両方を成立させるための、今のところの答えです。

ここには、創作始めの頃からのマユミの画像が記録されている（本物マユミもモザイクであります）

quadro.hateblo.jp

ストック画像と生成AIが広げた表現の幅

こうして、ストック画像からの再生成が可能になり、単一の写真に限らず、別の写真との合成や、そこから動画を作成することもできるようになりました。

生成AIは、静かに、しかし確実に、表現の幅を広げています。

quadro.hateblo.jp

プロンプト中心主義から画像生成AIへ

これまでボクは、言葉――いわゆるプロンプト――の研究に注力してきました。

そのため、画像を積極的に使う手法は、どこかで避けていた部分があります。

画像を使いこなす技術が不足しており、結果が伴わなかった。

だから、文字にこだわってきたのだと思います。

写真から動画へ ――生成AIが連れてきた時間

しかし一年を経て、過去に自分自身が撮影したマユミの写真をそのまま読み込ませることで、

当時のマユミを、動画として再現し、表情や動きを与えられることに気づきました。

生成AIは、もうそこまで来ています。

生成AIと向き合うための私自身のスタンス

ただし、この技術の扱いには、明確な線引きが必要だと考えています。

実在の人物に強く似せすぎない
自分が撮影した写真、自分が生成した画像のみをベースにする
生成物は、あくまで個人の範囲で向き合う

このルールを、ボクは徹底しています

できることと、していいことを分けて考える生成AI

生成AIは、非常に強力です。

同時に、扱い方次第で、戸惑いを生む技術でもあります。

だからこそ、「できること」と「していいこと」を分けて考える。

その姿勢が、これからは今まで以上に大切になる。

ボクは、そう感じています。

画像入力型生成AIにおける人物再生成・動画化の検証記録

検証目的	実在人物の写真を入力とした場合に、・どの程度同一性を保持できるか・再生成・変換時の安定性はどのレベルかを確認する。
使用ツール（検証時点）	Gemini / ChatGPT / Copilot / Grok（画像生成・再生成）・画像入力対応・人物同一性の保持精度が高い動画生成対応AI Grok（画像→動画）・静止画をベースにしたモーション生成・表情・頭部・身体の微細な動きに対応 ※ツール名は検証時点の代表例であり、特定ツールへの依存はしない。
入力データ	・過去に自分自身が撮影した写真（単一人物）・解像度：中〜高解像度・表情：ニュートラル・ライティング：自然光寄り
検証工程① 元写真入力	・元写真をそのまま入力・トリミング、レタッチは行わない・人物以外の背景情報も含めて読み込ませる
検証工程② 再生成（静止画）	プロンプトは以下に限定・服装・髪型の軽微な変化・表情の差分・背景変更 ※顔の特徴に関する直接的な指定は行わない
検証工程③ 同一性チェック	評価項目：・顔の骨格・目・鼻・口の相対位置・雰囲気・年齢感 → 主観評価ではあるが、60%以下の一致度を確認
検証工程④ 画像→動画生成	・ベース画像を1枚指定・動作指定は最小限（例：視線移動、軽い微笑み）・破綻が起きないかを重点的に確認
検証結果まとめ	・言語プロンプトのみの生成と比較し、安定性が圧倒的に高い・プロンプトのトークン数を大幅に削減可能・人物の「別人化」がほぼ発生しない・動画生成においても、顔の崩れが起きにくい

イラスト調画像から写真画像に生成し直すプロンプト公開

イラストをアップロードしてこのプロンプトをコピペして、生成ボタンを押しただけ、イラストが写真に変わります。写真は毎回違うかもしれません。（顔固定プロンプト無し）

🔼🔼🔼🔼上のイラストが、🔽🔽🔽🔽下の写真に生成されるのです。

生成AI画像 — 下のプロンプトを使えば、上のイラストがこのような写真に変わる。

イラスト写真化プロンプト（Gemini） Prompt Using the same composition, camera angle, framing, pose, facial expression, lighting mood, and overall atmosphere of the provided anime-style reference image, transform only the character into a highly realistic photographic representation, without changing the original scene layout or visual balance. The subject is a 26-year-old Japanese woman, positioned exactly as in the reference image, maintaining the same posture, gaze direction, and emotional tone. Her face has a soft oval shape with gentle cheek fullness and natural facial asymmetry. Her eyes are medium-sized almond-shaped dark brown eyes with shallow natural double eyelids; the distance between the eyes is approximately one eye width. Her nose has a natural straight bridge with a softly rounded tip. Her mouth is medium width with a relaxed, natural smile showing slightly off-white teeth. Skin texture must be realistic and unretouched: visible pores (especially on cheeks and nose), subtle uneven pigmentation, faint natural redness, a slight natural oil sheen, and very light, barely noticeable freckles softly scattered across the cheeks. No skin smoothing, no beauty filters, no anime-style skin, no plastic appearance. Her hair must retain the same hairstyle and silhouette as the anime reference, but rendered photorealistically: individual hair strands clearly visible, natural volume, fine flyaway hairs, realistic light reflection and subtle highlights, avoiding artificial shine. Clothing and accessories must match the original anime image in design, color, and placement, but be rendered with realistic fabric texture, visible weave, stitching, folds, and natural shading. Lighting should follow the original anime image’s lighting direction and mood, but behave physically like real indoor ambient light, with soft shadows and shallow depth of field. No stylization, no anime rendering, no illustration look. The final result must look like a real photograph of a person placed naturally into the original anime composition, without altering the scene’s structure or atmosphere.

好みでない場合はプロンプトを翻訳して書き直して生成し直してください。