https://quadro.hateblo.jp/entry/kakonikki

生成AIで「人間らしさ」を足したとき、何が失われるのか

今回の記事では、生成AIを使って画質を向上させながら、これまで描いてきたマユミの雰囲気を保てるのかを検証しました。

テーマは、「ナチュラルに、写真のようにマユミを作ったらどうなるのか」です。

上の動画のGrok用動画プロンプト

Grok Video Prompt（日本語／6秒・超圧縮） 20代後半の日本人女性。落ち着いてクリアで明るい自然な日本語、知的で穏やかな声。超高精細・実写風。グレー基調のモダンな企業オフィス通路。カメラはややローアングル、誇張なし。 6秒構成 0–3秒：上半身アップから開始。カメラがゆっくりズームアウト。女性は通路奥からカメラ方向へ、自然でゆったり歩く。姿勢良く、穏やかな表情。 3–6秒：カメラ手前で少し立ち止まり、視線はカメラを見ず少し遠くへ。やや明るめのチャーミングな笑顔で、小さく2回手を振りながら、口の動きと同期した音声で「ヒロ〜、元気出して」と優しく話す。背景通路奥の出入り口越しにオフィス内。社員がデスクで作業。同じ制服のショートカット女性社員が歩くが主役より目立たない。外見・服装身長165cm。ダークグレー銀色四ボタンベスト、ダークグレーペンシルスカート、膝下ブラックハイソックス、黒ヒールサンダル。注意誇張・不自然動作・手指破綻・過剰表情・アニメ調・AI感・意味のある新規要素を排除。現代日本のオフィスの日常として自然に。

ナチュラルスキンを足した瞬間に生まれた違和感

画質を上げれば、より人間に近づく。

最初は、そう単純に考えていました。

休養の合間に、ナチュラルスキンを表現するプロンプトを組み立て、ひとつの画像に適用してみました。

すると、出てきたのは、確かに「写真のようにリアル」な人物でしたが、そこにいたのは、これまで積み重ねてきたマユミとは別の誰かでした。

一度の生成で2枚から4枚ほど出力されるため、結果としては16枚ほどの画像が並びました。

ただし、実際の生成回数は4回ほどで、試行は2日に1回程度です。枚数だけを見ると多く感じられるかもしれませんが、ひとつひとつに向き合っていた時間は、思っている以上に積み重なっています。

生成AIが作る「正しすぎる答え」

ナチュラルスキンのプロンプトは、こちらが要望を簡単に伝えただけでも、生成AIが驚くほど詳細に組み立ててくれます。

ただ、その完成度の高さが、逆に問題でした。

プロンプトをそのまま当てはめると、雰囲気の異なる画像が次々と生まれます。肌は確かに自然で、質感も申し分ない。それでも、物語の中に置いた瞬間、浮いてしまうのです。

ほとんどの画像は、物語には使えませんでした。

単品のビジュアルとして見せることはできても、「マユミ」として語らせるには、何かが足りませんでした。

雰囲気を壊さず、ナチュラルに寄せられるのか

そこで今回の記事では、「ナチュラルに、写真のようにマユミを作ったらどうなるのか」というテーマを、あらためて据え直しました。

生成AIによって人間らしさを足したとき、これまで育ててきた空気感は残せるのか。

違和感のないマユミは、本当に作れるのか。

正直に言えば、途中で何度も戸惑いました。

リアルにすればするほど、マユミから遠ざかっているように感じる瞬間も、確かにありました。

※ご覧いただく前に（重要な注意書き）

今回掲載する画像は、すべて生成途中で生まれたボツ画像です。

ボクの中では、いずれも「マユミではない」と判断したものになります。

誤解のないよう、以下の前提をご理解ください。
掲載している画像は、マユミを完成形として再現したものではありません
生成AIが解釈を誤り、意図とは異なる人物像として出力された結果です
ボク自身の判断で「マユミではない」としてボツにした画像のみを載せています
マユミのイメージが崩れることを避けるため、別人としてご覧いただくことを前提としています

生成AIが文脈やニュアンスを取り違えることは、決して珍しいことではありません。

むしろ、そうしたズレが積み重なった結果が、ここに並んでいます。

今回の試行では、人間により近づけることができるのかを、プロンプトを通して集中的に検証しています。

現時点では、まだマユミには遠い。

ただし、「リアルに近づいた場合、どのような結果が出るのか」という点については、

参考として見ていただける段階には来ていると感じています。

その意味で、ここにある画像は成果ではなく、経過の記録です。

リアルにすれば近づく、という単純な話ではありませんでした。

何を足すのか。

そして、何を足さないのか。

その判断を誤るたびに、マユミは静かに遠ざかっていきます。

今回は“結果の一部”を公開します。

この記事では、生成過程の中で得られた画像のうち、雰囲気を大きく壊さず、検証素材として成立していたものだけを、一部掲載しています。

完成ではありません。

あくまで途中経過であり、試行錯誤の記録です。

生成AIで何を加え、何を抑えるのか。

その選択そのものが、マユミという物語を壊さずに守るための作業なのだと、あらためて感じています。

Microsoft Copilotでリアル写真を生成するために下のプロンプトで生成した画像。

ベース画像は日記でよく使用する「ボク的に70%以下の癒されるマユミ」です。

「なぜ、Geminiで生成した画像を、あえてCopilotで生成し直したのか」

そう疑問に思われる方もいらっしゃると思います。

理由は単純です。このベース画像をGeminiでリアル写真として再生成しようとしても、何度試しても、結果はほぼ同じベース画像のまま変わらなかったからです。

考えられる原因は二つあります。

一つは、プロンプトがGeminiにとって適切ではなかった可能性。

もう一つは、ベース画像そのものを、GeminiのAIがすでに「リアルな写真」と判断してしまっている可能性です。この段階で“これ以上リアルにする必要がない”と認識されているのかもしれません。

ただし、すべてのケースがそうではありません。

別の画像では、下に示すように、毛穴や質感が感じ取れる、より生身に近い肌表現の写真が生成されることもあります。

生成AIは、同じ指示でも、同じ反応を返してくれるわけではない。

そこに、まだ掴みきれない癖や判断基準がある――ボクは、そう感じています。

リアル写真マユミ2 リアル写真マユミ1 リアル写真マユミ3

上の生成された写真は20代後半のアラサーマユミのすっぴんのようです。本物は目はもう少し大きいのですがCopilotの特性かもしれません。ベース画像を忠実に生成したのかもしれません。

超高解像度・写実的ポートレート生成プロンプト一覧表

基本設定	20代後半の日本人女性を、屋内で自然な雰囲気で撮影した写実的クローズアップポートレート
構図・アングル	顔中心、肩より少し上からのクローズアップ。自然なスリークォーターアングルで、視線は見る人のやや左。
表情	温かく誠実でリラックスした自然な笑顔。上の歯が見え、ポーズ感がなく親しみやすい。
顔型・骨格	楕円形の顔。高い左右対称性を持ちつつ、自然な微差でリアリティを確保。
顔の比率	生え際〜眉：1 ／眉〜鼻根：1 ／鼻根〜顎：0.95（下三分の一がやや短い）
目の間隔	両目の間隔は片目の幅とほぼ同じ（比率約1.0〜1.05）
目	やや大きめの目、ダークブラウン。
まぶた・まつげ	自然な二重。上まつげは多め、下まつげは控えめでまばら。
眼球表現	笑顔によりやや細め。強膜は純白ではなく、自然な赤みと透明感。
キャッチライト	天井からの室内照明による柔らかく拡散した光。スタジオフラッシュ不可。
眉	自然な太さと柔らかなアーチ。眉頭はやや明るく、眉尻はやや暗い。
鼻	小さめでまっすぐな鼻梁。丸みのある鼻先。鼻孔は控えめで左右対称。
鼻の比率	鼻幅は目頭間距離とほぼ一致。
口	中程度の広さで、緩やかなカーブ。
唇	上唇：下唇＝約1:1.3。キューピッドボウは柔らかく丸み。
歯	自然な並びで、わずかにオフホワイト。エッジに透明感。
肌の質感	非常にリアルな人間の肌。鼻・頬の毛穴、薄いそばかす、軽い赤み。
肌の光沢	メイクではなく皮脂による自然な艶。
産毛	頬から顎のラインに細い産毛が見える。
髪	ダークブラウン。肩下までのレイヤード。一本一本識別できる自然な質感。
前髪	中心から少しずらして分け、後れ毛が自然に流れる。
服装	明るい色のビジネスシャツ（白または淡いストライプ）＋ダークグレーの銀色四ボタンベスト。
撮影環境	無彩色の壁。最小限の背景ディテール。屋内の作業場またはオフィス。
背景処理	柔らかなボケ。浅い被写界深度。
照明	屋内環境光。上方やや前方からの柔らかく拡散した光。
影	顎下・鼻周りに柔らかな影。強いコントラストなし。
カメラ表現	実写レンズ相当の遠近感（50〜85mm）。
レタッチ	ビューティーフィルターや過度な補正は使用しない。
全体スタイル	ハイパーリアリスティックでドキュメンタリー調。本物らしく温かい感情表現。
ネガティブプロンプト	プラスチック肌、陶器肌、人形顔、アニメ調、イラスト調、CGI調、過度なスムージング、過剰左右対称、誇張された目やまつ毛、V字顎、真っ白な歯、濃いメイク、グラマー照明、HDR風、油絵風、不気味の谷、顔の歪み

参考画像：Gemini / ImageFX用プロンプトでベース画像無しで生成した画像

ImageFXマユミ

40代のマユミの画像

30代から40代のマユミの画像は、過去の写真をもとにプロンプトを抽出し、そこにほんの少し手を加えたものをImageFXで生成したものです。

ImageFXなどでは、プロンプトの意味が十分に伝わらない場合、生成AIが無難な選択として正面向きの顔を出力してしまうことがあります。

今回も、こちらが用意したプロンプトの一部が、うまく届かなかったのかもしれません。

ただ、生成された顔を見る限り、日本人であることや年代については、ほぼ正確に理解されているように感じます。

すべてが意図どおりではないけれど、大きく外しているわけでもない。

そんな手応えは、確かにありました。
髪型については、プロンプトの指定が完全に反映されたとは言えず、結果としてミディアムヘアになりました。

ただ、トップの髪の流れや立ち上がりには、元の写真にかなり近い印象が残っています。
一見すると、まだ完全にリアルな写真にはなりきっておらず、イラスト調の強さも感じられます。

それでも、写真を手がかりにして生成されたものであることは、きちんと伝わってきます。

思い通りの仕上がり、とまでは言えませんが、ここからさらに詰めていけば、より現実に近づいていく余地は十分にある。そんな手応えを感じさせる一枚です。

🟧 落ち着いてきた頃の40代後半のマユミの動画

ベース画像から抽出したプロンプト

下のプロンプトをそのまま、ImageFXで生成した画像です。Geminiで生成すると、また違った結果になると思います。

【ImageFX Prompt】 30代後半から40代前半の日本人女性の写実的な肖像。自然な室内環境で撮影。画像は写実的で、様式化や加工はされていないこと。顔の形：頬に柔らかなふっくら感があり、自然な顔の非対称性を持つ、柔らかな卵型。両目の間の距離は正確にバランスが取れており、両目の間の距離は片目の幅とほぼ同じ。顔の垂直方向の比率は自然で、下半分がやや短く、柔らかく若々しい印象を与える。目：中くらいの大きさの濃い茶色の目。自然な二重まぶた。目尻はやや狭く、リラックスした自然な笑顔が作れる。目の大きさは誇張されていない。目尻にはわずかなカラスの足跡と細かいしわがある。白目の色は自然で、わずかに赤みがかった半透明の外観。室内の自然光による柔らかなキャッチライト。眉：自然な太さで、眉骨に沿って緩やかにアーチ状。髪の色に合わせたリアルな密度。鼻: まっすぐで、緩やかな鼻筋、中低めの高さ、丸みを帯びた鼻先、自然な鼻孔の形、バランスの取れた目頭。口と唇: 中程度の幅の口、自然な上の歯が見えるリラックスした笑顔。上唇は下唇よりわずかに薄い。歯は自然に並び、わずかにオフホワイトで、リアルな半透明で、人工的に白くされていない。唇には細かい質感が見られ、濃い口紅やグロスは塗られていない。肌: 非常にリアルな人間の肌の質感で、毛穴、かすかなそばかす、色素沈着が見られ、頬と鼻の周りにはわずかに赤みがかった色合いがあり、自然な油っぽい光沢と、細かい産毛がある。スムージングは施されていない。プラスチックや陶器のような効果はない。髪: 温かみのあるダークブラウン、肩までの長さ、柔らかくレイヤーカットされ、わずかに中心からずれた分け目。自然なボリュームがあり、個々の毛がはっきりと見え、細かい斑点が散らばり、リアルな光沢がある。衣服: 明るい色のビジネスシャツ (白または薄いストライプ)、一部が見える。照明：明るく拡散した光による柔らかな室内環境、顎と鼻の下に柔らかな影を作り、強いコントラストを避ける。カメラ：リアルなポートレートレンズ（50-85mm相当）、浅い被写界深度。背景：室内のワークスペースの雰囲気、ニュートラルな色調、柔らかなぼかし。全体的なスタイル：自然なドキュメンタリー風の写真、温かみのある感情表現、本物らしさ、自然な構図。

ImageFX Negative Prompt 避けるべきもの：アニメ風、イラスト、CGI、過度なスムージング、美肌フィルター、陶器のような肌、人形のような顔、誇張された左右対称、鋭いV字型の顎、大きすぎる目、濃いメイク、テカテカした肌、真っ白な歯、華やかな照明、HDR効果、絵画的な効果、不気味の谷、顔の歪み。