以下の内容はhttps://cysec148.hatenablog.com/entry/2025/07/16/052505より取得しました。


第38回|ハルシネーション問題:AIのウソと向き合う

Hello there, ('ω')ノ

👻 ハルシネーションって何?

✅ ハルシネーションとは、生成AIが事実に反する内容を“本当らしく”生成してしまう現象です。

これは意図的なウソというよりも、AIが 「もっともらしい言葉の並び」を優先して出力する結果、 “中身のない正しそうな話”をしてしまうことを意味します。


🧠 なぜAIはウソをつくの?

大前提として、GPTなどのAIは「事実」を理解しているわけではありません。 AIがやっているのは…

✅ 文章の続きを、文脈と統計的なパターンに基づいて予測しているだけ。

つまり、以下のような理由で“それっぽい嘘”が出てきます:

原因 内容
✅ 学習データに誤情報が含まれている インターネットの文章には間違いや噂が混在している
✅ 未知の質問に対して創作してしまう 答えを知らないとき、推測で答えをでっちあげる
✅ 「言葉のつながり優先」だから 文法的・語感的に自然な文を優先して出力する(事実性は保証されない)
✅ ユーザーが自信ありげな応答を期待するため 「わかりません」よりも「知っているふう」の出力を好む

🧪 具体例:こんなハルシネーションに注意!

🔹 存在しない情報の創作

「2023年のノーベル平和賞は誰ですか?」→「ジョン・スミスが受賞しました」 ※ 実際にはそのような人物も受賞事実も存在しない

🔹 引用のねつ造

「その出典は?」→「○○論文(2021)によれば…」 ※ それっぽい論文名を勝手に生成してしまう

🔹 プログラムコードの誤り

「PythonでExcelを読み込むコードを教えて」→ 間違った関数やライブラリを提案


📌 ハルシネーションが起きやすい条件

状況 ハルシネーションの危険度
一般的でない質問(専門分野)
出典を確認しづらい話題(歴史・人物など)
明確な正解がない問い(意見・予測) 中〜高
誘導的な質問(例:「〜は本当ですか?」)
非常に長い会話の後半 中(文脈の混乱による)

🛡 どう対策すればいいの?

✅ 1. 出力を「前提として信じない」

  • 生成AIの出力は“たたき台”として扱う
  • 特に固有名詞・数字・日付・法律は、自分で確認するのが鉄則!

✅ 2. 出典を指定する、明記を求める

  • 「出典を示して」「URL付きで教えて」など、プロンプトを工夫することで精度が上がることもあります ※ただし、AIが「でっちあげ出典」を返す場合もあるので注意!

✅ 3. Retrieval型のAIを使う

  • **社内文書や信頼できるデータベースを検索してから回答するAI(=RAG)**を導入することで、 「答えを生成する前に確実な情報を参照」させることができます

✅ 4. ハルシネーションを検出する仕組みを入れる

  • 二重チェックAI
  • 複数の生成結果を比較
  • 内容に含まれる「確信度(likelihood)」や「根拠の有無」を分析する仕組みを設ける

🧠 人間とのちがい:AIは“知っている”のではなく“予測している”

ここで大事なのは、AIと人間のちがいです。

人間 AI(GPTなど)
理解・思考・信念に基づいて話す 単語のつながりを予測して出力する
間違いを修正したり反省できる 自分の誤りを自覚できない(エラーの認識なし)
「知らない」と答えることに抵抗が少ない 「知らない」と言わずに“でっち上げる”ことがある

✅ まとめ:ハルシネーションは“使い方”で防げる!

✅ ハルシネーションとは、AIが事実でないことを「本当らしく言ってしまう」現象

✅ 原因は、学習データの誤り・推測癖・統計的予測の限界など

✅ 使い手が「うのみにせず、確認する」ことが基本

✅ 出典指定やRAG活用で、精度を高める工夫が可能

Best regards, (^^ゞ




以上の内容はhttps://cysec148.hatenablog.com/entry/2025/07/16/052505より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14