https://cysec148.hatenablog.com/entry/2025/07/08/172716

Hello there, ('ω')ノ

🔍 AIにとって「単語」はそのままでは理解できない

人間なら、「りんご」と聞けば、赤くて甘くて丸い果物をイメージできますよね。

でも、AIにとって「りんご」はただの文字列です。意味もイメージも、そのままでは何もわかりません。

📌 そこで必要になるのが、「単語を数値に変換すること」なんです。

この変換を「ベクトル化」や「単語の埋め込み（Embedding）」と呼びます。

AIが情報を処理するためには、全部が数値（ベクトル）になっている必要があります。

こうして初めて、AIは「比較」「分類」「予測」ができるようになります。

🟩 単語ごとに「その単語だけ1、他は全部0」にする方法

例：語彙が ["りんご", "バナナ", "みかん"] の場合

✅ シンプルだけど、 ❌ 単語同士の意味の近さがわからない（全部バラバラ）

🧺 文の中にどの単語が何回出てきたかを数える方法

例：「私はりんごを食べました。りんごは好きです。」

→ 「りんご：2回」「食べました：1回」「好き：1回」…

✅ 文全体を数値化できる ❌ 単語の順序や文の構造は無視してしまう

📏 意味の似ている単語ほど“近い数値（ベクトル）”になる方法

例：

ここで注目なのが、

✅ 「りんご」と「バナナ」のベクトルは近く、

❌ 「りんご」と「自動車」は遠くなる

こうして、意味の近さ・文脈での使われ方を反映した数値化ができるのです！

📌 ChatGPTなどは、こうした分散表現（埋め込み）をベースに言語を理解しているんです。

最近のAIモデル（BERT, GPTなど）では、入力された単語を「Embedding層」で数値化します。

つまり、AIにとっての“辞書”を自分で育てていくようなイメージです。

数値化された単語（ベクトル）は、以下のような処理に使われます：

✅ AIは言葉をそのままでは理解できないので、まずは数値（ベクトル）に変換する

✅ 単語の意味や文脈を反映させる「分散表現」が現代AIの主流

✅ ChatGPTなどの大規模言語モデルでは、Embedding層がベースにある

✅ この数値化があるからこそ、翻訳・要約・会話などの高度な言語処理が可能になる！

Best regards, (^^ゞ