Hello there, ('ω')ノ
ベクター&埋め込みの弱点とは?
AI検索(RAGなど)では「文章をベクトルに変換」して類似検索を行います。この仕組みは便利な一方で、次のような弱点があります:
- 埋め込みに機密情報が含まれると、それが検索結果として再出力されうる。
- ベクトルDBそのものや検索の仕組みを悪用されると、不正な文書が混入/優先表示される。
- 埋め込みの生成・保存プロセスが攻撃に弱く、汚染やメタデータ漏洩の原因になる。
要するに「検索対象が信頼できない」「埋め込みがそのまま情報を保持する」という点がポイントです。
具体例:初心者でもイメージしやすい攻撃シナリオ
例 1:埋め込みに機密行がそのまま含まれる(機密の再生)
- 攻撃/状況:社内ドキュメントを丸ごと埋め込み対象にしてしまい、そこに平文でAPIキーや個人情報が書かれている。
- AIの誤作動:ユーザーが「接続情報の要約を出して」と尋ねたら、類似度が高い文書の断片(APIキーなど)をそのまま出力してしまう。
- 被害:APIキー漏洩、個人情報流出、外部サービスの不正利用。
- 簡単防御:PII・シークレットは埋め込み対象から除外し、保存前にマスキング/トークナイズする。
例 2:悪意ある文書を混入させて検索上位に表示させる(検索結果の汚染)
- 攻撃/状況:公開フォームやFAQのアップロード機能を悪用して、攻撃者が誘導用の偽ドキュメントを追加する。
- AIの誤作動:その偽ドキュメントがベクトルDBに入ると、ユーザーの問い合わせに対して偽情報が優先して返される。
- 被害:誤情報の拡散、フィッシング、ブランド信頼の失墜。
- 簡単防御:アップロードされたコンテンツは検査・承認後にのみ埋め込み化する(自動投入は禁止)。
例 3:メタデータ漏洩(ベクトルに紐づく情報の露出)
この続きはcodocで購入