https://oregin-ai.hatenablog.com/entry/2025/06/14/171404

今回は、米サイバーセキュリティ・インフラストラクチャーセキュリティ庁（CISA）及び国内当局、英・豪・NZのサイバー当局が共同で発表した「AIデータセキュリティ：AIシステムのトレーニングと運用に用いられるデータを保護するためのベストプラクティス」を読み解きました。

アメリカの主要機関（NSA、CA、FBIなど）と同盟国の専門機関が協力して作成した情報シートに基づき、AIシステムにおけるデータのセキュリティがなぜこれほど重要なのか、そしてどのようなリスクが存在するのかという点について言及されています。AIはデータから学習するため、その基盤となるデータが汚染されたり変化したりすることで、AIのロジックそのものが歪む可能性がある点が強調されています。

www.cisa.gov

https://media.defense.gov/2025/May/22/2003720601/-1/-1/0/CSI_AI_DATA_SECURITY.PDF

AIデータセキュリティにおける主要リスク領域

特に留意すべきリスク領域として、大きく3つの問題が特定されています。すなわち、データサプライチェーンの問題、意図的なデータ汚染（ポイズニング）、そして時間経過によるデータ変化（データドリフト）です。

1. データサプライチェーンの問題

インターネットから収集される大量の外部データには、誤りや悪意のある情報が混入するリスクが指摘されています。わずか数ドルから1000ドル程度の費用でデータ汚染が行われるケースも報告されています。具体的な手口としては、期限切れドメインを悪用するスプリットビューポイズニングや、Wikipediaなどのデータのスナップショットを収集する前の短い時間枠に内容を改変するフロントランニングポイズニングなどが挙げられます。

これに対する対策としては、データの出所（データ・プロビナンス）を厳密に追跡し検証することが重要です。また、データが改ざんされていないかを暗号のハッシュ値やデジタル署名で確認すること、将来的には耐量子計算機暗号のような次世代技術も視野に入れる必要性が示唆されています。画像や動画においては、出所を示すメタデータであるコンテンツクレデンシャルも有効であり、データ提供元に証明書を求めたり、安全な場所にデータを保管したりといった基本的な対策も不可欠です。ただし、Webクロールのような膨大なデータの出所を完全に追跡することは現実的に困難な場合が多く、複数の対策を組み合わせて適用することが求められます。

2. AIモデルへの直接攻撃（敵対的機械学習）とデータ品質の問題

AIモデル自体を直接的に欺こうとする攻撃、いわゆる「敵対的機械学習（AML）」も深刻な問題です。これは、AIの認識システムを混乱させるよう設計された巧妙なデータを入力する攻撃手法です。その他にも、データに関する説明が不十分な「バッドデータ」や、データ母集団に含まれる統計的な偏りも、AIの判断を誤らせる原因となると指摘されています。

これらの攻撃やリスクに対しては、まずデータを検知して除去するアルゴリズムを活用し、不要な情報を取り除いたり、形式を整えたりする「データクレンジング」の実施が挙げられます。さらに、安全な学習プロセス、すなわちパイプラインの構築も基本とされています。具体的には、複数のAIモデルを組み合わせて判断の偏りを低減する「アンサンブル学習」や、個人情報を秘匿する「データの匿名化」、メタデータ管理、そして定期的にデータの偏りがないかをチェックする「バイアス監査」も有効な手段です。また、意図的に不正確な情報や偽情報を排除する地道な努力も不可欠であると強調されています。

3. データドリフト

データドリフトは攻撃とは異なり、現実世界の状況が時間と共に変化することで、AIが学習した際のデータと実際に利用されるデータの間にずれが生じる現象です。例えば、顧客の嗜好の変化や新しい製品の登場などが原因となり、通常は緩やかに進行しますが、放置するとAIの予測精度が徐々に低下すると説明されています。

これに対する対策としては、継続的な対応が不可欠です。AIへの入力データとAIが出力する結果を常に監視し、変化が検出された場合には最新のデータでAIを再トレーニングすることが求められます。データを評価するツールの活用や、AI設計の初期段階から、このようなデータの変化に対応できる堅固なデータ管理戦略を策定しておくことが重要であると結論付けられています。

おわりに

今回のAIデータセキュリティに関する分析を通じて、AIシステムがその機能を最大限に発揮するためには、基盤となるデータの健全性が極めて重要であることを改めて認識しました。これまで、AIの性能はモデルの精度に主眼を置かれがちでしたが、本稿で詳述されたデータサプライチェーンの脆弱性、悪意のあるポイズニング、そして避けられないデータドリフトといった問題は、いかにデータがAIの生命線であるかを改めて示しています。

特に印象的だったのは、データ汚染が比較的低いコストで行われ得るという指摘と、それがAIの判断ロジックを根本から歪める可能性です。これは、単にAIモデルの堅牢性を高めるだけでなく、その入力となるデータの出自、完全性、そして適時性を継続的に検証する多層的な防御戦略が不可欠であるという理解を深めました。データ・プロビナンスの追跡、暗号技術による完全性検証、そして継続的な監視と再トレーニングといった実践的な対策の重要性は、今後のAIシステム設計と運用において、より意識的に取り組むべき課題であると認識しました。

今後も、このような専門的な知見に触れ、継続的にAI技術の安全かつ効果的な活用に貢献できるよう、自身の知識と理解を深めていきます。