https://tamakino.hatenablog.com/entry/2025/05/18/080000

「まぐまぐ！」でメルマガ「知らなかった！中国ITを深く理解するためのキーワード」を発行しています。

明日、vol. 281が発行になります。

登録はこちらから。

https://www.mag2.com/m/0001690218.html

今回は、AIスマートフォンの現状についてご紹介します。

2025年4月から、アップルのApple Intelligenceが、日本や中国、韓国などで利用できるようになり、ほぼ世界中で使えるようになりました。いよいよ、AIスマホの時代が始まります。

と言っても、Apple Intelligenceは、もはや最先端を行くリーダーとは呼べなくなっています。なぜなら、2023年から2024年にかけて、中国のスマホ各社はAI化を完了しているからです。グーグルも2023年10月にPixel 8 ProにGemini nanoを搭載し、AI化しています。韓国のサムスンも2024年1月からGalaxy AIを搭載したスマホを発売しています。アップルは、このような流れの中で、AI化がいちばん遅くなるという事態になってしまいました。

特に中国市場での遅れは大きく、Apple Intelligenceはいまだに大規模言語モデル（LLM）に接続ができていません。その他の地域では、ChatGPTに接続することができ、複雑な内容についてはChatGPTを使うことができます。しかし、ChatGPTは、中国政府のグレートファイヤーウォールにより接続ができません（VPNを経由してChatGPTを使っている人はたくさんいます）。そのため、アリババの通義千問（Qwen）、百度の文心一言などを利用する交渉が進められていますが、間に合わず、中国ではLLMへの接続なしの状態でのApple Intelligenceのスタートとなりました。

なぜ、アップルのAI対応は遅いのでしょうか。AIチームの士気にさまざまな問題が生じているという報道もあります。内情についてはわからないところが多いですが、アップルのAI開発は、他社よりも相当に面倒であることは間違いありません。なぜなら、アップルは、ユーザーのプライバシーを最大限に尊重しながら、AI開発をしているからです。

例えば、メールの返事を生成してくれるAIエージェントを開発するには、実際のユーザーのメール本文を学習素材にすれば、かなり実用的なAIができあがります。しかし、アップルはそうはしません。ユーザーのメールの内容を見ることになってしまうからです。

一方で、ユーザーはAIには自分のすべてを知って欲しいと考えています。例えば、目の前にあるクッキーをカメラで撮影すると、「このクッキーは◯◯社の◯◯です。（レビューとユーザーの過去の嗜好から）美味しいと感じるはずです。（摂取カロリーと小麦アレルギーのある特性から）2枚以内に抑えることをお勧めします」と答えて欲しいのです。しかし、このような回答をするには、AIがプライバシーデータを把握しておく必要があります。

AIにはプライバシーデータを知っておいて欲しいけど、AIの運営には知られたくない。ましてやAI運営から漏洩するようなことがあっては困る。この矛盾したニーズに応える必要があります。

この矛盾に応えるひとつの方法がオンデバイス処理です。AIをスマホの中だけで動かして、外とは通信をしないという手法です。これであれば、AIがスマホの中に保存されているプライバシー情報を活用しても、それが外部に漏れる恐れはありません。

ところが、AIというのはスマホで動作させるのは簡単なことではありません。LLMのパラメーターをすべてメモリに格納する必要があるため、メインメモリ（RAM）が6GBのiPhoneではApple Intelligenceは動作しません。8GB以上あるiPhoneでしか動作しないのです。Apple Intelligenceには30億のパラメーターがあり、最低でも2GBのメモリを必要とします。そのため、メインメモリが最低でも8GBは必要になります。

メールを代筆してくれるAIをつくるには、ユーザーの実際のメール文を学習素材とするのが合理的ですが、アップルはそのようなプライバシーを侵害しかねないことはしません。そのため、学習に大きな手間がかかっています。

アップルだけでなく、多くのテック企業で採用されている考え方が「差分プライバシー」です。

企業が収集した個人情報は、氏名や住所などという個人を特定可能な情報を伏せて匿名化をすれば、他社に提供したり、公開をしてもかまわないでしょうか。日本の個人情報保護法では、単なる匿名化だけでは不十分で、匿名加工情報の要件を満たす必要があるとされています。その要件には「他の情報との照合による再識別」ができない状態でなければなりません。

2006年、動画配信サービス「Netflix」は、Netflix Prizeという機械学習コンペを開催しました。Netflixは、約48万人のユーザーの視聴履歴、評価、評価日時の1億件以上のデータを匿名化して参加者に対して提供し、ここから機械学習でさまざまな知見を抽出するというコンペを行いました。ダミーデータではなく、大規模なリアルデータを提供するというのは、機械学習の技術向上に大きな貢献となります。

しかし、テキサス大学の研究者が、この匿名データは、別のデータと照合することにより、個人を再識別できてしまうことを明らかにしました。この研究者は、NetflixのデータとIMDb（インターネットムービーデータベース）とを照合したのです。Netflixの特定の個人（匿名化されている）が評価をした映画一覧と、IMDbでも同じ映画一覧を評価しているアカウントをマッチングさせました。完全に一致をするわけではありませんが、Netflixで見て、その後、IMDbで評価をしたりコメントを書く人は多く、さらには映画を見た日付、評価をした日付も公開されているため、かなりの確度で推測ができます。

すると、IMDbではアカウント名のみしか分かりませんが、コメント欄には「カミングアウトしてないがLGBTである」ことや、政治的な傾向も書いている人がいます。つまり、Netflixにとっては、自社のユーザーデータとIMDbのデータを照合することで、自社が収集もしてないユーザーのプライバシー情報を知ることができます。

2009年、Netflixはこの問題で集団訴訟を起こされ、Netflix Prizeのコンペの継続を中止し、原告と和解をしました。つまり、氏名や住所といった情報を隠しただけの匿名データでは、他のデータと照合をし、再識別が可能になってしまう可能性があるのです。現実には起こらないと思いますが、グーグルがさまざまな企業が持っている匿名データを入手し、大規模なマッチングを行うと、私たちのプライバシーはグーグルには丸裸にされてしまうでしょう。

そこで、近年、使われる手法が差分プライバシーです。これは個々のデータに揺らぎを与えて、ぼやかすという手法です。

今、10人の小さなスタートアップ企業があって、ウェブで「当社の平均報酬は452万円です」と公開していたとします。これは個人の報酬ではありませんから、公開しても問題のない情報です。しかし、翌年、1人退職をしたために、ウェブの該当部分を「9人の会社で、平均報酬は421万円です」に修正したらどうなるでしょうか。

簡単な計算で、退職をした人の報酬がわかってしまいます。

10人の時の全員の報酬合計は、

452万円×10人＝4520万円

です。

9人になった時の報酬合計は、

421万円×9人＝3789万円

すると、

4520万円-3789万円=731万円

と、退職した人の報酬がわかってしまいます。しかも、平均年収よりもかなり高い額ですから、キーになる重要な従業員が退職したということまで推測できてしまいます。

ここに、A、B、C3人のテストの点があり、その合計得点（あるいは人数と平均得点）が統計情報として公開されているとします。すると、もし、B、C2人の合計特定の情報が公開されていると、先ほどと同じ要領で、Aの87点という得点が求められてしまいます。

▲合計得点しか公開しなくても、ある人が抜けた合計得点がわかれば、抜けた人の得点が計算できてしまう。

そこで、差分プライバシーでは、各データに揺らぎを与えます。ここでは、±５点の範囲で揺らぎを与えます。すると、その合計得点は3人分の揺らぎである±15点の揺らぎがあることになります。

ここから、Aの点数を再現しようとしても、87±5点ということしかわかりません。しかも、公開されるのは揺らぎを加えた後の数値だけですから、Aの点数も「87±5」という揺らぎの幅もわからず、82点から92点までのいずれかの数値しか求められませんから、個人のプライバシーは一定程度保たれることになります。

▲個人の得点に揺らぎを与えると、個人の得点を推定しようとしても、一定範囲の値しかわからなくなる。

ここでは、話を単純化するために、±５点という揺らぎだと説明しましたが、実際は統計学的な分布の性質を使って、集団のどこをとっても、平均値のような統計情報は正確に計算できるけど、個人の得点を計算しようしとすると途端に誤差が大きくなるというように設計をします。

このようにして、集団の統計情報としては実用的でありながら、個人のプライバシーを守ろうというのが差分プライバシーの考え方です。

現在のスマホのAI対応は次のようになっています。

多くのメーカーが大規模言語モデルを自社開発していますが、性能を高めたり、個性を出すために、バイトダンスの豆包や百度の文心一言（ERNIE）、ChatGPTなどを採用しているメーカーもあります。

アップルだけでなく、AI対応をすることでユーザーのプライバシーをどのように守るかは各社とも大きなテーマになっています。しかし、オンデバイスでAIを動かすには大容量のメモリが必要であり、それには本体価格が上昇をするため、各社ともプライバシーと本体性能の狭間の中で、さまざまな工夫をしています。

今回は、プライバシー保護を軸にして、各社がどのようなAI化戦略を取ろうとしているのかをご紹介します。

続きはメルマガでお読みいただけます。

毎週月曜日発行で、月額は税込み550円となりますが、最初の月は無料です。月の途中で購読登録をしても、その月のメルマガすべてが届きます。無料期間だけでもお試しください。

今月、発行したのは、以下のメルマガです。

vol.279：人型ロボットの開発はどこまで進んでいるのか。自動車メーカーとロボットの親密な関係

vol.280：中国人の7割は所得税を支払っていない。中国政府はどこからお金を持ってきているのか

xiaomi(シャオミ)