MITなどの研究チーム、匿名化済みの移動情報にプライバシーリスクを発見：ビッグデータは匿名化後も依然として危険か

MITなどの研究チームは、人々の移動パターンに関する大規模な匿名データセット（モビリティデータ）を集約し、分析することで、人々のプライバシーが危険にさらされる恐れのあることを発見した。

» 2018年12月19日 08時00分公開

[＠IT]

　マサチューセッツ工科大学（MIT）は2018年12月7日（米国時間）、同大学などの研究チームの研究によって、人々の移動パターンに関する大規模な匿名データセット（モビリティデータ）の集約と分析が、もろ刃の剣であることを明らかになったと発表した。

　モビリティデータの分析は現在、各国で広く行われており、人々の行動について深い洞察をもたらす場合がある。その一方で人々のプライバシーを危険にさらす恐れがあるという。

　政府や企業、研究機関などさまざまな組織が、「ロケーションスタンプ（位置座標と時刻）」を含むユーザーの匿名データを収集、保存、処理している。

　これらのデータを取得するには、スマートフォンの通話記録や、クレジットカードの取引記録、公共交通スマートカードの情報、Twitterアカウントの書き込み、モバイルアプリのログが役立つ。これらのデータセットを集約、分析することで、交通計画や都市計画などの最適化といった目的のために、人の移動に関する豊富な情報が得られる可能性がある。

都市計画や都市開発などのために人々の移動パターンに関する大規模データセットの収集、分析が広く行われるようになっている。だが、MITなどの研究チームは、こうした取り組みは、データが匿名化されていても、人々の個人データを危険にさらす恐れがあることを明らかにした（出典：MIT）

　だが、ビッグデータにはプライバシーの問題が付きまとう。ロケーションスタンプは個々人に「固有」であり、不正に使用される恐れがある。今回の研究により、大規模なモビリティーデータセットのうちランダムに選択した幾つかのポイントから、個人の行動を特定可能であることが分かった。

複数のデータセットを組み合わせると匿名情報が非匿名情報に変化

　複数のモビリティーデータセットを集約すると、特定がさらに容易になる。あるデータセットの匿名データに示されるユーザーの移動経路と、別のデータセットにある非匿名データの移動経路が一致していることを見つけ出し、匿名データを非匿名化できる可能性がある。

　MITなどの研究チームは、2018年12月に刊行された「IEEE Transactions on Big Data」で発表した論文「Towards matching user mobility traces in large-scale datasets」で、2つの大規模データセットにおけるユーザーの“一致可能性”に関する初の分析を行った。その結果、匿名データの非匿名化がどのように進むのかが明らかになった。

　分析対象となったのは、2011年に得られたシンガポールの携帯事業者と交通システムそれぞれの大規模データセットだ。携帯事業者から得たデータには200万人の情報が含まれており、4億2500万件のロケーションスタンプが得られた。交通システムからは7000万件のロケーションスタンプを取得できた。

　研究者は、両方のデータセットにおけるユーザーのロケーションスタンプを追跡する統計モデルを使用し、両方のセットから同一人物のデータポイントを特定できる割合を調べた。

　この統計モデルでは偽陽性の確率を計算できる。特定のユーザーが両方のデータセットに含まれる確率は、それぞれのデータセットのサイズとともに増加するものの、データが誤って一致してしまう可能性も高くなる（偽陽性）。

　今回の統計モデルでは、一方のデータセットからユーザーを選択し、他のデータセットから多数の一致するロケーションスタンプを見つける。この手法では、一致点の数が増加すると、偽陽性の確率が減少する。具体的にはユーザーの移動軌跡に沿って一定の数のロケーションスタンプが合致した場合、偽陽性ではなく、真の一致だと判定した。

スマホのGPS情報は特に「危険」

　実験の結果、この統計モデルを使うと、1週間分のデータからは、1日当たり平均3～4回移動している個人の16.8％について、一致するデータポイントを発見できた。期間を1カ月に延ばすと、同様の個人の約55％以上を発見できた。11週間では約95％にまで確率が高まった。

　逆方向の検証も試みた。1週間分のデータだけを使って個人を90％特定するには、30～49の交通記録と、約1000の携帯情報があればよいことが分かった。スマートフォンのGPSアプリ情報があれば、さらに効率良く特定が可能だ。GPSデータを2種類組み合わせるだけで、1週間分未満のデータから95％の個人を特定できるという。

　この結果は何を物語るのだろうか。

　MITのチームが用いたような統計モデルは、データセットにおける移動経路の一致を発見する効率的でスケーラブルな方法だということだ。統計モデルの利用が研究目的に限られているなら、人の移動に関する研究がより進むだろう。だが、研究者は（非倫理的な企業が統計モデルを使うことで）、ユーザーデータを非匿名化してしまう可能性が高まることを警告している。

　「大規模データセットへの取り組みは、人間社会やモビリティーに関する洞察をもたらし、都市計画の改善につながる可能性がある。それでも、人々がモビリティーデータの共有に伴う潜在リスクを認識できるよう、（匿名データであっても）個人の特定が可能であることを示さなければならない」（MITのSenseable City研究所のポストドクトリアル研究員であるDaniel Kondor氏）

　研究チームは、今回の研究が、消費者データの共有に関する社会の認識の向上と、規制強化のきっかけになることを願っている。研究者は次のように語っている。

　「ロケーションスタンプ付きの全てのデータ（今日の収集されるデータの大部分が該当する）は、プライバシーを明らかにしてしまう高い可能性があり、人々はこうしたデータを誰と共有するか、十分な事前情報に基づいて決めなければならない。われわれは、大規模な個人データの処理におけるこうした課題や、プライバシーを保証する適切な方法について、考え続ける必要がある」（MITのSenseable City研究所で教授を務めるCarlo Ratti氏）

　Ratti氏は研究によって明らかになったことを平易な例に例えてみせた。

　「私が2日前にシンガポールのセントーサ島にいたとしましょう。昨日ドバイ空港に到着して、今日はドバイのジュメイラビーチにいたとします。私と全く同じ経路を別人がたどることはほとんどありません。要するに、私のTwitterの投稿から誰かが私の移動経路を知り得たとすれば、匿名化されたクレジットカード情報を私のものだと特定できるのです」

復号せずに複数の暗号化データの関連性を解析、NICTらが医療データ解析で実証
NICTと筑波大学は、医療データを暗号化されたまま解析する技術「まぜるな危険準同型暗号」を利用して、医療データを復号せずに、解析対象のデータかどうかを判別できることを実証した。個人の遺伝情報と病気の罹患情報との統計的な関連性を、各個人の病気の有無や遺伝情報を知ることなく安全に解析できるため、医療ビッグデータを安全に活用しやすくなる。
データ分析への投資が拡大するも、社内のアクセス制限などがネック
マイクロストラテジー・ジャパンは日本など5カ国を対象とした「グローバルエンタープライズアナリティクス調査2018」を発表した。企業にとってデータ分析が重要な位置を占めることが明らかになった半面、社内のアクセス制限や従業員のトレーニング不足など3つの課題も見えてきた。
ビッグデータのセキュリティ対策に必要な「10」の項目
ビッグデータのセキュリティ対策には、どんな心構え／対策が必要か。マカフィーが「企業が取り組むべき、10の項目」を公開した。