MITなどの研究チーム、匿名化済みの移動情報にプライバシーリスクを発見ビッグデータは匿名化後も依然として危険か

MITなどの研究チームは、人々の移動パターンに関する大規模な匿名データセット(モビリティデータ)を集約し、分析することで、人々のプライバシーが危険にさらされる恐れのあることを発見した。

» 2018年12月19日 08時00分 公開
[@IT]

 マサチューセッツ工科大学(MIT)は2018年12月7日(米国時間)、同大学などの研究チームの研究によって、人々の移動パターンに関する大規模な匿名データセット(モビリティデータ)の集約と分析が、もろ刃の剣であることを明らかになったと発表した。

 モビリティデータの分析は現在、各国で広く行われており、人々の行動について深い洞察をもたらす場合がある。その一方で人々のプライバシーを危険にさらす恐れがあるという。

 政府や企業、研究機関などさまざまな組織が、「ロケーションスタンプ(位置座標と時刻)」を含むユーザーの匿名データを収集、保存、処理している。

 これらのデータを取得するには、スマートフォンの通話記録や、クレジットカードの取引記録、公共交通スマートカードの情報、Twitterアカウントの書き込み、モバイルアプリのログが役立つ。これらのデータセットを集約、分析することで、交通計画や都市計画などの最適化といった目的のために、人の移動に関する豊富な情報が得られる可能性がある。

都市計画や都市開発などのために人々の移動パターンに関する大規模データセットの収集、分析が広く行われるようになっている。だが、MITなどの研究チームは、こうした取り組みは、データが匿名化されていても、人々の個人データを危険にさらす恐れがあることを明らかにした(出典:MIT

 だが、ビッグデータにはプライバシーの問題が付きまとう。ロケーションスタンプは個々人に「固有」であり、不正に使用される恐れがある。今回の研究により、大規模なモビリティーデータセットのうちランダムに選択した幾つかのポイントから、個人の行動を特定可能であることが分かった。

複数のデータセットを組み合わせると匿名情報が非匿名情報に変化

 複数のモビリティーデータセットを集約すると、特定がさらに容易になる。あるデータセットの匿名データに示されるユーザーの移動経路と、別のデータセットにある非匿名データの移動経路が一致していることを見つけ出し、匿名データを非匿名化できる可能性がある。

 MITなどの研究チームは、2018年12月に刊行された「IEEE Transactions on Big Data」で発表した論文「Towards matching user mobility traces in large-scale datasets」で、2つの大規模データセットにおけるユーザーの“一致可能性”に関する初の分析を行った。その結果、匿名データの非匿名化がどのように進むのかが明らかになった。

 分析対象となったのは、2011年に得られたシンガポールの携帯事業者と交通システムそれぞれの大規模データセットだ。携帯事業者から得たデータには200万人の情報が含まれており、4億2500万件のロケーションスタンプが得られた。交通システムからは7000万件のロケーションスタンプを取得できた。

 研究者は、両方のデータセットにおけるユーザーのロケーションスタンプを追跡する統計モデルを使用し、両方のセットから同一人物のデータポイントを特定できる割合を調べた。

 この統計モデルでは偽陽性の確率を計算できる。特定のユーザーが両方のデータセットに含まれる確率は、それぞれのデータセットのサイズとともに増加するものの、データが誤って一致してしまう可能性も高くなる(偽陽性)。

 今回の統計モデルでは、一方のデータセットからユーザーを選択し、他のデータセットから多数の一致するロケーションスタンプを見つける。この手法では、一致点の数が増加すると、偽陽性の確率が減少する。具体的にはユーザーの移動軌跡に沿って一定の数のロケーションスタンプが合致した場合、偽陽性ではなく、真の一致だと判定した。

スマホのGPS情報は特に「危険」

 実験の結果、この統計モデルを使うと、1週間分のデータからは、1日当たり平均3〜4回移動している個人の16.8%について、一致するデータポイントを発見できた。期間を1カ月に延ばすと、同様の個人の約55%以上を発見できた。11週間では約95%にまで確率が高まった。

 逆方向の検証も試みた。1週間分のデータだけを使って個人を90%特定するには、30〜49の交通記録と、約1000の携帯情報があればよいことが分かった。スマートフォンのGPSアプリ情報があれば、さらに効率良く特定が可能だ。GPSデータを2種類組み合わせるだけで、1週間分未満のデータから95%の個人を特定できるという。

 この結果は何を物語るのだろうか。

 MITのチームが用いたような統計モデルは、データセットにおける移動経路の一致を発見する効率的でスケーラブルな方法だということだ。統計モデルの利用が研究目的に限られているなら、人の移動に関する研究がより進むだろう。だが、研究者は(非倫理的な企業が統計モデルを使うことで)、ユーザーデータを非匿名化してしまう可能性が高まることを警告している。

 「大規模データセットへの取り組みは、人間社会やモビリティーに関する洞察をもたらし、都市計画の改善につながる可能性がある。それでも、人々がモビリティーデータの共有に伴う潜在リスクを認識できるよう、(匿名データであっても)個人の特定が可能であることを示さなければならない」(MITのSenseable City研究所のポストドクトリアル研究員であるDaniel Kondor氏)

 研究チームは、今回の研究が、消費者データの共有に関する社会の認識の向上と、規制強化のきっかけになることを願っている。研究者は次のように語っている。

 「ロケーションスタンプ付きの全てのデータ(今日の収集されるデータの大部分が該当する)は、プライバシーを明らかにしてしまう高い可能性があり、人々はこうしたデータを誰と共有するか、十分な事前情報に基づいて決めなければならない。われわれは、大規模な個人データの処理におけるこうした課題や、プライバシーを保証する適切な方法について、考え続ける必要がある」(MITのSenseable City研究所で教授を務めるCarlo Ratti氏)

 Ratti氏は研究によって明らかになったことを平易な例に例えてみせた。

 「私が2日前にシンガポールのセントーサ島にいたとしましょう。昨日ドバイ空港に到着して、今日はドバイのジュメイラビーチにいたとします。私と全く同じ経路を別人がたどることはほとんどありません。要するに、私のTwitterの投稿から誰かが私の移動経路を知り得たとすれば、匿名化されたクレジットカード情報を私のものだと特定できるのです」

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。