「ビールと紙おむつ」のような相関関係を探る分析手法にはどんなものがある?――データ分析方法についての検討ITエンジニアのためのデータサイエンティスト養成講座(5)(1/5 ページ)

分析から導き出される隠れた相関関係を探るには? 代表的分析手法の紹介と、サンプルを使った実際の分析手法を紹介します。

» 2013年08月22日 18時45分 公開
[中林紀彦日本アイ・ビー・エム]

連載バックナンバー

 前回は「データを分析できる状態にする」をテーマに、ビジネスデータの分析で欠かすことのできない時系列データを中心に「データの取り扱い方」紹介しました。今回は、目的に応じた分析手法を選択するためにどのような分析手法があるかを簡単にご紹介し、実際に分析をする方法を実例を使いながら説明したいと思います。

ビジネスの課題に応じた手法を選択する

 第1回でも説明した通り、与えられたビジネス課題を解くための分析手法を検討するのはデータ分析の最初のフェイズですが、解決するビジネス課題もさまざまであり解決するための手法も千差万別です。さらに1つの手法をとってみてもそれだけを説明する書籍があったり学術論文になっていたりします。また最近では、数値データ以外のさまざまな種類のデータを分析対象として扱うケースが多くなり、例えばテキストマイニングの手法と以前からの統計的手法を組み合わせたハイブリッドな分析手法を用いる場合も増えてきています。ただし、このような高度な応用的手法もいくつかの基礎的な分析手法を組み合わせたものがほとんどなので、基礎的な分析手法の理解と実践が大切です。

 本連載では、データ分析への敷居をなるべく低くすることで、一人でも多くの読者に取り組んでもらうことを目的としていますので、ここではビジネス課題を大きく2つに分類して、それぞれで利用する代表的な4つの基本的な手法を紹介します。大切なことは、分析を“意思決定やアクションにつなげる”ことです。いかに精緻な分析をしても意思決定やアクションにつながらなければ意味がありません。

販売実績や来店者数など数値の変化をモデル化し予測する

 例えば、今月までの販売実績から来月以降の販売台数や金額などを予測したり、過去の来店者数から将来の来店者数を予測したりする数式(モデル)を作る手法では、2つの代表的な手法が挙げられます。

 将来の予測が可能になることで事前により効果的なアクションが考えやすくなります。Webサイトのアクセス数から商品の売り上げを予測するための関係式を分析したり、気温からビールの売り上げを予測する関連式を分析したりするなどもここに分類されます。

【回帰分析(Regression Analysis)/重回帰分析(Multiple regression analysis)】

 Webサイトの閲覧数(PV)から売り上げ金額を予測するための関係式を分析したり、気温からビールの売り上げを予測するための関係式を分析したりと、目的変数を説明変数とパラメータを使った数式で表現する手法です。

 単純なものとしては次のような1次関数が挙げられます。

y = ax + b



 このケースは説明変数が1つなので単回帰分析と呼びます。

 次の式のように説明変数が複数のものを重回帰分析と呼びます。

y = a1 x1 + a2 x2 + a3 x3 + ……



 例えば、商品の売り上げをWebサイトの「アクセス数」と「割引の割合」の2つの説明変数の相関で表すときには、重回帰分析を利用します。さらに説明変数の2乗や3乗、対数を使った2次回帰3次回帰対数回帰などの応用もあります。回帰分析については次回詳しく紹介します。

【時系列分析(Time series Analysis)】

 時間帯ごとの来客数や月別の乗客数など時系列に並んだ1つの目的変数を時間と過去の目的変数自身で表現するモデルです。ARMAモデル(AutoRegressive Moving Average Model)やARIMAモデル(AutoRegressive Integrated Moving Average Model)がよく用いられます。

 ただし、説明変数がない(厳密には過去の目的変数)ので、最近の変化が複雑なビジネスケースには直接当てはまるケースは少なく、他の手法と組み合わせて用いることもあります。詳しくは本連載第9回で紹介する予定です。

       1|2|3|4|5 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。