連載
» 2013年08月22日 18時45分 公開

ITエンジニアのためのデータサイエンティスト養成講座(5):「ビールと紙おむつ」のような相関関係を探る分析手法にはどんなものがある?――データ分析方法についての検討 (3/5)

[中林紀彦,日本アイ・ビー・エム]

(1)視覚化して全体像をつかむ

 まずはそれぞれのデータを取り込んでグラフで表示し、全体像をつかんでみましょう。

 電力使用状況のデータは1時間ごとのデータですが、気温の情報は1日ごとのデータになっていて時間の間隔が等しくありません。

 ここでは電力使用状況のデータをダウンサンプリングして(第4回参照)、1日ごとの最大値のデータに変換してグラフに表示しています(グラフ1)。

In [1]: # ライブラリのインポート
In [2]: import pandas as pd
In [3]: import numpy as np
In [4]: # 電力の使用状況データの取り込み
In [5]: df_power = pd.read_csv('http://www.tepco.co.jp/forecast/html/images/juyo
-2013.csv', skiprows=3, names=['date', 'time', 'actual'], encoding='Shift_JIS')
In [6]: # 時系列インデックスの生成と付与
In [7]: idx_power = pd.to_datetime(df_power['date']+' '+df_power['time'])
In [8]: df_power.index = idx_power
In [9]: # 必要ない列の削除
In [10]: del df_power['date']
In [11]: del df_power['time']
In [12]: # ダウンサンプリング(最大値)
In [13]: df_power_daily = df_power.resample('D', how='max', kind='period')
In [14]: # プロット
In [15]: df_power_daily.plot()
Out[15]: <matplotlib.axes.AxesSubplot at 0x493ccf0>
グラフ1

 グラフから、1月から4月にかけて使用量は徐々に減少し、5月以降は徐々に増加していることが分かります。ここから、4月までは暖房機器による使用の影響が大きく、5月以降は冷房機器による影響が大きいことが推測されます。また、平日と週末の使用量に差があり週末の方が電力使用量が少ないことも分かります。

 次に東京都の最高気温と最低気温データの取り込んでグラフに表示します(グラフ2)。

In [16]: # 東京都の最高気温と最低気温データの取り込み
In [17]: df_temp = pd.read_csv('data.csv', skiprows=4, names=['date', 'high', 'l
ow'], encoding='Shift_JIS')
In [18]: # 時系列インデックスの生成と付与
In [19]: idx_temp = pd.to_datetime(df_temp['date'])
In [20]: df_temp.index = idx_temp
In [21]: # 必要ない列の削除
In [22]: del df_temp['date']
In [23]: # プロット
In [24]: df_temp.plot()
Out[24]: <matplotlib.axes.AxesSubplot at 0x4db2930>
グラフ2

 1月から7月まで多少のバラツキはあるものの最高気温も最低気温も増加傾向であることが分かります。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。