連載
» 2013年05月23日 18時05分 公開

ITエンジニアのためのデータサイエンティスト養成講座(2):データ分析がデキるITエンジニアになるために必要な「道具」を揃える (4/4)

[中林紀彦,日本アイ・ビー・エム]
前のページへ 1|2|3|4       

簡単なデータの取り込みとグラフの描画

 せっかくなのでもう少し触ってみましょう。

 東京電力のWebページに電力の使用状況データがCSV形式で公開されていますので、このデータを読み込んでグラフに描画してみましょう。

 詳しくは次回説明しますが、Pythonの場合、データの取り込みは簡単です。pandasが提供しているread_csv関数を使えば、HTTP経由でCSVファイルをダウンロードし、不必要な行を削除し、さらに文字コードを変換したうえで配列(DataFrame)に格納してくれます。

 これをplotメソッドで、グラフ描画します。

 下はPythonのコマンドラインインターフェイスから実際にCSVファイルを取得、指定カラムを文字コードを変更して格納、plotメソッドで描画するためのサンプルコードです。

In [1]: import pandas as pd
In [2]: df = pd.read_csv('http://www.tepco.co.jp/forecast/html/images/juyo-2013.csv', skiprows=3, names=['date', 'time', 'actual'], encoding='Shift_JIS')
In [3]: df
Out[3]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 2880 entries, 0 to 2879
Data columns (total 3 columns):
date      2880  non-null values
time      2880  non-null values
actual    2880  non-null values
dtypes: int64(1), object(2)
In [4]: df.actual.plot()
Out[4]: <matplotlib.axes.AxesSubplot at 0x44ecff0>

おわりに

 第2回は「分析環境の準備」というテーマで分析に必要な機能とその機能を実装した「道具」(ツール)について説明し、この連載で取り上げるPythonがなぜ分析ツールとして向いているのか、Python環境や必要なライブラリのセットアップについて説明しました。

 今回セットアップしたライブラリ(Ipython、NumPy、SciPy、pandas、matplotlib)については第3回以降の具体的な作業の説明とともに詳しくご紹介したいと思います。

 次回は、データの取り込みや書き出しについて具体的な手順も含めてご紹介しますのでお楽しみに。

前のページへ 1|2|3|4       

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。