連載
» 2013年08月22日 18時45分 公開

ITエンジニアのためのデータサイエンティスト養成講座(5):「ビールと紙おむつ」のような相関関係を探る分析手法にはどんなものがある?――データ分析方法についての検討 (5/5)

[中林紀彦,日本アイ・ビー・エム]
前のページへ 1|2|3|4|5       

Column:Python環境のアップデート

 ここでは、Python本体やいくつかのモジュールがアップデートされていますので紹介しておきます。アップデートはバグフィックスが主ですが、pandasに関してはいくつかの便利な機能が追加されています。APIの変更もありますのでアップデートの際には注意が必要ですが、正規表現を使ったデータのクレンジングが強化されたり便利な機能もありますので、影響がなければアップデートをお薦めします。

Python本体

 最新のバージョン2.7.5がリリースされています。下記ダウンロードサイトから配布されています。本連載ではWindows環境で操作を行っていますので、リストのうち「Python 2.7.5 Windows Installer」を選択します。インストーラはmsiファイルとして配布されています。

 ダウンロードしたpython-2.7.5.msiを実行すると、インストーラが起動します。ウィザードに従ってインストール(アップデート)します。途中、以前のバージョンが削除されるというメッセージが出ます。削除を承認すると、インストールされていた2.7.4が削除され、新たに2.7.5がインストールされます。

distribute

 distributeは、最新のバージョン0.6.49がリリースされています。こちらはTarball形式で配布されています。

ダウンロードURL:https://pypi.python.org/pypi/distribute/0.6.49

 ダウンロードしたdistribute-0.6.49.tar.gzを解凍したディレクトリで以下のコマンドを実行します。

C:\>python setup.py install

pandas:Python Data Analysis Library

 pandasは最新のバージョン0.12.0がリリースされていますので、easy_installコマンドを使ってアップデートします。

C:\>easy_install -U pandas

 pandasの変更点や新機能に関しては、こちらをご覧ください。

mathplotlib

 mathplotlibの最新のバージョンは1.3.0です。exeファイルとして配布されています。Python 2.7用のmathplotlib 1.3.0を導入します。

 ダウンロードしたmatplotlib-1.3.0.win32-py2.7.exeを実行し、上書きインストールします。なお、このバージョンではpyparsingモジュールが必要になるようなので、easy_installを使ってインストールしておきます。

C:\>easy_install pyparsing

補足:環境変数の設定

 第2回で環境を用意する際には言及を省略しましたが、Python環境をコマンドラインから利用するために、システム環境変数の“Path”に以下のディレクトリを追加しておきます。

C:\Python27\;C:\Python27\Scripts\;

おわりに

 今回は、ビジネスの現場でよく用いられる分析手法を4つ示し、Pythonを使った具体的な分析の進め方を紹介しました。

 繰り返しになりますが、大切なことは、分析を意思決定やアクションにつなげることで、いかに精緻な分析をしても意思決定やアクションにつながらなければ意味がありません。

 次回は「回帰分析」についてさらに詳しく紹介する予定です。お楽しみに。

前のページへ 1|2|3|4|5       

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。