「素のHadoop」をインストールして、簡単な処理を実行するきょうから試せる Hadoop“スモールスタート”ガイド(3)(2/3 ページ)

» 2017年02月20日 05時00分 公開

Apache Hadoopのインストール

 では次はHadoopのインストールに移ります。まずはHadoopを実行するためのユーザを管理するため、hadoopという名前のアカウントを専用ユーザを作成すると良いでしょう※4。起動や実行など、今後のHadoop操作はこのユーザで行うことになります。

 ※4 もちろんアカウント名は任意です

 準備ができたら、Apache HadoopプロジェクトのサイトからHadoopをダウンロードします。執筆時点ではhadoop-1.0.3.tar.gzが最新バージョンでした(編注:2017年2月現在の最新安定版は2.7.3となります)。解凍後、任意のパスに置いてください。今回は/usr/local以下に置くこととします。

 配置したディレクトリ以下の所有者をhadoopユーザにしておきましょう。

 なお、HadoopにはJavaがどこにインストールされているかや、Hadoopがどこに置かれているかについても設定してあげる必要があります。JAVA_HOMEやHADOOP_HOMEにパスを設定するので、~/.bashrcなどに設定しておくと良いでしょう※6

 ※6 設定後、source ~/.bashrcして反映させるのを忘れないでください

export JAVA_HOME=/usr/local/jdk1.6.0_33
export HADOOP_INSTALL=/usr/local/hadoop-1.0.3
export PATH=$HADOOP_INSTALL/bin:$JAVA_HOME/bin:$PATH

 インストールされていることを確認するためにバージョンを表示してみます。問題なくインストールできていればこのようにバージョン情報が表示されるはずです。

 hadoopコマンドでは他にもたくさんの引数が指定できて、さまざまな処理が行えます。以下に主なものをまとめてみたので参考にしてみてください。

表3-1 hadoopコマンドで利用する主なコマンド
コマンド 説明
jar jarファイルを実行するためのコマンド
fs HDFSを操作するためのコマンド
job Hadoopのジョブを扱うためのコマンド
version Hadoopのバージョンを表示するコマンド

表3-2 hadoopコマンドで利用できる共通オプション
オプション 説明
-conf 設定ファイルのパスを指定する
-D 特定の設定値を上書きしてhadoopに渡せる(property=value)
-fs ネームノードを指定する
-jt ジョブトラッカーを指定する
-files Hadoopクラスタに指定したカンマ区切りのファイルを配置する
-archives Hadoopクラスタに指定したカンマ区切りのアーカイブを展開して配置する
-libjars カンマ区切りで指定したjarファイルをclasspathに含める

 コマンドオプションはそれぞれのコマンド毎に存在するため詳しくは説明しませんが、気になるコマンドがあれば引数無しでコマンドを実行してみてください。コマンドの説明が表示されます。例えば、Hadoopのジョブに関する処理に対する操作(hadoop job xxx)を知りたいときにはこのようにhadoop jobとだけ指定して実行すれば説明が見れます。

 --listや--killなどさまざまなオプションがあることがわかりました。

 なお、引数を指定せずにhadoopコマンドを実行すると、すべてのコマンドの説明を見ることが出来るのでそちらも参考にしてみてください。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。