いまさら聞けないHadoopとテキストマイニング入門：テキストマイニングで始める実践Hadoop活用（1）（3/3 ページ）

» 2011年06月21日 00時00分公開

[吉田一星，ヤフー株式会社]

Hadoopを使うためのセットアップ

　手元のマシンで手軽に試してみたいという用途ならば、セットアップ済みのVMwareのイメージが公開されていて便利ですので、こちらの使用方法を解説します。

　ただ、本格的に使用するには、複数台のUNIX環境のサーバを用意することをお勧めします。

　UNIX環境をお持ちの方は、Hadoopのオフィシャルページなどを見てセットアップしてください。オフィシャルページの日本語訳もあります。

　また、「Cloudera's Distribution for Hadoop」を利用すると、apt-getやyumなどのコマンドでインストールができ、より簡単にセットアップすできます。Web上にCloudera's Distribution for Hadoopのセットアップ方法の日本語記事が多数見つかりますので、そちらを参照してください。

Documentation - Cloudera Support via kwout

　サーバを用意できないという方は、「Amazon Elastic MapReduce」というサービスの使用がおすすめです。これは、Amazonの仮想サーバでHadoopの処理を行えるサービスで、Hadoopのセットアップの手間がほとんど要りません。100台を1時間程度使用しても、大体1000円程度で使えます。

Amazon Elastic MapReduce via kwout

　まずは、手元のVMWare上で小さいデータでテストして、Amazon Elastic MapReduceで、大規模なデータを解析するという使い方がよいでしょう。

Windows用のHadoop VMをセットアップ

　Windows環境を対象に、Yahoo!から配布されている「Hadoop 0.20.S Virtual Machine」をセットアップする手順を説明します。

　Mac環境でもVMWare Fusionを使えば、動かすことが可能です。「Yahoo! Cloud Virtual Machine Appliance − Yahoo! Hadoop Blog」に詳しく解説されています。

「VMWare Player」をインストールVMWare Player」をインストール
「Hadoop 0.20.S Virtual Machine」をダウンロードHadoop 0.20.S Virtual Machine」をダウンロード
ダウンロードしたファイルを解凍し、hadoop-appliance-0.20.S.vmxをダブルクリック
「移動しました」「コピーしました」という選択画面が現れるので，「コピーしました」を選択

　起動すると、以下のようにHadoop VMに関する情報が表示されます。

 ** Welcome to Apache Hadoop tutorial by Yahoo Inc. **
Linux : Ubuntu 8.04
Java  : JRE 6 Update 7 (See License info @ /usr/jre16/)
Login: hadoop-user, Passwd: hadoop (sudo privileges are granted). The other logins are hdfs and mapred (passwd: hadoop).
To start/stop hadoop: login as hadoop-user and run 'sudo /etc/init.d/hadoop restart' (also 'sudo /etc/init.d/hadoop' gives the usage)
To format the HDFS & clean all state/logs: login as hadoop-user and run 'sudo reinit-hadoop'
To shutdown Virtual Machine: login as hadoop-user and run 'sudo poweroff'
To access hdfs and run mapreduce jobs, login as hadoop-user and run kinit. The password is hadoopYahoo1234.
Environment for 'hadoop-user' (set in /home/hadoop-user/.profile)
$HADOOP_HOME=/usr/local/hadoop
$HADOOP_CONF_DIR=/usr/local/etc/hadoop-conf
$PATH=/usr/local/hadoop/bin:$PATH
IP Address of this Virtual Machine: 192.168.0.213

　VirtualMachineには、rootとhadoop-userというアカウントが設定されていて、パスワードは、それぞれroot、hadoopです。hadoop-userでログインしてください。

　なお、起動画面の、「IP Address of this Virtual Machine: 」と表示されているアドレスにPuTTYなどのSSHクライアント経由で接続すると、より便利です。

　すでにHadoopは起動された状態ですので、円周率を計算するサンプルを実行してみます。セキュリティ対応のHadoopなので、kinitでパスワードを入力してから実行します。パスワードは、hadoopYahoo1234です。

hadoop-user@hadoop-desk:~$ cd hadoop
hadoop-user@hadoop-desk:~$ kinit
Password for hadoop-user@LOCALDOMAIN:  hadoopYahoo1234
hadoop-user@hadoop-desk:~/hadoop$ bin/hadoop jar hadoop-examples-0.20.104.1.1006042001.jar pi 10 1000000

　実行すると以下のような円周率が計算されると思います。

……
Job Finished in 61.415 seconds
Estimated value of Pi is 3.14158440000000000000

　なお、Cloudera's Distribution for HadoopでもVMWare用のイメージが公開されています。

次回は、テキストマイニングプログラミング開始！

　今回は、Hadoopとテキストマイニングの概要と、Hadoopのセットアップ方法について解説しましたが、いかがでしたでしょうか。

　次回はいよいよ、テキストマイニングのMapReduceプログラムの作成に入っていきたいと思いますので、お楽しみに。

「次回」へ

「テキストマイニングで始める実践Hadoop活用」バックナンバー

前のページへ 1|2|3 　　　　　　

＠IT eBook

編集部からのお知らせ

5/7～8【無料オンラインセミナー】『＠IT 開発変革セミナー 2024 Spring ～効率化、コスト削減にとどまらない、システム開発の在るべき姿～』で、星野リゾート久本英司氏による【基調講演　星野リゾートの業務プラットフォームの一部を担うローコード／ノーコード開発の扱い方】、ディー・エヌ・エー国分佑樹氏による【基調講演　欠陥を早期に発見するための Software Engineer in Test とその重要性】を配信

＠IT

@ITについて

RSSについて

＠ITのRSS一覧

アイティメディアIDについて

アイティメディアIDとは

メールマガジン登録

＠ITのメールマガジンは、もちろん、すべて無料です。ぜひメールマガジンをご購読ください。

申し込みページへ

ITmediaはアイティメディア株式会社の登録商標です。

いまさら聞けないHadoopとテキストマイニング入門：テキストマイニングで始める実践Hadoop活用（1）（3/3 ページ）

Hadoopを使うためのセットアップ

Windows用のHadoop VMをセットアップ

次回は、テキストマイニングプログラミング開始！

関連記事

＠IT eBook

セル結合を回避しながら表の見た目も確保するなど、「構造化Excelテク」12本まとめ

【動画あり】サイバーセキュリティ人材が欲しい！　に応える無料の電子書籍

新規プロダクト開発のプロジェクト推進スキームと、ビジネスに価値を提供するエンジニアの振る舞いを学べる電子書籍

新たなプログラミング言語を習得したい人にオススメ！　プログラミング言語「Rust」の基礎をしっかり学べる無料の電子書籍

編集部からのお知らせ

いまさら聞けないHadoopとテキストマイニング入門：テキストマイニングで始める実践Hadoop活用（1）（3/3 ページ）

Hadoopを使うためのセットアップ

Windows用のHadoop VMをセットアップ

次回は、テキストマイニングプログラミング開始！

関連記事

＠IT eBook

セル結合を回避しながら表の見た目も確保するなど、「構造化Excelテク」12本まとめ

【動画あり】サイバーセキュリティ人材が欲しい！ に応える無料の電子書籍

新規プロダクト開発のプロジェクト推進スキームと、ビジネスに価値を提供するエンジニアの振る舞いを学べる電子書籍

新たなプログラミング言語を習得したい人にオススメ！ プログラミング言語「Rust」の基礎をしっかり学べる無料の電子書籍

編集部からのお知らせ

【動画あり】サイバーセキュリティ人材が欲しい！　に応える無料の電子書籍

新たなプログラミング言語を習得したい人にオススメ！　プログラミング言語「Rust」の基礎をしっかり学べる無料の電子書籍