【3/18〜】Amazon、VMwareが語る『クラウドの未来』 スラッシュドット    はてなブックマーク  Yahoo!ブックマークに登録  印刷


Hive――RDB使いのためのHadoopガイド・前編

Hadoop+Hive検証環境を構築してみる

鈴木啓修
InterDB
2009/2/27
Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。

Hiveとは

 Hiveは、オープンソースの大規模分散計算フレームワークHadoop上で動作するデータウエアハウス(Data Warehouse:DWH)向けのプロダクトです。

 Hadoopは、グーグルが社内で利用しているGFSとMapReduceのオープンソース版です。詳細は次の記事を参照してください。

 HiveはHiveQLというSQL風の言語でHadoop上のデータを操作できます。Hadoop上のデータベースというとHBaseが有名ですが、HiveはHDFSに対してよりユーザーフレンドリなインターフェイスを提供するもので、HBaseとは根本的に存在意義が異なります。

●図1 HadoopとHiveの概念


注:HDFSはHadoopが採用している分散ファイルシステム。

 HiveはFacebookで開発され、2008年12月に正式にHadoopプロジェクトに寄贈(contribute)されました。

 最新バージョンが0.19.1と、まだバージョンも若く、機能もドキュメントも不足していますが、すでにFacebook社内では2000台のサーバ上で稼働しているようで、今後の進展にも期待が持てるプロダクトです。

 実際、2月20日にリリースされた0.19.1ではマイナーバージョンアップにもかかわらず、副問い合わせ(サブクエリ)をはじめ、文字列の連結concat( )や切り出しsubstr( )などの文字列関数、count( )やmin( )、max( )の集約関数など、多くの機能追加がありました。Hiveに関する基本的な情報源を下のコラムに示しますので、これらのドキュメントも参考にしてみてください。

 次ページからは、実際にHadoop環境を手元のマシン上に構築し、Hiveの基本的な操作を試していきます。

コラム◆Hiveの基本情報

 Hiveについての基本的な情報は下記Webサイトにまとめられています。本稿とあわせて参考にしてください。

1/6 次のページへ

Index
Hive――RDB使いのためのHadoopガイド
前編 Hadoop+Hive検証環境を構築してみる
→ Page 1
・Hiveとは
コラム◆Hiveの基本情報

Page 2
・Hadoop+Hiveのインストール
 ユーザ登録/Java SE 6(JDK 1.6)のインストール/環境変数の設定
 hadoop-0.19.1のインストール/データファイルのダウンロード

Page 3
・Hiveの基本的な使い方
・テーブルの作成とデータの読み込み:CREATE TABLEとLOAD DATA
後編 SQLライクにHadoop Hiveを使い倒す!

Page 4
パーティションを利用する/コラム◆MapReduce操作について

Page 5
・テーブルの検索:SELECT
シンプルなSELECT文/パターンマッチング/テーブルの結合

Page 6
・データの保存:INSERT
データを直接挿入する/HDFSのファイルとして保存する
ユーザーが直接扱う(普通の)ファイルとして保存
・まとめ:Hadoopを直接操作するよりも簡単!

ホワイトペーパーTechTargetジャパン

Database Expert フォーラム 新着記事

@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

RSSフィード

スキルアップ/キャリアアップ(JOB@IT)

- PR -
- PR -

お勧め求人情報

キャリアアップ 〜JOB@IT
@IT Special -PR-
  TomcatやJBossなどAPサーバ環境に関する
情報を集約! “業務”用APサーバ大百科

New!
  一気に解説! 最新のクラスタストレージ
「RAIDを超えたストレージ基準」……など

New!
  クラウド的ユーザー体験の変化は脅威か?
仮想化技術を使いこなす運用管理術を紹介

New!

  上司や部下、部署内メンバーとの情報共有
を“ガラッ”と変えるコラボツールとは?

New!
  おばかアプリ選手権、第4弾開催中!!
ムダにカッコよくてくだらない作品求ム!

  社内ファイルサーバを“クラウド”に統合
VPN直結「クラウド型ストレージ」を紹介

  Twitterのアカウントはなぜ突破された?
メールによる新手の攻撃手法とその対策

  もう仮想化のお試しフェイズは終わりだ!
Hyper-V 2.0が基幹システムも仮想化

  美人!? まあまあ? 気になる いやし系!!
PV急増で「美人時計」がとった手段とは?

  クライアント企業から求められる人材
⇒IT技術と経営戦略を併せ持つ「戦略家」

  .NET編集長が実践する「技術情報検索術」
サンプル・コードを簡単に探す“技”は?

  業務効率と情報セキュリティ対策を両立!
手間なく確実に機密情報を守る方法とは?

  進化を続ける富士通ストレージETERNUS DX
製品開発者の自信を裏付けるものとは何か

  運用管理の課題を“2つの観点”から分析
ユーザー満足度の高い「仮想環境」とは?

  【CTC事例】約30の基幹システムを統合!
膨大なバッジジョブを制御した方法は?

  仮想化すればコストは削減できるか?
仮想化に必要な「3つの視点」を解説する

  その数、なんと400台以上! グループ内
サーバの「統合管理」によるメリットは?