Hive――RDB使いのためのHadoopガイド・前編
Hadoop+Hive検証環境を構築してみる
鈴木啓修
InterDB
2009/2/27
InterDB
2009/2/27
Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。
Hiveとは
Hiveは、オープンソースの大規模分散計算フレームワークHadoop上で動作するデータウエアハウス(Data Warehouse:DWH)向けのプロダクトです。
Hadoopは、グーグルが社内で利用しているGFSとMapReduceのオープンソース版です。詳細は次の記事を参照してください。
HiveはHiveQLというSQL風の言語でHadoop上のデータを操作できます。Hadoop上のデータベースというとHBaseが有名ですが、HiveはHDFSに対してよりユーザーフレンドリなインターフェイスを提供するもので、HBaseとは根本的に存在意義が異なります。
●図1 HadoopとHiveの概念
注:HDFSはHadoopが採用している分散ファイルシステム。
HiveはFacebookで開発され、2008年12月に正式にHadoopプロジェクトに寄贈(contribute)されました。
最新バージョンが0.19.1と、まだバージョンも若く、機能もドキュメントも不足していますが、すでにFacebook社内では2000台のサーバ上で稼働しているようで、今後の進展にも期待が持てるプロダクトです。
実際、2月20日にリリースされた0.19.1ではマイナーバージョンアップにもかかわらず、副問い合わせ(サブクエリ)をはじめ、文字列の連結concat( )や切り出しsubstr( )などの文字列関数、count( )やmin( )、max( )の集約関数など、多くの機能追加がありました。Hiveに関する基本的な情報源を下のコラムに示しますので、これらのドキュメントも参考にしてみてください。
次ページからは、実際にHadoop環境を手元のマシン上に構築し、Hiveの基本的な操作を試していきます。
コラム◆Hiveの基本情報
Hiveについての基本的な情報は下記Webサイトにまとめられています。本稿とあわせて参考にしてください。- The Apache Software Foundation内のHiveプロジェクトのWebサイト:http://hadoop.apache.org/hive/
- Hadoop Wiki内のHive関連記事:
http://wiki.apache.org/hadoop/Hive
| 1/6 |
| Index | |
| Hive――RDB使いのためのHadoopガイド | |
| 前編 Hadoop+Hive検証環境を構築してみる | |
| Page 1 ・Hiveとは コラム◆Hiveの基本情報 |
|
| Page 2 ・Hadoop+Hiveのインストール ユーザ登録/Java SE 6(JDK 1.6)のインストール/環境変数の設定 hadoop-0.19.1のインストール/データファイルのダウンロード |
|
| Page 3 ・Hiveの基本的な使い方 ・テーブルの作成とデータの読み込み:CREATE TABLEとLOAD DATA |
|
| 後編 SQLライクにHadoop Hiveを使い倒す! | |
| Page 4 パーティションを利用する/コラム◆MapReduce操作について |
|
| Page 5 ・テーブルの検索:SELECT シンプルなSELECT文/パターンマッチング/テーブルの結合 |
|
| Page 6 ・データの保存:INSERT データを直接挿入する/HDFSのファイルとして保存する ユーザーが直接扱う(普通の)ファイルとして保存 ・まとめ:Hadoopを直接操作するよりも簡単! |
|
TechTargetジャパン
Database Expert フォーラム 新着記事
- やはりSELECT文は永遠のテーマです (2012/2/7)
Database Expertフォーラムの2012年1月のアクセスランキングをお届けします。定番の記事を一気に追い抜いてあの記事が…… - SELECT文で取り出したデータを加工して表示する (2012/1/25)
SELECT文で取り出したデータを対象に四則演算する方法など、データを見やすくする方法を解説します - 2012年は私たちが勉強会を盛り上げる! (2012/1/23)
2011年12月、データベース業界初の女子会が発足しました。そこで、女子会を盛り上げていってくれそうな2人にお話を伺いました - 複数の条件を指定してSELECT文を実行する (2012/1/13)
複数の条件を指定してSELECT文を実行する方法と、条件指定に必要な論理演算子、比較演算子の役割を解説します
|
|
@IT 新着記事
キャリアアップ
スポンサーからのお知らせ
- - PR -
イベントカレンダー
- - PR -
お勧め求人情報
転職/派遣情報を探す
**先週の人気講座ランキング**
〜 Android編 〜
ホワイトペーパー(TechTargetジャパン)
ソリューションFLASH

