Hive――RDB使いのためのHadoopガイド・前編
Hadoop+Hive検証環境を構築してみる
鈴木啓修
InterDB
2009/2/27
InterDB
2009/2/27
Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。
Hiveとは
Hiveは、オープンソースの大規模分散計算フレームワークHadoop上で動作するデータウエアハウス(Data Warehouse:DWH)向けのプロダクトです。
Hadoopは、グーグルが社内で利用しているGFSとMapReduceのオープンソース版です。詳細は次の記事を参照してください。
HiveはHiveQLというSQL風の言語でHadoop上のデータを操作できます。Hadoop上のデータベースというとHBaseが有名ですが、HiveはHDFSに対してよりユーザーフレンドリなインターフェイスを提供するもので、HBaseとは根本的に存在意義が異なります。
●図1 HadoopとHiveの概念
注:HDFSはHadoopが採用している分散ファイルシステム。
HiveはFacebookで開発され、2008年12月に正式にHadoopプロジェクトに寄贈(contribute)されました。
最新バージョンが0.19.1と、まだバージョンも若く、機能もドキュメントも不足していますが、すでにFacebook社内では2000台のサーバ上で稼働しているようで、今後の進展にも期待が持てるプロダクトです。
実際、2月20日にリリースされた0.19.1ではマイナーバージョンアップにもかかわらず、副問い合わせ(サブクエリ)をはじめ、文字列の連結concat( )や切り出しsubstr( )などの文字列関数、count( )やmin( )、max( )の集約関数など、多くの機能追加がありました。Hiveに関する基本的な情報源を下のコラムに示しますので、これらのドキュメントも参考にしてみてください。
次ページからは、実際にHadoop環境を手元のマシン上に構築し、Hiveの基本的な操作を試していきます。
コラム◆Hiveの基本情報
Hiveについての基本的な情報は下記Webサイトにまとめられています。本稿とあわせて参考にしてください。- The Apache Software Foundation内のHiveプロジェクトのWebサイト:http://hadoop.apache.org/hive/
- Hadoop Wiki内のHive関連記事:
http://wiki.apache.org/hadoop/Hive
| 1/6 |
| Index | |
| Hive――RDB使いのためのHadoopガイド | |
| 前編 Hadoop+Hive検証環境を構築してみる | |
| Page 1 ・Hiveとは コラム◆Hiveの基本情報 |
|
| Page 2 ・Hadoop+Hiveのインストール ユーザ登録/Java SE 6(JDK 1.6)のインストール/環境変数の設定 hadoop-0.19.1のインストール/データファイルのダウンロード |
|
| Page 3 ・Hiveの基本的な使い方 ・テーブルの作成とデータの読み込み:CREATE TABLEとLOAD DATA |
|
| 後編 SQLライクにHadoop Hiveを使い倒す! | |
| Page 4 パーティションを利用する/コラム◆MapReduce操作について |
|
| Page 5 ・テーブルの検索:SELECT シンプルなSELECT文/パターンマッチング/テーブルの結合 |
|
| Page 6 ・データの保存:INSERT データを直接挿入する/HDFSのファイルとして保存する ユーザーが直接扱う(普通の)ファイルとして保存 ・まとめ:Hadoopを直接操作するよりも簡単! |
|
ホワイトペーパー(TechTargetジャパン)
Database Expert フォーラム 新着記事
- 診断ツールでデータベースの健全性を保つ (2010/3/5)
DBをセキュアに保つには、日々のチェックが重要。診断ツールを運用に組み込むことが、情報漏えい対策の第一歩です - トムが説く、エンジニアがしてはならないこと (2010/3/2)
Oracleエンジンそのものをデザインする男、トム・カイト。カリスマエンジニアが説明する、陥りやすい「ぼくたちの失敗」とは - “スコット”といえばなんと答える? (2010/2/22)
ツーといえばカー、スコットといえばもちろん! そんな根っからのDB人間チェックや週末の勉強会など、2月もDB漬けでした - データモデリングは「できるところ」から始めよう (2010/2/15)
おびただしい数の業務フローで途方に暮れる前に「できるところ」を探そう。ゼロから始めるモデリング、その心得と技術をまとめます
|
|
@IT 新着記事
スキルアップ/キャリアアップ(JOB@IT)
スポンサーからのお知らせ
- - PR -
| 仮想環境の構築とデータ保護の特効薬?! 実績と信頼性の高いパッケージで安心運用 New! |
| 仮想環境のバックアップもこれまでどおり 「まるごと取ってまるごと戻す」簡単運用 |
| おばかアプリ選手権、第4弾開催中!! ムダにカッコよくてくだらない作品求ム! |
| 社内ファイルサーバを“クラウド”に統合 VPN直結「クラウド型ストレージ」を紹介 |
| その数、なんと400台以上! グループ内 サーバの「統合管理」によるメリットは? |
| 美人!? まあまあ? 気になる いやし系!! PV急増で「美人時計」がとった手段とは? |
| 進化を続ける富士通ストレージETERNUS DX 製品開発者の自信を裏付けるものとは何か |
| 運用管理の課題を“2つの観点”から分析 ユーザー満足度の高い「仮想環境」とは? |
- - PR -
お勧め求人情報

**先週の人気講座ランキング**
〜Java編〜
| ◆ | TomcatやJBossなどAPサーバ環境に関する 情報を集約! “業務”用APサーバ大百科 New! |
| ◆ | 一気に解説! 最新のクラスタストレージ 「RAIDを超えたストレージ基準」……など New! |
| ◆ | クラウド的ユーザー体験の変化は脅威か? 仮想化技術を使いこなす運用管理術を紹介 New! |

| ◆ | 上司や部下、部署内メンバーとの情報共有 を“ガラッ”と変えるコラボツールとは? New! |
| ◆ | おばかアプリ選手権、第4弾開催中!! ムダにカッコよくてくだらない作品求ム! |
| ◆ | 社内ファイルサーバを“クラウド”に統合 VPN直結「クラウド型ストレージ」を紹介 |

| ◆ | Twitterのアカウントはなぜ突破された? メールによる新手の攻撃手法とその対策 |
| ◆ | もう仮想化のお試しフェイズは終わりだ! Hyper-V 2.0が基幹システムも仮想化 |
| ◆ | 美人!? まあまあ? 気になる いやし系!! PV急増で「美人時計」がとった手段とは? |

| ◆ | クライアント企業から求められる人材 ⇒IT技術と経営戦略を併せ持つ「戦略家」 |
| ◆ | .NET編集長が実践する「技術情報検索術」 サンプル・コードを簡単に探す“技”は? |
| ◆ | 業務効率と情報セキュリティ対策を両立! 手間なく確実に機密情報を守る方法とは? |

| ◆ | 進化を続ける富士通ストレージETERNUS DX 製品開発者の自信を裏付けるものとは何か |
| ◆ | 運用管理の課題を“2つの観点”から分析 ユーザー満足度の高い「仮想環境」とは? |

| ◆ | 【CTC事例】約30の基幹システムを統合! 膨大なバッジジョブを制御した方法は? |
| ◆ | 仮想化すればコストは削減できるか? 仮想化に必要な「3つの視点」を解説する |
| ◆ | その数、なんと400台以上! グループ内 サーバの「統合管理」によるメリットは? |







