NewsInsight
New York Timesがログ解析向けで自社開発したものを公表
RubyでHadoopをラップ、分散処理ツールキットが登場
2009/05/12
米新聞社大手のニューヨーク・タイムズは5月11日、Rubyによる大規模分散処理のツールキット「Map/Reduce Toolkit」(MRToolkit)をGPLv3の下にオープンソースで公開したと発表した。MRToolkitは、すでに稼働しているクラスタ上のHadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー。処理自体はHadoopが行う。すでにHadoopを使っているユーザーであれば、中小規模のプロジェクトに対して、すぐにMRToolkitを適用可能としている。
デフォルトで有用なMap、Reduceの処理モジュールが含まれていて、数行のRubyスクリプトを書くだけで、例えば膨大なApacheのログからIPアドレス別の閲覧履歴をまとめるといった処理が可能という。独自にMapやReduceの処理を定義することも可能で、特にMapのほうは簡単に書けるという。
require 'mrtoolkit'
class MainJob < JobBase
def job
mapper CopyMap
reducer UniqueCountReduce
indir "logs"
outdir "ip"
end
end
処理の記述例。あらかじめ提供されているMapperとReducerを使い、ログからIPアドレス別集計を作る処理を定義している
ニューヨーク・タイムズでは読者の閲覧履歴についてログ分析を行っていることから、これまでもAmazon EC2/S3上でHadoopを使っていたが、特別な知識や専門性が必要なことから、より簡単に使えるツールキットを実装したという。
これまで同社はAmazon EC2上で構築したHadoopクラスタで、約130年分の過去記事、1100万枚分のスキャン画像をPDFに変換する処理を24時間以下で行うなど、大規模分散処理の分野では独自の取り組みを続けている。
関連記事
情報をお寄せください:
TechTargetジャパン
Coding Edge フォーラム 新着記事
- 実例で学ぶRailsアプリのテスト方法 (2011/12/22)
具体的なWebアプリを例に簡単なテストを使ったリファクタリングについ
て解説する - Railsの人気テストフレームワーク6選! (2011/8/18)
今回からテストを使ったリファクタリングを解説する。まずはRailsで人
気のあるテストフレームワークをいくつか紹介する - ActiveRecordの更新系操作 (2011/6/27)
Railsのモデル層を担当するActiveRecordを使った登録、更新、削除
など、更新系の機能を中心に見ていきます - 実例アプリで学ぶ“Railsらしさ”の基礎 (2011/5/26)
Ruby on Railsで書かれた実例アプリを取り上げて、初心者が陥りがちなコードの書き方を指摘します。より「Railsらしい」コードとは?
|
|
@IT 新着記事
キャリアアップ
スポンサーからのお知らせ
- - PR -
イベントカレンダー
お勧め求人情報
転職/派遣情報を探す
**先週の人気講座ランキング**
〜 Android編 〜
ホワイトペーパー(TechTargetジャパン)
ソリューションFLASH
