1日1.5テラバイトのデータを格納するために超並列を選択NYSEユーロネクストのCDOが語るDWH選択のポイント

» 2009年09月08日 00時00分 公開
[大津心,@IT]

 いま、データ量の増加が止まらない。情報洪水や情報爆発などとさまざまな言葉で表現されているが、多くの企業で年率数十%の割合で取り扱うデータ量が増えている。そのような状況下、データを格納・分析するために注目されているのがDWH(データウェアハウス)やBI(ビジネス・インテリジェンス)だ。今回は世界最大級の証券会社を運営するNYSEユーロネクストでCDO(Chief Data Officer)を努めるスティーブ・ハーシュ(Steve Hirsch)氏に、同社がDWHを導入する経緯やポイントなどを聞いた。

 NYSEユーロネクストは、ニューヨーク証券取引所(NYSE)とロンドンやパリなどを運営するユーロネクストの持ち株会社として2007年4月に設立された、現在世界最大規模の株式市場運営会社。7カ国で6個所の株式市場、8個所でデリバティブ(金融派生商品)市場を展開している。

ハーシュ氏写真 NYSEユーロネクスト CDO スティーブ・ハーシュ氏

 NYSEユーロネクストの扱うデータ量は膨大で、1日当たり1.5テラバイトのデータを扱い、その量も年率40%〜100%増量し続けているという。NYSEだけでも1日0.5テラバイトのデータ量だ。同社では、このデータの12カ月分(240テラバイトを2.4倍に圧縮して保存)を、現在ネティーザの「NPS 10800」に格納。新しく1カ月分のデータを格納する度に、古い1カ月分のデータを「FFF(Flat File Farm)」へ移し、6年間分保管しているという。「リロードの速さは製品選定のうえで非常に重要なポイントだった。米国の法律で、金融機関は1カ月分のデータを1日でリロードできなければならなかったからだ。そのため、この『1カ月分のデータを1日でリロードできる』というのがまず第一の選定ポイントとなった」という。

 そもそも、NYSEユーロネクストが商品選定に入ったのは2006年11月〜12月ころ。当時、同社は「Oracle 10g」を10ノード導入して、120テラバイトのDWHを運用していた。しかし、同社は急増するデータに対応するために、「超並列処理による高速なDWH」への切り替えを検討。候補として、グリーンプラム、テラデータ、ネティーザが挙がったという。しかし、コストの面でテラデータはPOC(Proof of Concept)に至らなかった。また、その後のPOCでは、実機に実データを流し込んで行うものだったが、実際にNYSEユーロネクストのデータセンターに実機を持ち込んでテストを行えたのはネティーザだけだったという。この点について、ハーシュ氏は「実際にどこでテストするかは問題ではないが、セッティングや設定などの工程を目の当たりにできた点は大きかった。そのことで設定が簡単であることが分かったからだ」と説明した。

 実機テストでは、実際にNYSEユーロネクストで取り扱った2カ月分の取引明細データを入力し、ロードやクエリ、同時接続などの各種テストを実施。また、ベンチマークも複数行ったという。POC後、同社はネティーザを採用した。採用後の導入は、2007年3月から6月15日までの約3カ月で実施。各種検証とともに、26テラバイト分の過去データの流し込みなどを行ったという。その際、NYSEユーロネクスト側では、各種設定や検証のために60人月の人員を投入したという。ネティーザ側のサポートは、「週に1度の電話対応程度で済んだ」(ハーシュ氏)と説明した。

 移行時はデータ構造の変更を最低限とし、既存のオラクルローダースクリプトは再利用。エンドユーザーツールとして、Brio、SAS、Business Objectsなどが利用されていたが、古いBrioへの対応はある程度に留めることによって、迅速な移行を実現したという。「この移行によって、データロードが数時間から数分へ短縮された。また、リサーチ分析用のクエリは26時間から2.14分に短縮されるなど、かなりの高速化が実現した」(ハーシュ氏)。

 NYSEユーロネクストでは、現在ロンドンを除く欧州各市場で同様にネティーザ製品への移行を実施。2週間後には本番稼働を始めるという。また、ロンドン市場も2010年春ころに移行予定だ。NYSEよりもヨーロッパ市場の移行が遅れた点については「独自ツールが数十〜数百種類存在し、そのための対応に時間が掛かった。また各国独自の風習なども影響している。また、NYSEで移行を経験したエンジニアが含まれていない点も遅れた要因だ」と説明した。

 同社では、現在ネティーザの新製品「TwinFinアプライアンス」を検証中だ。「現在、1カ月半程度検証している。TwinFinはIBM製のブレードサーバを採用するなど、標準規格を数多く取り入れた。この点はかなり評価できる。また、データ容量が増えた際にアプライアンスではなく、ディスクを追加するだけで容量を増加できる点は大きい」とコメントした。一方で、今後の計画については「いまのところ、ネティーザを採用しているが、数カ月に一度は他ベンダのテストを行ってネティーザとの比較を行っている。2007年当時には選択肢に入ってなかったが、いまではOracleのExadataやテラデータ製品も比較対象になっている。ネティーザを上回る結果が出れば、いつでもネティーザから他社製品へ移行するつもりだ」と語り、柔軟に対応していく方向性を示した。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ