【3/18〜】Amazon、VMwareが語る『クラウドの未来』 スラッシュドット    はてなブックマーク  Yahoo!ブックマークに登録  印刷


Javaで実現するDOM/SAXプログラミング(4)
SAXによるシンプルなXML文書の操作

 SAXの概要

 DOMを用いたプログラミングでは、まずXML文書を構文解析し、文書の構造に対応したオブジェクトのツリーを取得していました。

 対してSAXのプログラミングでは、XML文書の構文解析を始める点は同じですが、構文解析を済ませてから処理をするのではなく、構文解析を進めながら必要な情報を取得していきます。

 どうやってそんなことを行うのか?という話ですが、原理は簡単です。構文解析が進むにつれ、パーサはタグやテキストデータを読み込んで認識していきます。これらのタグやテキストデータを認識できた時点でイベントを発生させる、というのがSAXパーサのポイントになります。

 プログラマーはあらかじめ、コンテントハンドラと呼ばれる特殊な形式のイベントリスナをパーサに登録しておきます。プログラマーはこのコンテントハンドラを通じて、構文解析処理の過程で発生するイベント情報を受け取ることができるようになります。イベント情報には読み込んだタグの名前やテキストデータが含まれていますから、プログラマーはコンテントハンドラを通じて構文解析結果を随時受け取ることができるわけです。

 直感的に分かりにくいかもしれませんので、リスト1のサンプル文書を例に取り上げて説明してみましょう。

<?xml version="1.0" encoding="UTF-8" ?>

<root>
  <data>あいうえお</data>
</root>
リスト1 サンプル文書(sample.xml

 SAXパーサに対して、リスト1のサンプル文書を入力として与えたとしましょう。まず最初に、1行目の<root>の開始タグが読み込まれたところでイベントが発生します(図1)。

図1 <root>まで読み込んだところ

 次のイベントは、<data>の直前までのテキスト(改行を含むホワイトスペースです)を読み込んだところで発生します(図2)。

図2 <data>の直前まで読み込んだところ

 以下同様に、<data>を読み込んだ時点、「あいうえお」を読み込んだ時点……という順序でイベントが発生していきます(図3)。

図3 イベントが発生するポイント

 XML文書のどの部分(タグ、テキストデータなど)を読み込んだかにより、発生するイベントは異なります。それぞれのイベントには、実際に読み込まれたタグの名前や属性の値、テキストデータの値に関する情報が付加されてきます。

 これらのイベントを処理するのが、コンテントハンドラというわけです。具体的なインターフェイスは、org.xml.sax.ContentHandlerに定義されています。

 実際のパーサについては、インターフェイスのみorg.xml.sax.XMLReaderに定義されています。実装しているクラスはSAXのライブラリによって異なるわけですが、もちろんここはJAXPを用いることで、インターフェイスを実装した適切なパーサをインスタンス化できるわけです*1

*1:実際のところ、XMLReaderを実装したインスタンスを取得できるのではなく、等価のインターフェイスを持った、javax.xml.parsers.SAXParserクラスのインスタンスを取得できます。

 SAXプログラミングの基本的な考え方については以上のとおりですが、実際のプログラミングの流れは以下のようになります。

  • イベントハンドラの作成
  • パーサファクトリおよびパーサの生成
  • 構文解析処理の呼び出し

 それぞれの手順について、詳しく見ていくことにしましょう。

 

実際のSAXプログラミング

Index
Javaで実現するDOM/SAXプログラミング(4)
SAXによるシンプルなXML文書の操作
  もう1つのAPI 〜 SAX
SAXの概要
  実際のSAXプログラミング
[1]コンテントハンドラの作成
[2]パーサファクトリおよびパーサの生成
[3]構文解析処理の呼び出し
SAXって簡単?
 

「連載 Javaで実現するDOM/SAXプログラミング」

ホワイトペーパーTechTargetジャパン

XML & SOA フォーラム 新着記事

@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

RSSフィード

スキルアップ/キャリアアップ(JOB@IT)

- PR -
- PR -

お勧め求人情報

キャリアアップ 〜JOB@IT
@IT Special -PR-
  TomcatやJBossなどAPサーバ環境に関する
情報を集約! “業務”用APサーバ大百科

New!
  一気に解説! 最新のクラスタストレージ
「RAIDを超えたストレージ基準」……など

New!
  クラウド的ユーザー体験の変化は脅威か?
仮想化技術を使いこなす運用管理術を紹介

New!

  上司や部下、部署内メンバーとの情報共有
を“ガラッ”と変えるコラボツールとは?

New!
  おばかアプリ選手権、第4弾開催中!!
ムダにカッコよくてくだらない作品求ム!

  社内ファイルサーバを“クラウド”に統合
VPN直結「クラウド型ストレージ」を紹介

  Twitterのアカウントはなぜ突破された?
メールによる新手の攻撃手法とその対策

  もう仮想化のお試しフェイズは終わりだ!
Hyper-V 2.0が基幹システムも仮想化

  美人!? まあまあ? 気になる いやし系!!
PV急増で「美人時計」がとった手段とは?

  クライアント企業から求められる人材
⇒IT技術と経営戦略を併せ持つ「戦略家」

  .NET編集長が実践する「技術情報検索術」
サンプル・コードを簡単に探す“技”は?

  業務効率と情報セキュリティ対策を両立!
手間なく確実に機密情報を守る方法とは?

  進化を続ける富士通ストレージETERNUS DX
製品開発者の自信を裏付けるものとは何か

  運用管理の課題を“2つの観点”から分析
ユーザー満足度の高い「仮想環境」とは?

  【CTC事例】約30の基幹システムを統合!
膨大なバッジジョブを制御した方法は?

  仮想化すればコストは削減できるか?
仮想化に必要な「3つの視点」を解説する

  その数、なんと400台以上! グループ内
サーバの「統合管理」によるメリットは?