スラッシュドット    はてなブックマーク  Yahoo!ブックマークに登録  印刷

世の中のWeb1.0サイトをWeb2.0化

進化する“Webスクレイピング”技術の世界

2007/02/20

 WebサービスのAPIやRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogle、Yahoo!、楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLやCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング”技術が急速に発展してきているようだ。

HTMLをXML化し、XPathで関連データだけを抽出

 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレイアウト情報を付加したHTMLドキュメントのみ。HTMLは、Webブラウザが解釈して表示することで人間の目には分かりやすいが、コンピュータの自動処理にはなじみにくい。正規表現などの文字列処理を使い、ヒューリスティックに抽出処理を書き下すしかない。それは多くの場合、「関係する情報の始まりを示す特定の文字列から、終わりの文字列に挟まれた特定のタグのうち、特定の正規表現にマッチするもの」といった面倒な処理になる。

 もう少し楽な方法は、HTMLドキュメントをツリーとして扱うことだ。処理対象のHTMLは、いつも必ずしも整形式のXHTMLというわけではないが、非整形式のHTMLでも、できる限り整合的な形でXML化するRuby向けライブラリとして「HTree」や「Hpricot」というものが存在する。

 ツリー構造であれば、泥臭い文字列処理は多少軽減される。さらに、HpricotではXPathを用いたクエリが使えるので、例えばHTMLドキュメントに含まれるアンカータグのうち、属性としてクラスに“l”が指定されているものを抽出するといったことが、たった1行の指定でできる。これは、Googleの検索結果からリンク部分だけを抜き出す指定だ。

CGIフォームにも対応し、ナビゲーションも自動化

 多くの有用なデータは、Webサーバのバックエンドにあるデータベースに格納されている。ユーザーはWebのフォームを使い、必要なデータを引き出す。こうしたWebサーバと人間のやりとりを自動化するツールが、PerlやRuby向けに公開されている。「WWW::Mechanize」は、そうしたツールの1つで、ごく簡単なコマンドの羅列で、指定URLにアクセスし、テキストボックスに文字列を入力、続いてリンクをクリックしたり、次ページに移動したりといった処理を自動化できる。

 これまで、こうしたWebスクレイピング関連のツールは個別に開発されてきたが、2月9日に一般向けリリースが初公開された「scRUBYt! 0.2.0」は、Webスクレイピング技術の集大成のようなフレームワークだ。名前が示すとおり、scRUBYt!はRuby向けのツールを組み合わせもので、HpricotとWWW::Mechanizeを統合し、さらにXPathよりも人間に分かりやすい構文が使えるようにしたもの。

scrubyt01.png scRUBYt!のサンプルコード。eBayで「ipod」という語を検索し、検索結果の中で「Apple iPod」という文字列が含まれるリンクをクリック。その結果からrecordブロックの中で定義したフォーマットに一致する箇所を抜き出して記録している
scrubyt02.png 上記のコードの結果として戻ってくるXMLデータ

 scRUBYt!を開発したPeter Szinek氏によれば、データベースに対してSQLクエリを発行するような感覚で、WebサイトのHTMLドキュメントを扱えるようになるという。同氏はWebスクレイピングを解説する自身のサイトで、「Webを機械可読の世界にする試みとしてセマンティックWebやオントロジー、タクソノミーなどさまざまな努力があり、すでに有望な結果が出始めている分野もあるが、Webの世界全体がそうした“フレンドリーな世界”になるのは、楽観的に見てもWeb88.0になるころではないか」と皮肉な見解を述べている。

(@IT 西村賢)

情報をお寄せください:


Coding Edge フォーラム 新着記事

@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

RSSフィード

アイティメディアの提供サービス

ホワイトペーパー(TechTargetジャパン/閲覧には会員登録が必要です)

スキルアップ/キャリアアップ(JOB@IT)

- PR -

お勧め求人情報

キャリアアップ 〜JOB@IT
@IT Special -PR-
  企業の仮想化に足りない“発想”とは?
仮想化運用管理のキモは意外なところに!

New!
  操作もマニュアルも分かりやすい!
ユーザー視点で開発されたPC管理ツール

New!
  仮想化すればコストは削減できるか?
仮想化に必要な「3つの視点」を解説する

  セキュリティを知り尽くす上野氏が登壇!
@ITメールソリューションLive! in Tokyo

  運用管理の課題を“2つの観点”から分析
ユーザー満足度の高い「仮想環境」とは?

  世界に通用するストレージの作り方とは?
製品に込めた思いを富士通の開発者に聞く

  OSSで手間も時間も、障害も減った――
「マピオンの事例」オープンソース活用法

  「ノートPCの持ち出し禁止」で大丈夫?
情報漏えいを防ぐ管理手法とインフラは?

  1日の処理を1秒に――MySQLの達人が語る
「コスト削減」できるチューニング

  ドキュメント作成を自動化して、SEの作業
効率を大幅アップ! Visio 2007の魅力

  急速に広がるHyper-Vでのサーバ仮想化
そのベストプラクティスをデルが解説

  @IT主催セミナーで語られた、「担当者に
求められるセキュリティ対策」をレポート

  @IT「Windows 7」 特設サイトオープン!
最新情報・移行ノウハウを公開しています