世の中のWeb1.0サイトをWeb2.0化
進化する“Webスクレイピング”技術の世界
2007/02/20
WebサービスのAPIやRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogle、Yahoo!、楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLやCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング”技術が急速に発展してきているようだ。
HTMLをXML化し、XPathで関連データだけを抽出
例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレイアウト情報を付加したHTMLドキュメントのみ。HTMLは、Webブラウザが解釈して表示することで人間の目には分かりやすいが、コンピュータの自動処理にはなじみにくい。正規表現などの文字列処理を使い、ヒューリスティックに抽出処理を書き下すしかない。それは多くの場合、「関係する情報の始まりを示す特定の文字列から、終わりの文字列に挟まれた特定のタグのうち、特定の正規表現にマッチするもの」といった面倒な処理になる。
もう少し楽な方法は、HTMLドキュメントをツリーとして扱うことだ。処理対象のHTMLは、いつも必ずしも整形式のXHTMLというわけではないが、非整形式のHTMLでも、できる限り整合的な形でXML化するRuby向けライブラリとして「HTree」や「Hpricot」というものが存在する。
ツリー構造であれば、泥臭い文字列処理は多少軽減される。さらに、HpricotではXPathを用いたクエリが使えるので、例えばHTMLドキュメントに含まれるアンカータグのうち、属性としてクラスに“l”が指定されているものを抽出するといったことが、たった1行の指定でできる。これは、Googleの検索結果からリンク部分だけを抜き出す指定だ。
CGIフォームにも対応し、ナビゲーションも自動化
多くの有用なデータは、Webサーバのバックエンドにあるデータベースに格納されている。ユーザーはWebのフォームを使い、必要なデータを引き出す。こうしたWebサーバと人間のやりとりを自動化するツールが、PerlやRuby向けに公開されている。「WWW::Mechanize」は、そうしたツールの1つで、ごく簡単なコマンドの羅列で、指定URLにアクセスし、テキストボックスに文字列を入力、続いてリンクをクリックしたり、次ページに移動したりといった処理を自動化できる。
これまで、こうしたWebスクレイピング関連のツールは個別に開発されてきたが、2月9日に一般向けリリースが初公開された「scRUBYt! 0.2.0」は、Webスクレイピング技術の集大成のようなフレームワークだ。名前が示すとおり、scRUBYt!はRuby向けのツールを組み合わせもので、HpricotとWWW::Mechanizeを統合し、さらにXPathよりも人間に分かりやすい構文が使えるようにしたもの。
scRUBYt!のサンプルコード。eBayで「ipod」という語を検索し、検索結果の中で「Apple iPod」という文字列が含まれるリンクをクリック。その結果からrecordブロックの中で定義したフォーマットに一致する箇所を抜き出して記録している
上記のコードの結果として戻ってくるXMLデータscRUBYt!を開発したPeter Szinek氏によれば、データベースに対してSQLクエリを発行するような感覚で、WebサイトのHTMLドキュメントを扱えるようになるという。同氏はWebスクレイピングを解説する自身のサイトで、「Webを機械可読の世界にする試みとしてセマンティックWebやオントロジー、タクソノミーなどさまざまな努力があり、すでに有望な結果が出始めている分野もあるが、Webの世界全体がそうした“フレンドリーな世界”になるのは、楽観的に見てもWeb88.0になるころではないか」と皮肉な見解を述べている。
関連記事
情報をお寄せください:
- [ニッチ]E4Xで攻撃できる? できない? (2010/2/8)
ECMAScriptでXMLを扱う「E4X」。ニッチかもしれませんが、攻撃の可能性があることだけは知っておきましょう - GAE上でLL+RDBアプリを作ろう (2010/2/3)
開発者にとって魅力的な環境に映るGoogle App Engine。これまでの開発手法を変えずに使えないだろうか - 豆まきユースケースの包含 (2010/2/1)
デバッグが上手くいかず、気分転換にもらった豆をポリポリ。節分のユースケースを考え始めます - Apacheで仮想ホストを動かそう (2010/1/29)
1台のApacheサーバで、複数の公開サイトを提供するには? 仮想ホストの設定の意味を知ろう
|
|
スポンサーからのお知らせ
- - PR -
お勧め求人情報

**先週の人気講座ランキング**
〜CCNA編〜
| ◆ | 企業の仮想化に足りない“発想”とは? 仮想化運用管理のキモは意外なところに! New! |
| ◆ | 操作もマニュアルも分かりやすい! ユーザー視点で開発されたPC管理ツール New! |
| ◆ | 仮想化すればコストは削減できるか? 仮想化に必要な「3つの視点」を解説する |

| ◆ | セキュリティを知り尽くす上野氏が登壇! @ITメールソリューションLive! in Tokyo |
| ◆ | 運用管理の課題を“2つの観点”から分析 ユーザー満足度の高い「仮想環境」とは? |
| ◆ | 世界に通用するストレージの作り方とは? 製品に込めた思いを富士通の開発者に聞く |

| ◆ | OSSで手間も時間も、障害も減った―― 「マピオンの事例」オープンソース活用法 |
| ◆ | 「ノートPCの持ち出し禁止」で大丈夫? 情報漏えいを防ぐ管理手法とインフラは? |
| ◆ | 1日の処理を1秒に――MySQLの達人が語る 「コスト削減」できるチューニング |

| ◆ | ドキュメント作成を自動化して、SEの作業 効率を大幅アップ! Visio 2007の魅力 |
| ◆ | 急速に広がるHyper-Vでのサーバ仮想化 そのベストプラクティスをデルが解説 |
| ◆ | @IT主催セミナーで語られた、「担当者に 求められるセキュリティ対策」をレポート |

| ◆ | @IT「Windows 7」 特設サイトオープン! 最新情報・移行ノウハウを公開しています |






