世の中のWeb1.0サイトをWeb2.0化

進化する“Webスクレイピング”技術の世界

2007/02/20

 WebサービスのAPIやRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogle、Yahoo!、楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLやCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング”技術が急速に発展してきているようだ。

HTMLをXML化し、XPathで関連データだけを抽出

 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレイアウト情報を付加したHTMLドキュメントのみ。HTMLは、Webブラウザが解釈して表示することで人間の目には分かりやすいが、コンピュータの自動処理にはなじみにくい。正規表現などの文字列処理を使い、ヒューリスティックに抽出処理を書き下すしかない。それは多くの場合、「関係する情報の始まりを示す特定の文字列から、終わりの文字列に挟まれた特定のタグのうち、特定の正規表現にマッチするもの」といった面倒な処理になる。

 もう少し楽な方法は、HTMLドキュメントをツリーとして扱うことだ。処理対象のHTMLは、いつも必ずしも整形式のXHTMLというわけではないが、非整形式のHTMLでも、できる限り整合的な形でXML化するRuby向けライブラリとして「HTree」や「Hpricot」というものが存在する。

 ツリー構造であれば、泥臭い文字列処理は多少軽減される。さらに、HpricotではXPathを用いたクエリが使えるので、例えばHTMLドキュメントに含まれるアンカータグのうち、属性としてクラスに“l”が指定されているものを抽出するといったことが、たった1行の指定でできる。これは、Googleの検索結果からリンク部分だけを抜き出す指定だ。

CGIフォームにも対応し、ナビゲーションも自動化

 多くの有用なデータは、Webサーバのバックエンドにあるデータベースに格納されている。ユーザーはWebのフォームを使い、必要なデータを引き出す。こうしたWebサーバと人間のやりとりを自動化するツールが、PerlやRuby向けに公開されている。「WWW::Mechanize」は、そうしたツールの1つで、ごく簡単なコマンドの羅列で、指定URLにアクセスし、テキストボックスに文字列を入力、続いてリンクをクリックしたり、次ページに移動したりといった処理を自動化できる。

 これまで、こうしたWebスクレイピング関連のツールは個別に開発されてきたが、2月9日に一般向けリリースが初公開された「scRUBYt! 0.2.0」は、Webスクレイピング技術の集大成のようなフレームワークだ。名前が示すとおり、scRUBYt!はRuby向けのツールを組み合わせもので、HpricotとWWW::Mechanizeを統合し、さらにXPathよりも人間に分かりやすい構文が使えるようにしたもの。

scrubyt01.png scRUBYt!のサンプルコード。eBayで「ipod」という語を検索し、検索結果の中で「Apple iPod」という文字列が含まれるリンクをクリック。その結果からrecordブロックの中で定義したフォーマットに一致する箇所を抜き出して記録している
scrubyt02.png 上記のコードの結果として戻ってくるXMLデータ

 scRUBYt!を開発したPeter Szinek氏によれば、データベースに対してSQLクエリを発行するような感覚で、WebサイトのHTMLドキュメントを扱えるようになるという。同氏はWebスクレイピングを解説する自身のサイトで、「Webを機械可読の世界にする試みとしてセマンティックWebやオントロジー、タクソノミーなどさまざまな努力があり、すでに有望な結果が出始めている分野もあるが、Webの世界全体がそうした“フレンドリーな世界”になるのは、楽観的に見てもWeb88.0になるころではないか」と皮肉な見解を述べている。

(@IT 西村賢)

情報をお寄せください:

Coding Edge フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

キャリアアップ

- PR -

注目のテーマ

ソリューションFLASH

「ITmedia マーケティング」新着記事

Xが新規アカウントに課金するとユーザーはどれほど影響を受ける? そしてそれは本当にbot対策になるのか?
Xが新規利用者を対象に、課金制を導入する方針を表明した。botの排除が目的だというが、...

Googleの次世代AIモデル「Gemini 1.5」を統合 コカ・コーラやロレアルにも信頼される「WPP Open」とは?
世界最大級の広告会社であるWPPはGoogle Cloudと協業を開始した。キャンペーンの最適化、...

Cookie廃止で広告主とデータプロバイダ、媒体社にこれから起きることとその対策
連載の最後に、サードパーティーCookie廃止が広告主と媒体社それぞれに与える影響と今後...