LODとして統計データを扱えると、どうなる?データ資源活用の基礎(4)(3/3 ページ)

» 2014年08月27日 20時25分 公開
[日立コンサルティング,@IT]
前のページへ 1|2|3       

実データの検索はどうやって実施するのか?

 統計データのRDF化は世界中で注目されており、各国で公開が進められています。日本においても、経済産業省が、データカタログサイト「Open DATA METI」にて試験的に統計データを検索できるSPARQLエンドポイントを公開しています(参考文献6、7)。上記のエンドポイントでは、6種類の統計表のRDFデータに対する検索を行うことができます。ここでは、これまで紹介したLOD化された統計データ検索の応用編として、実際に上記のエンドポイントを用いて検索を行う例を紹介します。

 今回は、これまで各Webサイトで別々に公開されていた工業統計(細分類別統計表)と工業統計(産業編)を例に紹介します。まずは、使用データについて説明します。工業統計(細分類別統計表)のデータ(参考文献8)には、都道府県と産業細分類別の「製造品出荷額」が含まれています。そのデータは、測度に「製造品出荷額(万円)」*1(ktsh:valueOfManufacturedGoodsShipments_by10ThousandYen)、次元に都道府県(ktsh:refPrefecture)と産業細分類(ktsh:refSangyoSaiBunrui)を用いています。工業統計(産業編)のデータ(参考文献9)は、都道府県と産業中分類別の「製造品年末在庫額」を含みます。そのデータは、測度に「製造品年末在庫額(百万円)」*2(valueOfStocks_manufacturedGoods_atYearEnd_byMillionYen)、次元に都道府県(ktsh:refPrefecture)と産業中分類(ktsh:refSangyoChuBunrui)を用いています。測度や次元の情報は、多くの場合、各統計表のスキーマの定義に書かれています。スキーマの定義についてはここでは省略しますが、詳細はデータキューブ語彙(参考文献1)を参照してください。

*1 正確には「製造品出荷額等(万円)」
*2 正確には「在庫額 製造品 年末在庫額(百万円)」



検索例

 次に実際の検索例を紹介します。例えば、上記の2つのデータを組み合わせて、東京の産業動向として、東京都の産業中分類別の製造品の「出荷額」と「年末在庫額」を求めることを仮定します。実際には次のようなSPARQLクエリを使用します。

PREFIX ktsh: <http://datameti.go.jp/scheme/kougyou-toukei-schema/>
SELECT DISTINCT ?sangyochubunrui_label ?total_shukkagaku ?zaikogaku
WHERE {
  { SELECT DISTINCT ?prefecture ?sangyochubunrui 
             (SUM(?shukkagaku)AS ?total_shukkagaku) 
     WHERE { 
       ?cell1 ktsh:refSangyoSaiBunrui ?sangyosaibunrui.
       ?sangyoshobunrui skos:narrower ?sangyosaibunrui.
       ?sangyochubunrui skos:narrower ?sangyoshobunrui.
       ?cell1 ktsh:refPrefecture ?prefecture.
       ?prefecture rdfs:label "東京都"@ja.
       ?cell1 ktsh:valueOfManufacturedGoodsShipments_by10ThousandYen ?shukkagaku.
       FILTER(str(?shukkagaku) != "X")
     } GROUP BY ?sangyochubunrui ?prefecture
  }
  ?sangyochubunrui rdfs:label ?sangyochubunrui_label.
  ?cell2 ktsh:refSangyoChuBunrui ?sangyochubunrui.
  ?cell2 ktsh:refPrefecture ?prefecture.
  ?cell2 ktsh:valueOfStocks_goodsInProgress_atYearEnd_byMillionYen ?zaikogaku.
} ORDER BY DESC(?total_shukkagaku)
SPARQLクエリ

 上のクエリでは、7〜13行目で、東京都の産業分類ごとの製造品出荷額を指定し(詳細は後述)、14行目で産業中分類と都道府県ごとにグループとし、5行目ではその出荷額を集計しています。5行目の「as」は、「?xx as ?○○」と用いることで、?xxに?○○という別名を付けるために用いています。16〜19行目では、都道府県と産業分類ごとの製造品年末在庫額を指定しています。これらを元に、東京都の産業中分類別(?sangyochubunrui_label)の製造品の出荷額(?total_shukkagaku)と年末在庫額(?zaikogaku)を求めています。20行目では「ORDER BY DESC」を用いて結果を降順に並べることで、出荷額の多い産業を分かりやすく表示することができます。下の画面は、Open DATA METIのSPARQLエンドポイントに実際にクエリを入力した様子です。

Open DATA METIのSPARQLエンドポイントの画面(http://datameti.go.jp/sparqlより)

 上の画面で「Run Query」ボタンをクリックすることで、次の結果が得られます。これは、検索結果のうちの上位10件分です。

(Open DATA METIのSPARQLエンドポイントの検索結果より)

 上記のエンドポイントで公開されている工業統計「細分類別統計表」と工業統計「産業編」はRDF化の際、他のデータと結び付けるため、同一の産業分類コードと都道府県コードを使用しています。具体的には、工業統計「細分類別統計表」では産業細分類コード、工業統計「産業編」では産業中分類コードを使用しています。産業分類コードには、細分類、小分類、中分類、大分類の4種類があり、各分類間で関連付けが行われているため、産業細分類別のデータを集計して産業小分類別のデータを生成し、それをさらに集計して産業中分類別のデータを生成することができます。

 上記のクエリでは、8行目で、細分類を小分類に対応付けており、9行目で、小分類を中分類に対応付けています。また、同一の変数を用いることで、工業統計「細分類別統計表」と工業統計「産業編」の間で同じ産業中分類や都道府県を簡単に対応付けることができます。また、産業中分類を参照する変数には「?sangyochubunrui」、都道府県を参照する変数には「?prefecture」を使用しています。上記のように、産業分類の関係を利用して、粗い粒度でデータをまとめることで新たなデータを生成することができる点や、同一の変数を用いて簡単に対応付けたりすることができる点がLOD化のメリットの一部です。

 本章で紹介した例は、実際に誰でも検索してみることができます。またOpen DATA METIのホームページでは、他のSPARQLエンドポイントへの問い合わせやその結果の可視化などの利活用事例(参考文献10)も公開されています。今回の記事や利活用事例を参考に、LODデータや内部データを組み合わせて利活用してみてください。

参考文献一覧

1 RDF データキューブ語彙(リンクト・オープン・データ・イニシアティブ)

2 「統計データのRDF化のためのテンプレート」第12回情報科学技術フォーラム講演論文集

3 RDF Refine(Linked Data Research Centre)

4 RDF用クエリ言語SPARQL

5 DBpedia Japanese

6 Open DATA METI SPARQLエンドポイント(経済産業省、2014年8月27日現在、一時的にデッドリンクになっているようです)

7 統計データのLOD化とデータ間の関係の表現(2013年度人工知能学会全国大会論文集/PDF)

8 平成24年工業統計表「産業細分類別統計表(経済産業局別・都道府県別表)」データ 3.都道府県別産業細分類別統計表(経済産業省/Excelファイル、2014年8月27日現在、一時的にデッドリンクになっているようです)

9 平成24年工業統計表「産業編」データ 3. 都道府県別、東京特別区・政令指定都市別統計表 (2) 従業者30人以上の事業所に関する統計表 産業中分類別の在庫額、有形固定資産額及びリース契約による契約額及び支払額(経済産業省/Excelファイル)

10 利活用事例(利活用事例(経済産業省、2014年8月27日現在、一時的にデッドリンクになっているようです)


筆者紹介

浅野優

日立製作所 中央研究所 研究員 


前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。