SlideShare une entreprise Scribd logo
1  sur  26
統計データのLOD化と
データ間の関係の表現
武田 英明*1*2*3 加藤 文彦*3*4 小出 誠二*3*4
松村 冬子*3*5 大向 一輝*1*2*3 小林 巌生*3*6
岩山 真*7 浅野 優*7 濱崎 雅弘*8
*1 国立情報学研究所 *2総合研究大学院大学
*3リンクト・オープン・データ・イニシアティブ *4情報・システム
研究機構
*5青山学院大学 *6Open Community Data Initiative
*7日立製作所 中央研究所 *8産業技術総合研究所
2013年度人工知能学会全国大会、富山、2013年6月4日
Open Data METI
統計の表のLOD化
図1 工業統計調査の結果の表の例
統計データのLOD化
図1 工業統計調査の結果の表の例
RDF Data Cube Vocabulary
• W3C Working Draft
– W3C e-government Interest Groupで議論
• 統計データの(メタ)スキーマ
– 各統計表の定義をするための語彙を提供
– 統計の語彙はSDMXから
• LOD化の基本的考え方
– データ中心主義
RDF Data Cube Vocabularyのメリット
• 個々の観測値や観測値のグループが、(ウェブ)アドレス可
能になる。それにより公開者と第三者がこのデータを注釈づ
けし(annotate)、リンク付けすることが可能となる。たとえば、
ある報告書が詳細な出典のトレースバックを考慮した特定の
図を参照することが可能となる。
• データをデータセット横断的に、あるいは統計セットと非統
計セットをフレキシブルに組み合わせることが可能になる(た
とえば、宗教的寛容さに関連した国民的指標の高い値の国勢
調査の領域で、すべての宗教的学校を発見するなど )。統計
データはリンクトデータのより広範なウェブの不可欠な一部
となる。
• リンクトデータとして公開することで、現在静的なファイル
のみを提供しているような公開者には、フレキシブルな、か
つ非プロプライエタリな機械可読可能な公開の手段を提供す
ることになり、プログラムからアクセス可能なすぐに使える
ウェブ API をサポートすることになる。
• 標準化されたツールやコンポーネントの再利用が可能となる。
RDF Data Cube Vocabularyの基礎
• 一つのデータ構造(表)はいくつかのコンポーネント
(component)によって定義される
• 次元コンポーネント(dimension Component)は観測値を
同定するもの
– 次元コンポーネントの値の集合は一個の観測を同定する。
たとえば一つの観測値には観測された時間や観測がカバー
する地理学上の領域が含まれる。
• 測度コンポーネント(measure component)は計測された
値であり観察された現象を表現
• 属性コンポーネント(attribute component)は観測された
値を限定し、解釈することを可能にする。
– 測度の単位やスケーリングファクタを指定することを可能
にし、どんなスケーリングファクタや観測値の状態(推測
値あるいは暫定値)のようなメタデータも指定することも
できる。
ktsh:refSangyoChuBunrui a qb:DimensionProperty ;
rdfs:label "日本標準産業分類(中分類)"@ja ;
rdfs:range jsic:JsicConcept .
sac:refPrefecture a qb:DimensionProperty ;
rdfs:label "reference area (prefecture)"@en ;
rdfs:label "都道府県"@ja ;
rdfs:subPropertyOf sdmx-dimension:refArea ;
rdfs:range sac:Prefecture ;
qb:concept sdmx-concept:refArea .
ktsh:numberOfEmployees a qb:MeasureProperty ;
rdfs:label "従業者数(人)"@ja ;
rdfs:subPropertyOf sdmx-measure:obsValue ;
sdmx-attribute:unitMeasure ktsh:UnitOfPerson ;
kougyo:k6-data-j-2000t a qb:DataStructureDefinition ;
rdfs:label "工業統計表「市区町村編」データ (経済産業省大臣官房調査統計グループ)
2.市区町村別、産業中分類別統計表(スキーマ)"@ja ;
# dimension
qb:component [qb:dimension ktsh:refMunicipality; qb:order 1] ;
qb:component [qb:dimension ktsh:refSangyoChuBunrui; qb:order 2] ;
qb:component [qb:dimension ktsh:refYear; qb:order 3] ;
# measure
qb:component [qb:measure ktsh:numberOfEstablishments] ;
qb:component [qb:measure
ktsh:numberOfEstablishments_withBetween30To299Employees] ;
qb:component [qb:measure ktsh:numberOfEstablishments_with300OrMoreEmployees] ;
qb:component [qb:measure ktsh:numberOfEmployees] ;
qb:component [qb:measure ktsh:valueOfTotalCashWagesAndSalaries_by10ThousandYen] ;
qb:component [qb:measure ktsh:valueOfRawMaterials_by10ThousandYen] ;
qb:component [qb:measure
ktsh:valueOfManufacturedGoodsShipments_by10ThousandYen] ;
qb:component [qb:measure
ktsh:valueOfManufacturedGoodsShipments_otherRevenues_by10ThousandYen] ;
qb:component [qb:measure ktsh:grossValueAddedForEstablishments_by10ThousandYen] ;
qb:component [qb:measure
ktsh:valueOfTangibleFixedAssets_atYearEnd_by10ThousandYen] ;
# attributes
qb:component [qb:attribute sdmx-attribute:unitMeasure; qb:componentAttachment
qb:DataSet] ;
kougyo:h22-k6-data-j-2000 a qb:DataSet ;
qb:structure kougyo:k6-data-j-2000t ;
rdfs:label "平成22年工業統計表「市区町村編」データ (経済産業省大臣官房調査統計グループ) 「平成24年4月13
日公表」 2.市区町村別、産業中分類別統計表"@ja ;
.
kougyo:h22-k6-data-j-2000-00000001 a qb:Observation ;
qb:dataSet kougyo:h22-k6-data-j-2000 ;
ktsh:refMunicipality sac:C01 ;
ktsh:refSangyoChuBunrui jsic:C00 ;
ktsh:refYear 2010 ;
qb:measureType ktsh:numberOfEstablishments ;
ktsh:numberOfEstablishments 5931 ;
.
kougyo:h22-k6-data-j-2000-00000002 a qb:Observation ;
qb:dataSet kougyo:h22-k6-data-j-2000 ;
ktsh:refMunicipality sac:C01 ;
ktsh:refSangyoChuBunrui jsic:C00 ;
ktsh:refYear 2010 ;
qb:measureType ktsh:numberOfEstablishments_withBetween30To299Employees ;
ktsh:numberOfEstablishments_withBetween30To299Employees 1121 ;
.
kougyo:h22-k6-data-j-2000-00000003 a qb:Observation ;
qb:dataSet kougyo:h22-k6-data-j-2000 ;
ktsh:refMunicipality sac:C01 ;
ktsh:refSangyoChuBunrui jsic:C00 ;
ktsh:refYear 2010 ;
qb:measureType ktsh:numberOfEstablishments_with300OrMoreEmployees ;
ktsh:numberOfEstablishments_with300OrMoreEmployees 55 ;
.
kougyo:h22-k6-data-j-2000-00000004 a qb:Observation ;
qb:dataSet kougyo:h22-k6-data-j-2000 ;
ktsh:refMunicipality sac:C01 ;
コード体系のLOD化
• 統計の中に定義されたコード体系が存在
– 日本標準産業分類
– 都道府県コード
– 標準エリアコード(市区町村コード)
– 工業地区コード
• Data Cubeでの参照
– Dimensionとして参照
• これらのLOD化→SKOSの利用
• 課題:変遷するコード体系間をどう扱うか
– 時々、改訂される
– 方策:
• 実効期間つきノードのつながりで表現
– 標準エリアコード、生物分類
LOD Datasetの利用
• RDFデータの利用方法
– RDF Datasetのdownload [Open Data METI]
– SPARQL Query [Open Data METI]
– Applicationからの利用
• CODE Project: Linked Data Query Wizard
SPARQL Query例
北海道の産業中分類別、有形固定資産土地(百万円)と従業員数
PREFIX ktsh:<http://datameti.go.jp/scheme/kougyou-toukei-
schema/>
PREFIX kougyo: <http://datameti.go.jp/lod/kougyou-toukei/>
PREFIX qb: <http://purl.org/linked-data/cube#>
select distinct ?sanchu_label ?total_jugyoin ?landprice
where {
{select distinct ?sanchu (SUM(?jugyoin) AS ?total_jugyoin)
where {
?cell1 qb:dataSet kougyo:h22-k8-data-j-1003 .
?cell1 ktsh:refSangyoSaiBunrui ?sansai .
?sansho skos:narrower ?sansai .
?sanchu skos:narrower ?sansho .
?cell1 ktsh:refPrefecture
<http://datameti.go.jp/scheme/standard-area-code/C01> .
?cell1 ktsh:numberOfEmployees ?jugyoin .
} Group by ?sanchu }
?cell2 qb:dataSet kougyo:h22-k3-data-j-3220 .
?cell2 ktsh:refSangyoChuBunrui ?sanchu .
?cell2 ktsh:refPrefecture
<http://datameti.go.jp/scheme/standard-area-code/C01> .
?cell2
ktsh:valueOfTangibleFixedAssets_purchase_lands_byMillionYen ?l
andprice .
?sanchu rdfs:label ?sanchu_label .
}
CODE: Commercially Empowered Linked Open
Data Ecosystems in Research
• RDF Dataの様々な操作ツールを提供する
– 抽出、統合、格納、収集、可視化、解析
• ツール
– CODE PDF Extractor (CoPE)
– CODE Data Extractor and Triplifier (CoDeT)
– CODE Query Wizard (CoQuWi)
– CODE Visual Analytics Wizard (CoVA)
http://www.code-project.eu/
CODE Query Wizard (CoQuWi)
http://code.know-center.tugraz.at/search
p
http://bit.ly/17kILiiDataset-> http://bit.ly/17kJgJf例:
CODE Visual Analytics Wizard (CoVA)
LOD化のメリット、デメリット
• メリット
– データ記述の標準化(URI付与とRDF化)
• 統計以外のデータとの統合
• 個別データの外部参照
• 標準ツールの利用
– データの意味づけ(Data Cubeによる記述)
• 個別的、部分的データが利用可能
• 異なる表間でのデータの統合が容易
• 標準ツールの利用
– 意味づけの共有による知識の共有
• デメリット
– 変換のコスト
• Data Cubeによる記述の作成
• データ変換
– データ量の増大、計算量の増大
• 例:CSV: 1.7MB -> ttl: 61.9MB
– 意味づけの共有のコスト(理解、再利用)
おわりに
• できたこと
– 統計データのLOD化の実践
• データの記述
• データの利用
• 今後の方向、課題
– データ量の増大
– “非統計的”利用ケース
• “北海道”の“靴”に関するデータを見たい
– 他の統計等の相互利用
• 国内、国外
http://bit.ly/15t99mS

Contenu connexe

Similaire à 統計データのLOD化とデータ間の関係の表現

AIIT マンスリー・フォーラム Infotalk 第85回 科学技術イノベーション政策・ 政府研究開発投資による IoT の経済的効果
AIIT マンスリー・フォーラム Infotalk 第85回科学技術イノベーション政策・政府研究開発投資による IoT の経済的効果AIIT マンスリー・フォーラム Infotalk 第85回科学技術イノベーション政策・政府研究開発投資による IoT の経済的効果
AIIT マンスリー・フォーラム Infotalk 第85回 科学技術イノベーション政策・ 政府研究開発投資による IoT の経済的効果Yasushi Hara
 
R言語勉強会#8.pdf
R言語勉強会#8.pdfR言語勉強会#8.pdf
R言語勉強会#8.pdfTakuya Kubo
 
20161209 ゼミ プレゼン_ver2
20161209 ゼミ プレゼン_ver220161209 ゼミ プレゼン_ver2
20161209 ゼミ プレゼン_ver2清峰 孝太
 
140616横浜 オープンデータ 技術
140616横浜 オープンデータ 技術140616横浜 オープンデータ 技術
140616横浜 オープンデータ 技術Kenji Hiramoto
 
Modernization of Factory Automation with Elixir based systems and communities
Modernization of Factory Automation with Elixir based systems and communitiesModernization of Factory Automation with Elixir based systems and communities
Modernization of Factory Automation with Elixir based systems and communitiesYutaka Kikuchi
 
130723社会学会情報オープンデータ政策
130723社会学会情報オープンデータ政策130723社会学会情報オープンデータ政策
130723社会学会情報オープンデータ政策Kenji Hiramoto
 
地場産業としてのオープンデータの可能性@関西オープンフォーラム(2013.11.8)
地場産業としてのオープンデータの可能性@関西オープンフォーラム(2013.11.8)地場産業としてのオープンデータの可能性@関西オープンフォーラム(2013.11.8)
地場産業としてのオープンデータの可能性@関西オープンフォーラム(2013.11.8)Ikki Ohmukai
 
富士市及び富士宮市共同電算化事業 ~ 自治体クラウドの導入 ~
富士市及び富士宮市共同電算化事業 ~ 自治体クラウドの導入 ~富士市及び富士宮市共同電算化事業 ~ 自治体クラウドの導入 ~
富士市及び富士宮市共同電算化事業 ~ 自治体クラウドの導入 ~Yasunobu Fukasawa
 
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組みShintaro Fukushima
 
a Proposal for Making "Open data 100 in Japan"
a Proposal for Making "Open data 100 in Japan"a Proposal for Making "Open data 100 in Japan"
a Proposal for Making "Open data 100 in Japan"Masahiko Shoji
 
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)Tetsuro Toyoda
 
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)よりThe Japan DataScientist Society
 
イノベーション創発に資する人工知能基盤技術の創出と統合化
イノベーション創発に資する人工知能基盤技術の創出と統合化イノベーション創発に資する人工知能基盤技術の創出と統合化
イノベーション創発に資する人工知能基盤技術の創出と統合化Osaka University
 
NPI publishes "Digital Technology and Economy/Finance Annual Research Report ...
NPI publishes "Digital Technology and Economy/Finance Annual Research Report ...NPI publishes "Digital Technology and Economy/Finance Annual Research Report ...
NPI publishes "Digital Technology and Economy/Finance Annual Research Report ...Yuichi (祐一) Iwata (岩田)
 
クラウドマーケティングで良くつかわれている調査データとランキング
クラウドマーケティングで良くつかわれている調査データとランキングクラウドマーケティングで良くつかわれている調査データとランキング
クラウドマーケティングで良くつかわれている調査データとランキングShu Takeda
 

Similaire à 統計データのLOD化とデータ間の関係の表現 (20)

AIIT マンスリー・フォーラム Infotalk 第85回 科学技術イノベーション政策・ 政府研究開発投資による IoT の経済的効果
AIIT マンスリー・フォーラム Infotalk 第85回科学技術イノベーション政策・政府研究開発投資による IoT の経済的効果AIIT マンスリー・フォーラム Infotalk 第85回科学技術イノベーション政策・政府研究開発投資による IoT の経済的効果
AIIT マンスリー・フォーラム Infotalk 第85回 科学技術イノベーション政策・ 政府研究開発投資による IoT の経済的効果
 
R言語勉強会#8.pdf
R言語勉強会#8.pdfR言語勉強会#8.pdf
R言語勉強会#8.pdf
 
Freee kintone 200205
Freee kintone 200205Freee kintone 200205
Freee kintone 200205
 
20161209 ゼミ プレゼン_ver2
20161209 ゼミ プレゼン_ver220161209 ゼミ プレゼン_ver2
20161209 ゼミ プレゼン_ver2
 
140616横浜 オープンデータ 技術
140616横浜 オープンデータ 技術140616横浜 オープンデータ 技術
140616横浜 オープンデータ 技術
 
Modernization of Factory Automation with Elixir based systems and communities
Modernization of Factory Automation with Elixir based systems and communitiesModernization of Factory Automation with Elixir based systems and communities
Modernization of Factory Automation with Elixir based systems and communities
 
130723社会学会情報オープンデータ政策
130723社会学会情報オープンデータ政策130723社会学会情報オープンデータ政策
130723社会学会情報オープンデータ政策
 
地場産業としてのオープンデータの可能性@関西オープンフォーラム(2013.11.8)
地場産業としてのオープンデータの可能性@関西オープンフォーラム(2013.11.8)地場産業としてのオープンデータの可能性@関西オープンフォーラム(2013.11.8)
地場産業としてのオープンデータの可能性@関西オープンフォーラム(2013.11.8)
 
ICT経済報告2010年4-6月期の状況
ICT経済報告2010年4-6月期の状況ICT経済報告2010年4-6月期の状況
ICT経済報告2010年4-6月期の状況
 
富士市及び富士宮市共同電算化事業 ~ 自治体クラウドの導入 ~
富士市及び富士宮市共同電算化事業 ~ 自治体クラウドの導入 ~富士市及び富士宮市共同電算化事業 ~ 自治体クラウドの導入 ~
富士市及び富士宮市共同電算化事業 ~ 自治体クラウドの導入 ~
 
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
 
ガバメント分野におけるLODの活用例
ガバメント分野におけるLODの活用例ガバメント分野におけるLODの活用例
ガバメント分野におけるLODの活用例
 
a Proposal for Making "Open data 100 in Japan"
a Proposal for Making "Open data 100 in Japan"a Proposal for Making "Open data 100 in Japan"
a Proposal for Making "Open data 100 in Japan"
 
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
 
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
 
イノベーション創発に資する人工知能基盤技術の創出と統合化
イノベーション創発に資する人工知能基盤技術の創出と統合化イノベーション創発に資する人工知能基盤技術の創出と統合化
イノベーション創発に資する人工知能基盤技術の創出と統合化
 
2013 アメリカのIT政策の動向(前編)
2013 アメリカのIT政策の動向(前編)2013 アメリカのIT政策の動向(前編)
2013 アメリカのIT政策の動向(前編)
 
NPI publishes "Digital Technology and Economy/Finance Annual Research Report ...
NPI publishes "Digital Technology and Economy/Finance Annual Research Report ...NPI publishes "Digital Technology and Economy/Finance Annual Research Report ...
NPI publishes "Digital Technology and Economy/Finance Annual Research Report ...
 
20141120 sig swo-seto
20141120 sig swo-seto20141120 sig swo-seto
20141120 sig swo-seto
 
クラウドマーケティングで良くつかわれている調査データとランキング
クラウドマーケティングで良くつかわれている調査データとランキングクラウドマーケティングで良くつかわれている調査データとランキング
クラウドマーケティングで良くつかわれている調査データとランキング
 

Plus de National Institute of Informatics (NII)

趙簡単LOD入門 〜デジタル庁をデジタル化する〜 (改訂版)
趙簡単LOD入門 〜デジタル庁をデジタル化する〜 (改訂版)趙簡単LOD入門 〜デジタル庁をデジタル化する〜 (改訂版)
趙簡単LOD入門 〜デジタル庁をデジタル化する〜 (改訂版)National Institute of Informatics (NII)
 
趙簡単LOD入門 〜デジタル庁をデジタル化する〜
趙簡単LOD入門 〜デジタル庁をデジタル化する〜趙簡単LOD入門 〜デジタル庁をデジタル化する〜
趙簡単LOD入門 〜デジタル庁をデジタル化する〜National Institute of Informatics (NII)
 
セマンティックWeb技術を用いた農業分野の標準語彙の構築
セマンティックWeb技術を用いた農業分野の標準語彙の構築セマンティックWeb技術を用いた農業分野の標準語彙の構築
セマンティックWeb技術を用いた農業分野の標準語彙の構築National Institute of Informatics (NII)
 
NII研究100連発 ウェブと人工知能の融合 -人間の創造性を刺激するコンピュータ
NII研究100連発 ウェブと人工知能の融合 -人間の創造性を刺激するコンピュータ NII研究100連発 ウェブと人工知能の融合 -人間の創造性を刺激するコンピュータ
NII研究100連発 ウェブと人工知能の融合 -人間の創造性を刺激するコンピュータ National Institute of Informatics (NII)
 
Presenting and Preserving the Change in Taxonomic Knowledge for Linked Data
Presenting and Preserving the Change in Taxonomic Knowledge for Linked DataPresenting and Preserving the Change in Taxonomic Knowledge for Linked Data
Presenting and Preserving the Change in Taxonomic Knowledge for Linked DataNational Institute of Informatics (NII)
 
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜National Institute of Informatics (NII)
 
研究データ利活用に関する国内活動及び国際動向について
研究データ利活用に関する国内活動及び国際動向について研究データ利活用に関する国内活動及び国際動向について
研究データ利活用に関する国内活動及び国際動向についてNational Institute of Informatics (NII)
 

Plus de National Institute of Informatics (NII) (20)

趙簡単LOD入門 〜デジタル庁をデジタル化する〜 (改訂版)
趙簡単LOD入門 〜デジタル庁をデジタル化する〜 (改訂版)趙簡単LOD入門 〜デジタル庁をデジタル化する〜 (改訂版)
趙簡単LOD入門 〜デジタル庁をデジタル化する〜 (改訂版)
 
趙簡単LOD入門 〜デジタル庁をデジタル化する〜
趙簡単LOD入門 〜デジタル庁をデジタル化する〜趙簡単LOD入門 〜デジタル庁をデジタル化する〜
趙簡単LOD入門 〜デジタル庁をデジタル化する〜
 
"分人"型社会とAI
"分人"型社会とAI"分人"型社会とAI
"分人"型社会とAI
 
セマンティックWeb技術を用いた農業分野の標準語彙の構築
セマンティックWeb技術を用いた農業分野の標準語彙の構築セマンティックWeb技術を用いた農業分野の標準語彙の構築
セマンティックWeb技術を用いた農業分野の標準語彙の構築
 
研究オープンデータにおける大学と研究者の役割
研究オープンデータにおける大学と研究者の役割研究オープンデータにおける大学と研究者の役割
研究オープンデータにおける大学と研究者の役割
 
NII研究100連発 ウェブと人工知能の融合 -人間の創造性を刺激するコンピュータ
NII研究100連発 ウェブと人工知能の融合 -人間の創造性を刺激するコンピュータ NII研究100連発 ウェブと人工知能の融合 -人間の創造性を刺激するコンピュータ
NII研究100連発 ウェブと人工知能の融合 -人間の創造性を刺激するコンピュータ
 
Presenting and Preserving the Change in Taxonomic Knowledge for Linked Data
Presenting and Preserving the Change in Taxonomic Knowledge for Linked DataPresenting and Preserving the Change in Taxonomic Knowledge for Linked Data
Presenting and Preserving the Change in Taxonomic Knowledge for Linked Data
 
Crop vocabulary (CVO): Core vocabulary of crop names
Crop vocabulary (CVO): Core vocabulary of crop namesCrop vocabulary (CVO): Core vocabulary of crop names
Crop vocabulary (CVO): Core vocabulary of crop names
 
ORCIDとオープンサイエンス
ORCIDとオープンサイエンスORCIDとオープンサイエンス
ORCIDとオープンサイエンス
 
How to build ontologies - a case study of Agriculture Activity Ontology
How to build ontologies - a case study of Agriculture Activity OntologyHow to build ontologies - a case study of Agriculture Activity Ontology
How to build ontologies - a case study of Agriculture Activity Ontology
 
LODとオープンデータ (DBpediaとIMIの周辺を中心に)
LODとオープンデータ(DBpediaとIMIの周辺を中心に)LODとオープンデータ(DBpediaとIMIの周辺を中心に)
LODとオープンデータ (DBpediaとIMIの周辺を中心に)
 
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
 
Working with Global Infrastructure at a National Level
Working with Global Infrastructure at a National LevelWorking with Global Infrastructure at a National Level
Working with Global Infrastructure at a National Level
 
Activities of JaLC as a national service
Activities of JaLC as a national serviceActivities of JaLC as a national service
Activities of JaLC as a national service
 
Development and Application of Agriculture Ontologies
Development and Application of Agriculture Ontologies Development and Application of Agriculture Ontologies
Development and Application of Agriculture Ontologies
 
Design Process of Agriculture Ontologies
Design Process of Agriculture OntologiesDesign Process of Agriculture Ontologies
Design Process of Agriculture Ontologies
 
AIの未来 ~技術と社会の関係のダイナミクス~
AIの未来~技術と社会の関係のダイナミクス~AIの未来~技術と社会の関係のダイナミクス~
AIの未来 ~技術と社会の関係のダイナミクス~
 
Towards Knowledge-Enabled Society
Towards Knowledge-Enabled SocietyTowards Knowledge-Enabled Society
Towards Knowledge-Enabled Society
 
研究データ利活用に関する国内活動及び国際動向について
研究データ利活用に関する国内活動及び国際動向について研究データ利活用に関する国内活動及び国際動向について
研究データ利活用に関する国内活動及び国際動向について
 
オープンサイエンスとオープンデータ
オープンサイエンスとオープンデータオープンサイエンスとオープンデータ
オープンサイエンスとオープンデータ
 

Dernier

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Dernier (8)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

統計データのLOD化とデータ間の関係の表現

  • 1. 統計データのLOD化と データ間の関係の表現 武田 英明*1*2*3 加藤 文彦*3*4 小出 誠二*3*4 松村 冬子*3*5 大向 一輝*1*2*3 小林 巌生*3*6 岩山 真*7 浅野 優*7 濱崎 雅弘*8 *1 国立情報学研究所 *2総合研究大学院大学 *3リンクト・オープン・データ・イニシアティブ *4情報・システム 研究機構 *5青山学院大学 *6Open Community Data Initiative *7日立製作所 中央研究所 *8産業技術総合研究所 2013年度人工知能学会全国大会、富山、2013年6月4日
  • 5.
  • 6.
  • 7. RDF Data Cube Vocabulary • W3C Working Draft – W3C e-government Interest Groupで議論 • 統計データの(メタ)スキーマ – 各統計表の定義をするための語彙を提供 – 統計の語彙はSDMXから • LOD化の基本的考え方 – データ中心主義
  • 8. RDF Data Cube Vocabularyのメリット • 個々の観測値や観測値のグループが、(ウェブ)アドレス可 能になる。それにより公開者と第三者がこのデータを注釈づ けし(annotate)、リンク付けすることが可能となる。たとえば、 ある報告書が詳細な出典のトレースバックを考慮した特定の 図を参照することが可能となる。 • データをデータセット横断的に、あるいは統計セットと非統 計セットをフレキシブルに組み合わせることが可能になる(た とえば、宗教的寛容さに関連した国民的指標の高い値の国勢 調査の領域で、すべての宗教的学校を発見するなど )。統計 データはリンクトデータのより広範なウェブの不可欠な一部 となる。 • リンクトデータとして公開することで、現在静的なファイル のみを提供しているような公開者には、フレキシブルな、か つ非プロプライエタリな機械可読可能な公開の手段を提供す ることになり、プログラムからアクセス可能なすぐに使える ウェブ API をサポートすることになる。 • 標準化されたツールやコンポーネントの再利用が可能となる。
  • 9. RDF Data Cube Vocabularyの基礎 • 一つのデータ構造(表)はいくつかのコンポーネント (component)によって定義される • 次元コンポーネント(dimension Component)は観測値を 同定するもの – 次元コンポーネントの値の集合は一個の観測を同定する。 たとえば一つの観測値には観測された時間や観測がカバー する地理学上の領域が含まれる。 • 測度コンポーネント(measure component)は計測された 値であり観察された現象を表現 • 属性コンポーネント(attribute component)は観測された 値を限定し、解釈することを可能にする。 – 測度の単位やスケーリングファクタを指定することを可能 にし、どんなスケーリングファクタや観測値の状態(推測 値あるいは暫定値)のようなメタデータも指定することも できる。
  • 10. ktsh:refSangyoChuBunrui a qb:DimensionProperty ; rdfs:label "日本標準産業分類(中分類)"@ja ; rdfs:range jsic:JsicConcept . sac:refPrefecture a qb:DimensionProperty ; rdfs:label "reference area (prefecture)"@en ; rdfs:label "都道府県"@ja ; rdfs:subPropertyOf sdmx-dimension:refArea ; rdfs:range sac:Prefecture ; qb:concept sdmx-concept:refArea . ktsh:numberOfEmployees a qb:MeasureProperty ; rdfs:label "従業者数(人)"@ja ; rdfs:subPropertyOf sdmx-measure:obsValue ; sdmx-attribute:unitMeasure ktsh:UnitOfPerson ;
  • 11.
  • 12. kougyo:k6-data-j-2000t a qb:DataStructureDefinition ; rdfs:label "工業統計表「市区町村編」データ (経済産業省大臣官房調査統計グループ) 2.市区町村別、産業中分類別統計表(スキーマ)"@ja ; # dimension qb:component [qb:dimension ktsh:refMunicipality; qb:order 1] ; qb:component [qb:dimension ktsh:refSangyoChuBunrui; qb:order 2] ; qb:component [qb:dimension ktsh:refYear; qb:order 3] ; # measure qb:component [qb:measure ktsh:numberOfEstablishments] ; qb:component [qb:measure ktsh:numberOfEstablishments_withBetween30To299Employees] ; qb:component [qb:measure ktsh:numberOfEstablishments_with300OrMoreEmployees] ; qb:component [qb:measure ktsh:numberOfEmployees] ; qb:component [qb:measure ktsh:valueOfTotalCashWagesAndSalaries_by10ThousandYen] ; qb:component [qb:measure ktsh:valueOfRawMaterials_by10ThousandYen] ; qb:component [qb:measure ktsh:valueOfManufacturedGoodsShipments_by10ThousandYen] ; qb:component [qb:measure ktsh:valueOfManufacturedGoodsShipments_otherRevenues_by10ThousandYen] ; qb:component [qb:measure ktsh:grossValueAddedForEstablishments_by10ThousandYen] ; qb:component [qb:measure ktsh:valueOfTangibleFixedAssets_atYearEnd_by10ThousandYen] ; # attributes qb:component [qb:attribute sdmx-attribute:unitMeasure; qb:componentAttachment qb:DataSet] ;
  • 13. kougyo:h22-k6-data-j-2000 a qb:DataSet ; qb:structure kougyo:k6-data-j-2000t ; rdfs:label "平成22年工業統計表「市区町村編」データ (経済産業省大臣官房調査統計グループ) 「平成24年4月13 日公表」 2.市区町村別、産業中分類別統計表"@ja ; . kougyo:h22-k6-data-j-2000-00000001 a qb:Observation ; qb:dataSet kougyo:h22-k6-data-j-2000 ; ktsh:refMunicipality sac:C01 ; ktsh:refSangyoChuBunrui jsic:C00 ; ktsh:refYear 2010 ; qb:measureType ktsh:numberOfEstablishments ; ktsh:numberOfEstablishments 5931 ; . kougyo:h22-k6-data-j-2000-00000002 a qb:Observation ; qb:dataSet kougyo:h22-k6-data-j-2000 ; ktsh:refMunicipality sac:C01 ; ktsh:refSangyoChuBunrui jsic:C00 ; ktsh:refYear 2010 ; qb:measureType ktsh:numberOfEstablishments_withBetween30To299Employees ; ktsh:numberOfEstablishments_withBetween30To299Employees 1121 ; . kougyo:h22-k6-data-j-2000-00000003 a qb:Observation ; qb:dataSet kougyo:h22-k6-data-j-2000 ; ktsh:refMunicipality sac:C01 ; ktsh:refSangyoChuBunrui jsic:C00 ; ktsh:refYear 2010 ; qb:measureType ktsh:numberOfEstablishments_with300OrMoreEmployees ; ktsh:numberOfEstablishments_with300OrMoreEmployees 55 ; . kougyo:h22-k6-data-j-2000-00000004 a qb:Observation ; qb:dataSet kougyo:h22-k6-data-j-2000 ; ktsh:refMunicipality sac:C01 ;
  • 14. コード体系のLOD化 • 統計の中に定義されたコード体系が存在 – 日本標準産業分類 – 都道府県コード – 標準エリアコード(市区町村コード) – 工業地区コード • Data Cubeでの参照 – Dimensionとして参照 • これらのLOD化→SKOSの利用 • 課題:変遷するコード体系間をどう扱うか – 時々、改訂される – 方策: • 実効期間つきノードのつながりで表現 – 標準エリアコード、生物分類
  • 15. LOD Datasetの利用 • RDFデータの利用方法 – RDF Datasetのdownload [Open Data METI] – SPARQL Query [Open Data METI] – Applicationからの利用 • CODE Project: Linked Data Query Wizard
  • 16. SPARQL Query例 北海道の産業中分類別、有形固定資産土地(百万円)と従業員数 PREFIX ktsh:<http://datameti.go.jp/scheme/kougyou-toukei- schema/> PREFIX kougyo: <http://datameti.go.jp/lod/kougyou-toukei/> PREFIX qb: <http://purl.org/linked-data/cube#> select distinct ?sanchu_label ?total_jugyoin ?landprice where { {select distinct ?sanchu (SUM(?jugyoin) AS ?total_jugyoin) where { ?cell1 qb:dataSet kougyo:h22-k8-data-j-1003 . ?cell1 ktsh:refSangyoSaiBunrui ?sansai . ?sansho skos:narrower ?sansai . ?sanchu skos:narrower ?sansho . ?cell1 ktsh:refPrefecture <http://datameti.go.jp/scheme/standard-area-code/C01> . ?cell1 ktsh:numberOfEmployees ?jugyoin . } Group by ?sanchu } ?cell2 qb:dataSet kougyo:h22-k3-data-j-3220 . ?cell2 ktsh:refSangyoChuBunrui ?sanchu . ?cell2 ktsh:refPrefecture <http://datameti.go.jp/scheme/standard-area-code/C01> . ?cell2 ktsh:valueOfTangibleFixedAssets_purchase_lands_byMillionYen ?l andprice . ?sanchu rdfs:label ?sanchu_label . }
  • 17. CODE: Commercially Empowered Linked Open Data Ecosystems in Research • RDF Dataの様々な操作ツールを提供する – 抽出、統合、格納、収集、可視化、解析 • ツール – CODE PDF Extractor (CoPE) – CODE Data Extractor and Triplifier (CoDeT) – CODE Query Wizard (CoQuWi) – CODE Visual Analytics Wizard (CoVA) http://www.code-project.eu/
  • 18. CODE Query Wizard (CoQuWi) http://code.know-center.tugraz.at/search
  • 19.
  • 21. CODE Visual Analytics Wizard (CoVA)
  • 22. LOD化のメリット、デメリット • メリット – データ記述の標準化(URI付与とRDF化) • 統計以外のデータとの統合 • 個別データの外部参照 • 標準ツールの利用 – データの意味づけ(Data Cubeによる記述) • 個別的、部分的データが利用可能 • 異なる表間でのデータの統合が容易 • 標準ツールの利用 – 意味づけの共有による知識の共有 • デメリット – 変換のコスト • Data Cubeによる記述の作成 • データ変換 – データ量の増大、計算量の増大 • 例:CSV: 1.7MB -> ttl: 61.9MB – 意味づけの共有のコスト(理解、再利用)
  • 23. おわりに • できたこと – 統計データのLOD化の実践 • データの記述 • データの利用 • 今後の方向、課題 – データ量の増大 – “非統計的”利用ケース • “北海道”の“靴”に関するデータを見たい – 他の統計等の相互利用 • 国内、国外
  • 24.
  • 25.