Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
オープンデータソン in 宇治における
ウィキペディアタウン成果の
テキストマイニング分析
青木和人 オープンデータ京都実践会
オープンデータソン in 宇治
2017年度同志社大学大学院キャップストーンプログラム報告会
2018年1月14日:...
2
まちあるきして、地域の情報をインターネットで知っても
らうために市民でつくるオープンデータ
「wikipediaタウン」+「OSMマッピングパーティー」を
行っています。
オープンデータ京都実践会の活動
けっして怪しい活動
ではありません。。
総務省 地域情報化の推進施策などでは、
多様な担い手による地域情報化の必要性
問題の所在① 地域活性化のための地域情報化
出典:総務省|地域情報化の推進: http://t.co/l0qblpg
民間企業
市民NPO
行政
大学
地域の情報拠点としての新たな役割の必要性
(塩見 2000,糸賀 2004)
地域社会における情報蓄積・情報発信の拠点
地域経済活性化等の地域課題解決支援
目指すべき公共図書館が優先して取り組むこ
とが望ましい地域情報提供・地域文化発信の
課題...
5
・国内での公共図書館における
具体的活動
地域のデジタル写真を
アーカイブして公開
瀬戸内市立図書館
「せとうちデジタルフォトマップ」
箕面・豊中市立図書館との協力
豊中・箕面地域情報
アーカイブ化事業実行委員会
「北摂アーカイブス」
既往...
これまで蓄積されてきた紙媒体によるアナログ状態の
膨大な地域資料をデジタルアーカイブする取り組みには
至っていない。
現在までに蓄積された紙媒体による
膨大なアナログ地域資料を早急にデジ
タルアーカイブ化することは容易ではない。
アナログ地域資...
オープンデータ京都実践会、Code for 山城
京都府地域 ウィキペディアタウン 全22回 開催
デジタルアーカイブプラットフォーム ウィキペディアに着目
公共図書館を会場
その資料で
市民参加型で地域情報
をデジタルアーカイブ
して地域情報...
京都府宇治市地域 ウィキペディアタウン 全4回 開催
主催: 「オープンデータ宇治の歴史・文化」プロジェクト、ちはやぶる宇治の未来をつくる会、
オープンデータ京都実践会 参加人数 102名、ウィキペディア新規作成項目 8項目
2017年度同志社...
市民参加型で地域住民に地域資料を出典として明記しながら、
地域情報をウィキペディア上にデジタルアーカイブ→地域情報発信
2017年度同志社大学大学院キャップストーンプログラム
オープンデータソン in 宇治
成果発表グループで
ウィキペディア記...
本研究では,
①もう一つの地域デジタルアーカイブ手法である
ウィキペディアタウンに着目
②ウィキペディア作成成果のテキストマイニング分析
2017年度同志社大学大学院キャップストーンプログラム
にて実施されたオープンデータソン in 宇治の成果...
テキストマイニング分析:
フリーソフトウェアKH Coder ver2.00fを使用
文書データを言語学的な意味をなす最小の単位である
形態素に分割→形態素解析
語句間の関係を認識し、疑問文であるか命令文である
か等の文章タイプ判別を行い、語と...
全4回のウィキペディアタウン
ウィキペディア新規ページ
全8ページのテキストデータ(14KB)
215段落、313文、総抽出語4,544、
異なり語数1,343
3-1 分析対象
イベント名称 実施日
参加
人数
主催 会場 ウィキペディア作成...
964種類の語が分析対象,語の平均出現回数は1.84回
1回だけ出現した語が687種類(71.27%)
3 .2 記述統計
出現回数 度数 割合 累積割合
1 687 71.27 71.27
2 132 13.69 84.96
3 67 6.9...
名詞 サ変名詞 形容動詞 固有名詞 組織名 人名 地名 タグ
1 皇后 12 火葬 14 自然 4 昭和 5 平等院 6 藤原 10 宇治 35 金色院 16
2 女御 8 納骨 7 邪 3 宇治橋 3 あさひ 2 木幡 7 京都 15 地蔵院...
3.3 共起ネットワーク分析
対象文献における
単語と見出し間の関連性
を検討
共起ネットワーク種類:
サブグラフ検出・媒介
辺の媒介中心性を用いた
サブグループの抽出法。
強くお互いに結び付いている部分
を検出してグループ分け
カテゴリー化中...
3.3 共起ネットワーク分析
図1.共起ネットワーク分析結果(宇治)
10以上出現語
宇治 35
金色院 16
京都 15
火葬 14
地蔵院 14
白川 13
皇后 12
通圓 11
白山神社 11
藤原 10平等院以外の一般に
知られていな...
3.3 共起ネットワーク分析
図1.共起ネットワーク分析結果(宇治)
10以上出現語
宇治 35
金色院 16
京都 15
火葬 14
地蔵院 14
白川 13
皇后 12
通圓 11
白山神社 11
藤原 104群を繋ぐ
キーワード
藤原が
...
①オープンデータソン in 宇治の
市民参加型ウィキペディアタウンによる成果が
テキストマイニングによる定量分析から明らかとなった。
記述統計 8ページ、215段落、313文、総抽出語4,544、
異なり語数1,343
品詞頻出度一覧表からの頻...
・市民参加型でアナログ地域資料を出典としてウィキペディア上
にアナログ地域資料の簡便なデジタルアーカイブを実現
→これまで埋もれていた膨大なアナログ地域資料
インターネットを通じたアナログ地域資料へのデジタルな入り口
を作る効果
おわりに 本研...
共起ネットワーク分析
白川-金色院、木幡-宇治陵の2群が抽出され、
宇治-平等院以外の
一般にあまり知られていない
宇治市域の藤原氏に
ゆかりある
歴史的情報発信を
果たしたことが
定量的に示された。
おわりに 本研究の意義
ウィキペディア新規ページを対象とした本研究により、
ウィキペディアタウンの開催で、
ウィキペディア上に既存項目がない、すなわち、観光地でないた
め、一般にあまり注目されていない地域情報を
アナログ地域資料を使って、デジタルアーカイブ化して掘り起...
・テキストマイニング分析でのテキスト量不足
215段落、313文、総抽出語4,544
・今回の分析はウィキペディア新規ページが対象
、加筆ページの記述内容の分析やその意義を
明らかにしていく必要
・今回の分析は宇治市、特に宇治川東地域
既往研究...
今後の課題
Prochain SlideShare
Chargement dans…5
×

20170114同志社大学 オープンデータソン in 宇治におけるウィキペディアタウン成果のテキストマイニング分析

422 vues

Publié le

オープンデータソン in 宇治におけるウィキペディアタウン成果のテキストマイニング分析 青木和人 オープンデータ京都実践会 オープンデータソン in 宇治2017年度同志社大学大学院キャップストーンプログラム報告会 2018年1月14日: 同志社大学 江湖館

Publié dans : Sciences
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

20170114同志社大学 オープンデータソン in 宇治におけるウィキペディアタウン成果のテキストマイニング分析

  1. 1. オープンデータソン in 宇治における ウィキペディアタウン成果の テキストマイニング分析 青木和人 オープンデータ京都実践会 オープンデータソン in 宇治 2017年度同志社大学大学院キャップストーンプログラム報告会 2018年1月14日: 同志社大学 江湖館
  2. 2. 2 まちあるきして、地域の情報をインターネットで知っても らうために市民でつくるオープンデータ 「wikipediaタウン」+「OSMマッピングパーティー」を 行っています。 オープンデータ京都実践会の活動 けっして怪しい活動 ではありません。。
  3. 3. 総務省 地域情報化の推進施策などでは、 多様な担い手による地域情報化の必要性 問題の所在① 地域活性化のための地域情報化 出典:総務省|地域情報化の推進: http://t.co/l0qblpg 民間企業 市民NPO 行政 大学
  4. 4. 地域の情報拠点としての新たな役割の必要性 (塩見 2000,糸賀 2004) 地域社会における情報蓄積・情報発信の拠点 地域経済活性化等の地域課題解決支援 目指すべき公共図書館が優先して取り組むこ とが望ましい地域情報提供・地域文化発信の 課題の1つとして、 地域文化のデジタルアーカイブ等による発信, ウェブアーカイブの公開が挙げられている。 (文部科学省 図書館をハブとしているネットワークの在り方に 関する研究会 2005) 問題の所在② 地域情報拠点として公共図書館 出典:文部科学省 図書館をハブと しているネットワークの在り方に 関する研究会「地域の情報ハブと しての図書 館」.http://www.mext.go.jp/a_men u/shougai/tosho/houkoku/05091401/al l.pdf /
  5. 5. 5 ・国内での公共図書館における 具体的活動 地域のデジタル写真を アーカイブして公開 瀬戸内市立図書館 「せとうちデジタルフォトマップ」 箕面・豊中市立図書館との協力 豊中・箕面地域情報 アーカイブ化事業実行委員会 「北摂アーカイブス」 既往研究・先行事例 出典:瀬戸内市立図書館「せとうちデジタルフォトマッ プ」http://www.setouchi-photomap.jp/ 出典:豊中・箕面地域情報アーカイブ化事業実行委員会「北摂アーカ イブス」http://e-library2.gprime.jp/lib_city_toyonaka/cms/
  6. 6. これまで蓄積されてきた紙媒体によるアナログ状態の 膨大な地域資料をデジタルアーカイブする取り組みには 至っていない。 現在までに蓄積された紙媒体による 膨大なアナログ地域資料を早急にデジ タルアーカイブ化することは容易ではない。 アナログ地域資料の完全なデジタルアーカイブが実現 されるまで、もう一つのデジタルアーカイブ手法として、 地域資料のデジタルアーカイブを簡便に実現し、 インターネット上で地域資料の書誌情報や内容を検索 可能にすることが求められている。 先行事例の課題
  7. 7. オープンデータ京都実践会、Code for 山城 京都府地域 ウィキペディアタウン 全22回 開催 デジタルアーカイブプラットフォーム ウィキペディアに着目 公共図書館を会場 その資料で 市民参加型で地域情報 をデジタルアーカイブ して地域情報発信 市民参加型 地域情報 デジタルアーカイブイベント ウィキペディアタウン 成果発表 グループで オープンデータ作成 Wikipedia の作成講習 Wikipediaにページを作成 公共図書館 で開催
  8. 8. 京都府宇治市地域 ウィキペディアタウン 全4回 開催 主催: 「オープンデータ宇治の歴史・文化」プロジェクト、ちはやぶる宇治の未来をつくる会、 オープンデータ京都実践会 参加人数 102名、ウィキペディア新規作成項目 8項目 2017年度同志社大学大学院キャップストーンプログラム オープンデータソン in 宇治 イベント名称 実施日 参加 人数 主催 会場 ウィキペディア作成記事 新規 項目数 オープンデータソン2017 in 宇治 vol.1 2017年6月18日 35 宇治市川東集会所 新規項目:通圓、朝日山 (京都府宇治市) 加筆項目:興聖寺 (宇治市)、恵心院 2 オープンデータソン2017 in 宇治 vol.2 2017年7月23日 19 宇治市中央公民館 新規項目:下居神社、白川金色院、白山神社 (宇 治市) 加筆項目:なし 3 オープンデータソン2017 in 宇治 vol.3 2017年8月26日 29 宇治市木幡公民館 新規項目:宇治陵、松殿山荘 加筆項目:許波多神社 2 オープンデータソン2017 in 宇治 vol.4 2017年9月30日 19 宇治市立黄檗体育館 新規項目:浄妙寺 (宇治市) 加筆項目:宇治陵、許波多神社、萬福寺、宇治茶 1 計 102 8 「オープンデータ宇治 の歴史・文化」プロ ジェクト(同志社大学 大学院総合政策科学 研究科「キャップス トーン」担当教授:新 川達郎)、 ちはやぶる宇治の未 来をつくる会、 オープンデータ京都 実践会
  9. 9. 市民参加型で地域住民に地域資料を出典として明記しながら、 地域情報をウィキペディア上にデジタルアーカイブ→地域情報発信 2017年度同志社大学大学院キャップストーンプログラム オープンデータソン in 宇治 成果発表グループで ウィキペディア記述 Wikipedia の作成講習 地域資料を出 典として記述 まちあるきにて現地調査
  10. 10. 本研究では, ①もう一つの地域デジタルアーカイブ手法である ウィキペディアタウンに着目 ②ウィキペディア作成成果のテキストマイニング分析 2017年度同志社大学大学院キャップストーンプログラム にて実施されたオープンデータソン in 宇治の成果が、 地域資料デジタルアーカイブに果たした意義について 定量的に明らかにする。 研究目的
  11. 11. テキストマイニング分析: フリーソフトウェアKH Coder ver2.00fを使用 文書データを言語学的な意味をなす最小の単位である 形態素に分割→形態素解析 語句間の関係を認識し、疑問文であるか命令文である か等の文章タイプ判別を行い、語と語の関係を調べる。 →構文解析 →重要語句の抽出(出現頻度の認識)、語句の意味的 役割の認識、同義語の抽出 (1)品詞頻出度一覧表からの頻度分析 (2)共起ネットワーク図からの関係性分析 3-1 分析の方法
  12. 12. 全4回のウィキペディアタウン ウィキペディア新規ページ 全8ページのテキストデータ(14KB) 215段落、313文、総抽出語4,544、 異なり語数1,343 3-1 分析対象 イベント名称 実施日 参加 人数 主催 会場 ウィキペディア作成記事 新規 項目数 オープンデータソン2017 in 宇治 vol.1 2017年6月18日 35 宇治市川東集会所 新規項目:通圓、朝日山 (京都府宇治市) 加筆項目:興聖寺 (宇治市)、恵心院 2 オープンデータソン2017 in 宇治 vol.2 2017年7月23日 19 宇治市中央公民館 新規項目:下居神社、白川金色院、白山神社 (宇 治市) 加筆項目:なし 3 オープンデータソン2017 in 宇治 vol.3 2017年8月26日 29 宇治市木幡公民館 新規項目:宇治陵、松殿山荘 加筆項目:許波多神社 2 オープンデータソン2017 in 宇治 vol.4 2017年9月30日 19 宇治市立黄檗体育館 新規項目:浄妙寺 (宇治市) 加筆項目:宇治陵、許波多神社、萬福寺、宇治茶 1 計 102 8 「オープンデータ宇治 の歴史・文化」プロ ジェクト(同志社大学 大学院総合政策科学 研究科「キャップス トーン」担当教授:新 川達郎)、 ちはやぶる宇治の未 来をつくる会、 オープンデータ京都 実践会
  13. 13. 964種類の語が分析対象,語の平均出現回数は1.84回 1回だけ出現した語が687種類(71.27%) 3 .2 記述統計 出現回数 度数 割合 累積割合 1 687 71.27 71.27 2 132 13.69 84.96 3 67 6.95 91.91 4 26 2.7 94.61 5 17 1.76 96.37 6 7 0.73 97.1 7 5 0.52 97.62 8 4 0.41 98.03 9 3 0.31 98.34 10 2 0.21 98.55 11 2 0.21 98.76 12 2 0.21 98.97 13 1 0.1 99.07 14 3 0.31 99.38 15 2 0.21 99.59 16 1 0.1 99.69 35 1 0.1 99.79 10以上出現語 全体の1.45%
  14. 14. 名詞 サ変名詞 形容動詞 固有名詞 組織名 人名 地名 タグ 1 皇后 12 火葬 14 自然 4 昭和 5 平等院 6 藤原 10 宇治 35 金色院 16 2 女御 8 納骨 7 邪 3 宇治橋 3 あさひ 2 木幡 7 京都 15 地蔵院 14 3 茶道 8 建立 6 主 2 宇治線 3 安永 1 寛子 5 白川 13 通圓 11 4 木造 8 蔵 4 当たり前 2 大正 3 宮内庁 1 源頼政 4 木幡 9 白山神社 11 5 文化財 7 登場 4 華麗 1 奈良線 3 京阪電気鉄道 1 額田王 3 宇治川 5 松殿山荘 9 6 坐像 6 予定 4 堪能 1 明治 3 春日大社 1 宮本 3 朱雀 4 銅造 7 7 書院 6 勧進 3 貴重 1 地蔵山 2 石清水八幡宮 1 後冷泉 3 冷泉 4 宇治陵 5 8 歴史 6 建設 3 公式 1 興聖寺 1 大門 1 高谷 3 伊 3 浄妙寺 5 9 狂言 5 建築 3 重要 1 室町 1 四条宮 3 京阪 3 鳥部野 5 10 建物 5 再興 3 荘厳 1 創 1 武蔵 3 三条 3 発掘調査 5 11 皇太后 5 治 3 太平洋戦争1 平 3 西日本 3 円融 4 12 神社 5 焼失 3 天ヶ瀬 1 万寿 3 日本 3 重要文化財 4 13 拝殿 5 発掘 3 白川口 1 頼政 3 一条 2 下居神社 2 14 データ 4 一覧 2 並河 1 みどり 2 寄 2 朝日山 2 15 古墳 4 下車 2 明治維新 1 宇多 2 寺跡 2 16 交通 4 確認 2 英治 2 松庵 2 17 初代 4 勧請 2 吉川 2 上小 2 18 年間 4 完成 2 古川 2 惣門 2 19 百味 4 関係 2 千利休 2 代 2 20 立像 4 関連 2 村上 2 中 2 出現頻度 1~20位の各品詞を抽出 出現頻度が高い単語ほど重要度が高いとすると これらの地域情報発信が図られた。 3 .2 頻度分析 10以上出現語 宇治 35 金色院 16 京都 15 火葬 14 地蔵院 14 白川 13 皇后 12 通圓 11 白山神社 11 藤原 10
  15. 15. 3.3 共起ネットワーク分析 対象文献における 単語と見出し間の関連性 を検討 共起ネットワーク種類: サブグラフ検出・媒介 辺の媒介中心性を用いた サブグループの抽出法。 強くお互いに結び付いている部分 を検出してグループ分け カテゴリー化中心性の高い辺は 多くの頂点をつなぐ働きをしている 図1.共起ネットワーク分析結果(宇治)
  16. 16. 3.3 共起ネットワーク分析 図1.共起ネットワーク分析結果(宇治) 10以上出現語 宇治 35 金色院 16 京都 15 火葬 14 地蔵院 14 白川 13 皇后 12 通圓 11 白山神社 11 藤原 10平等院以外の一般に 知られていない 宇治、藤原氏に関する 情報発信を果たした。 木幡 宇治陵 白川 金色院 (金色院の 遺物が 地蔵院に 伝えられて いる。)
  17. 17. 3.3 共起ネットワーク分析 図1.共起ネットワーク分析結果(宇治) 10以上出現語 宇治 35 金色院 16 京都 15 火葬 14 地蔵院 14 白川 13 皇后 12 通圓 11 白山神社 11 藤原 104群を繋ぐ キーワード 藤原が つなぐ
  18. 18. ①オープンデータソン in 宇治の 市民参加型ウィキペディアタウンによる成果が テキストマイニングによる定量分析から明らかとなった。 記述統計 8ページ、215段落、313文、総抽出語4,544、 異なり語数1,343 品詞頻出度一覧表からの頻度分析 10以上出現語 宇治35回、金色院16回、京都15回、火葬14回、地蔵院 14回、白川13回、皇后12回、通圓11回、白山神社 11回、 藤原10回 これらの地域情報がウィキペディアにて情報発信された。 おわりに 本研究の意義
  19. 19. ・市民参加型でアナログ地域資料を出典としてウィキペディア上 にアナログ地域資料の簡便なデジタルアーカイブを実現 →これまで埋もれていた膨大なアナログ地域資料 インターネットを通じたアナログ地域資料へのデジタルな入り口 を作る効果 おわりに 本研究の意義 →アナログな紙媒体で 連綿と地域で蓄積され てきた膨大な市町村 史や郷土史等の埋も れていた地域資料の インターネットを通じた 再発見の機会を提供 地域住民が地域を調べて、 知り、情報発信!
  20. 20. 共起ネットワーク分析 白川-金色院、木幡-宇治陵の2群が抽出され、 宇治-平等院以外の 一般にあまり知られていない 宇治市域の藤原氏に ゆかりある 歴史的情報発信を 果たしたことが 定量的に示された。 おわりに 本研究の意義
  21. 21. ウィキペディア新規ページを対象とした本研究により、 ウィキペディアタウンの開催で、 ウィキペディア上に既存項目がない、すなわち、観光地でないた め、一般にあまり注目されていない地域情報を アナログ地域資料を使って、デジタルアーカイブ化して掘り起こ すことに繋がっていることが定量的に示された。 →ウィキペディアタウンは埋もれている地域情報の隙間探し →掘り起こし活動としての意味もある。 おわりに 本研究の意義 オープンデータソン2017 in 宇治 vol.1 通圓、朝日山 (京都府宇 治市) オープンデータソン2017 in 宇治 vol.2 下居神社、白川金色院、 白山神社 (宇治市) オープンデータソン2017 in 宇治 vol.3 宇治陵、松殿山荘 オープンデータソン2017 in 宇治 vol.4 浄妙寺 (宇治市) 宇治陵、松殿山荘はタブー視さ れていた。。チャレンジャー。。
  22. 22. ・テキストマイニング分析でのテキスト量不足 215段落、313文、総抽出語4,544 ・今回の分析はウィキペディア新規ページが対象 、加筆ページの記述内容の分析やその意義を 明らかにしていく必要 ・今回の分析は宇治市、特に宇治川東地域 既往研究でも、京都市、京都府、及び関西大都市圏に限定。 今後は全国のウィキペディアタウン、異なるコミュニティ運営に よるデジタルアーカイブ成果を明らかにしていく必要 今後の課題
  23. 23. 今後の課題

×