Contenu connexe Similaire à 2013調查報導工作坊 - 資料搜尋與處理 (20) Plus de whisky CHANG (20) 2013調查報導工作坊 - 資料搜尋與處理2. 青平台 / 張維志
Contact me :
• http://fb.me/opendata.tw
• http://www.opendata.tw
• http://www.opencampus.tw
• http://fb.me/groups/Open.Campus/
• whisky@ystaiwan.org
• Twitter : @opentaiwan
3. 重點摘要
• 資料新聞學 – 先談一下
• 資料新聞學 – 工作流程
• 資料收集
• 資料清理
• 資料解讀
• 資料整合
• 說出故事
• 團隊與角色 – 找出你的定位
14. 資料新聞學 – 工作流程
目的 – 當然是寫出一篇新聞(報導) XD
一切都從這開始:
我有個問題,想找答案
我有組資料集 (dataset) 我想看
看能「挖掘」出什麼
15. 資料新聞學 – 工作流程
我們要的是:
從資料下載 -
Html / CSV /
SQL / KML…
• 2010.07.25
• 91,731 份文件
到…
http://mirror.wikileaks.info/wiki/Afghan_War
_Diary,_2004-2010/
18. 資料新聞學 – 工作流程
Simon ROGERS
“Before a dataset results in a data
journalism story, there’s a whole process
of sifting and finessing and generally
sorting the data out. The split is roughly
70% tidying up the data, 30% doing the
fun stuff of visualising and presenting it.”
21. 資料新聞學 – 工作流程
資料匯整 – 把資料找出來
• 網路搜尋
• 政府部門與政府資訊公開法
• 開放資料與網路資料庫
• NPO / NGO 與倡議組織
• 鄉民 (SNS) 與駭客
23. 資料新聞學 – 工作流程
資料匯整 – 網路搜尋
• Google 以外的選擇 (為什麼?)
• MS Bing
• Yandex (俄羅斯)
• DuckDuckGo – 尊重個人隱私
• Blippex – 其他的搜尋計算公式
• Wolfram Alpha – 人工智慧的表現
• Pipl – 找人(但是應該沒台灣人,不支援中文搜尋)
http://www.bbc.co.uk/news/technology-23318889
24. 資料新聞學 – 工作流程
資料匯整 – 網路搜尋
成為 Google 搜尋的 power user!
• 使用進階功能 http://mashable.com/2011/11/24/google-
search-infographic/
• Site:
• Author:
• Filetype:
• Related“:
http://www.googleguide.com/advanced_operators.html
25. 資料新聞學 – 工作流程
資料匯整 – 網路搜尋
成為 Google 搜尋的 power user!
• 關鍵字的運用
• 越詳細找到的東西越符合我們的期待
• 不知道要期待什麼,就打簡單的幾個字,加上 “~” = related
• 從搜尋結果中再篩選
• 搭配搜尋指令使用
26. 資料新聞學 – 工作流程
資料匯整 – 政府部門與政府資訊公開法
政府資訊公開法 – 人民有知的權利
12 類需主動公開的資料:
• 五、施政計畫、業務統計及研究報告。
• 六、(一)公務-預算及決算書。
• 八、書面之公共工程及採購契約。
27. 資料新聞學 – 工作流程
資料匯整 – 政府部門與政府資訊公開法
但是… 政府一般不太情願把資料丟出來。
那怎麼辦?
• 寫信去所屬機關跟他們要
• 還是不給,找很多人一起去要!
• 就是不給,打行政訴訟!
28. 資料新聞學 – 工作流程
資料匯整 – 政府部門與政府資訊公開法
http://www.kickstarter.com/projects/cir/foia-machine
30. 資料新聞學 – 工作流程
資料匯整 – 開放資料與網路資料庫
開放資料 : 資料可被自由使用,不限制使用資格,使用方法,使用
範圍。(授權,技術格式,最低收費)
開放資料運動帶來更大量資料的釋出:
• 世界銀行 - http://data.worldbank.org/
• 各國政府開放資料平台 – http://data.gov.tw/
• 搜尋 : open data portal / open data catalog
32. 資料新聞學 – 工作流程
資料匯整 – NPO / NGO 與其他倡議組織
不管大大小小議題,其實都有人在關心…
所以,或許可以先把他們找出來..
問題是,這些 NGO/NPO 一般都對資料很無感
XDDD
33. 資料新聞學 – 工作流程
資料匯整 – 鄉民 (SNS) 與駭客
這不是鄉民的正義….
• 鄉民 : Crowdsourcing 群眾外包
• 駭客 : 有能力寫程式幫你處理問題
37. 資料新聞學 – 工作流程
資料匯整 – 駭客 / 強大的能量!
不過這些人,用的語言不太一樣
學會跟他們溝通
學會瞭解駭客的文化,技術
學會參與
有個組織叫做 g0v
41. 資料新聞學 – 工作流程
資料清理 – 程式集的清洗
資料集 : dataset,指的是一組彼此有關連的資料。
清洗的幾種方法
• 移除重複的資料
• 將欄位重新合併或是切割
• 確定欄位內容格式是否一致
• 去除多餘的空白字元,縮寫是否一致
• 檢查時間,數字,文字等格式設定
42. 資料新聞學 – 工作流程
資料清理 – 程式集的清洗
使用工具:
• Google OpenRefine / http://openrefine.org/
• Data Wrangler / http://vis.stanford.edu/wrangler/
• 或是直接使用試算表程式 (excel, calc…)
47. 資料新聞學 – 工作流程
資料整合 – 整理出一個回答問題的資料集
• 原始資料集的重新排序,切割,合併,簡化
• 與其他資料集的混搭 – Mashup
• 從空間,時間,連結關係上開始
48. 資料新聞學 – 工作流程
資料整合 – 整理出一個回答問題的資料集
• 原始資料集的重新排序,切割,合併,
簡化
• 只使用資料備份版本
• 定出問題與資料範圍
• 只保留有用的資料
49. 資料新聞學 – 工作流程
資料整合 – 整理出一個回答問題的資料集
• 與其他資料集的混搭 – Mashup
• 資料跟自己比較是沒有多大意義
• 找出其他可能相關資料集
• 建立資料集間的關係(共同 key)
50. 資料新聞學 – 工作流程
資料整合 – 整理出一個回答問題的資料集
• 從空間,時間,連結關係上開始
• 從不同變數(空間,時間)開始建立
基礎模型與呈現
• 將不同資料彙整在同一資料集內
56. 資料新聞學 – 團隊與角色
Computer Assisted Reporter
– 電腦輔助報導人
News Applications developer
– 新聞應用程式開發者
Data visualization specialist
– 資料視覺化呈現專家
57. 資料新聞學 – 團隊與角色
你該學會的新把戲
1. 基礎技能
(Fundamentals)
2. 統計(Statistics)
3. 程式設計
(Programming)
4. 機器學習(Machine
Learning)
5. 文字採礦/自然語言處理
(Text Mining / Natural
Language Processing)
6. 資料視覺化(Data
Visualization)
你該學會的新把戲 2
7. 大量資料(Big Data)
8. Data Ingestion
9. Data Wrangling
10. 工具(Toolbox)
60. 重點摘要
• 資料新聞學 – 先談一下
• 資料新聞學 – 工作流程
• 資料收集
• 資料清理
• 資料解讀
• 資料整合
• 說出故事
• 團隊與角色 – 找出你的定位
61. 青平台 / 張維志
Contact me :
• http://fb.me/opendata.tw
• http://www.opendata.tw
• http://www.opencampus.tw
• http://fb.me/groups/Open.Campus/
• whisky@ystaiwan.org
• Twitter : @opentaiwan