Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

大數據

5 212 vues

Publié le

大數據一書個人閱讀筆記

Publié dans : Données & analyses
  • Follow the link, new dating source: ❶❶❶ http://bit.ly/2F4cEJi ❶❶❶
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici
  • Dating for everyone is here: ❶❶❶ http://bit.ly/2F4cEJi ❶❶❶
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici

大數據

  1. 1. 大數據 「數位革命」之後「資料革命」登場:巨量資料掀起生活、工 作和思考方式的全面革新 麥爾荀伯格、庫基耶 著 201405閱讀筆記
  2. 2. 大數據時代改變分析資訊方式 • 第一大改變 – 能夠取得、分析的資料量大為增加 • 第二大改變 – 面對極大量的資料,不再堅持一切都要做到精準 • 第三大改變 – 放下長久以來對於因果關係的堅持 量變引發質變,更多、更亂但更有用!
  3. 3. 傳統統計思維 vs. 大數據思維 • 過去難以收集全部資料,統計學應運而生, 透過抽樣,希望用最少量的資料,以推估 整體 • 隨機抽樣是現代大規模測量的基礎,但隨 機抽樣之後,尺度難以調整,一旦我們想 要更深入、仔細研究某個有趣的資料子群, 抽樣調查就無用武之地,因為蒐集的資料 只是樣本,而不是一切,也就難以繼續擴 展延伸。
  4. 4. 擁抱不精確,宏觀新世界 • 放寬允許的誤差值,手中就能有更多的資 料,犧牲一點精確度,好看出整體大趨勢 • Google翻譯證明了「簡單的模型,加上大量 的資料,就會打敗很複雜但資料較少的模 型」 • 圖片、影片、音樂等非文字資料加上標籤 後,讓這些龐大的數位資料得以被搜索, 雖然標籤必然有不精確的地方,但也反映 真實世界固有的雜亂
  5. 5. 因果關係 vs. 相關性 • 亞馬遜商品推薦系統的概念:比較客戶之間 的異同在技術上過於繁瑣,只要比較商品本 身的關聯性就好 • 抓住相關性就抓住機會,相關性不只是本身 就很重要,甚至也能用來協助找出因果關係。 • 相關性的運用:我們想要預測A現象,但它 本身十分難以測量或觀察,這時我們發現A 常與B同時發生,此時只要把B當成指標,就 能用來預測A是否將要發生
  6. 6. 利用相關性分析的成功案例 • 美國零售商Target懷孕預測指標 – Target發現懷孕婦女在三個月的時候會買很多無香味乳 液,再過幾個月,又會買些營養補充品,該公司分析部 門找出20多種做為懷孕指標的商品,針對懷孕不同階段, 寄出恰到好處的優惠券。 • Walmart從2004年開始分析其龐大的歷史交易紀錄, 包含顧客買了什麼東西?總消費額?幾點消費?甚 至包含當時的天氣資訊? – Walmart發現在颶風來臨之前,銷量大增的不只是手電 筒,還有一種美國的小甜點Pop-Tarts,透過相關性分析, Walmart成功提高了營業額
  7. 7. 當位置成為資料 蒐集 打卡、感測器 標準化 GPS全球定位系統,標準化的坐標 量化 經度、緯度、比例尺 空間資料化的前提 • IoT (Internet of Things) • Asthmapolis將氣喘吸入 器裝上感應器,用GPS追 蹤定位,藉以找出氣喘 發作的環境因素 • LBS (Location-Based Service) • 蒐集消費者的地理位置, 放出最切合情境的廣告 或優惠方案
  8. 8. 資料價值鏈三大環節 資料 持有人 資料 專家 有巨量資 料思維者
  9. 9. 巨量資料的黑暗面 巨量資料只是工具,勿忘謙卑與人性 Dictatorship of data Dystopia Profiling 反匿名 個資洩漏 資料獨裁 去人性化
  10. 10. ReCaptcha • 輸入兩個在Google圖書掃描計畫中,電腦的 光學文字辨識軟體無法辨認的字詞。其中 一個字是用來確認其他用戶已經輸入的結 果,好確認另外輸入的那一位也是人。而 另一個字則是真的還沒有辨識出來的新字。 為確保正確性,系統平均會將同一個模糊 的字發給五個人,必須五個人的輸入都相 同,才會確認該字已經正確辨識。 ReCaptcha的故事證明重複使用資料的重要性
  11. 11. 資料廢氣 • 資料廢氣(data exhaust):使用者各種活動的 副產品形成的資料。在網路上,這個詞講 的就是用戶的線上互動情形,像是:使用 者點擊了哪裡、在同一個頁面停留多久、 滑鼠游標滑過哪裡、打了什麼字等等。

×