More Related Content
More from Johnson Gmail (20)
雜訊 THE NOISE.pdf
- 1. The Noise
雜訊
人 類 判 斷 的 缺 陷
作者:Daniel Kahneman (2002 Nobel Laureate)
Olivier Sibony, Cass R. Sunstein
台灣天下文化出版
Johnson CHEN 202212 1
- 2. Johnson CHEN 202212 2
「我們經常是處在客觀的無知狀態之中。」
Daniel Kahneman 本書作者
2002年諾貝爾經濟學獎得主
康納曼親自現身說法,拆解雜訊與偏誤 ─ 天下文化
- 4. 雜訊與偏誤可以在概念與統計上分離
• 雜訊 (Noise Error) 與偏誤 (Bias) 其
實是統計學中,兩個很基本的機率
分配屬性,可以在概念上完全分開,
也是互相獨立的,
• 雜訊係指誤差分配的離散程度,越
分散雜訊越多,這是統計學中的標
準差(或變異數)概念.
• 偏誤 (Bias)則是實際分配平均數偏
離零誤差多少的概念。
Johnson CHEN 202212 4
- 5. 偏 誤 vs 雜 訊
• 人類的思考基因是擅長連結因果說故事,但卻不擅長統計數字的。
• 在過去幾十年,已經有很多人注意到偏誤的問題。人類判斷令人驚異,而且人類心靈
締造很多了不起的成就。但在某些情況之下,偏誤會造成系統性的誤差。如果人過於
樂觀,就會出現偏誤。同樣的,若是太重視短期,就會忽略長期(這就是「現時偏
誤」)。很多人會顯現樂觀偏誤和現時偏誤,雖然這樣的偏誤可能是有用的(如果你
很樂觀,也許會比較願意勇於嘗試),但這也可能造成嚴重錯誤,因此產生大問題。
• 但是我們卻沒有看到,有關同等重要的『雜訊』(Noise),對我們決定的影響的研
究與報告。我們把雜訊定義為我們不樂見,甚至討厭的判斷變異。如果一位醫師說,
病人的心臟有問題,不過另一位醫師說,病人只是壓力大,這時就有雜訊了。若是一
位安檢人員說,某個工作場所安全無虞,但另一位安檢人員卻說那個工作場所很危險,
顯然這就是雜訊。
• 從很多方面來看,雜訊是個未知的國度,一個尚未被發現的世界。如何從單一決定找
出變數?這是一個嚴重的問題,世人卻視若無睹。雜訊會造成嚴重的不公平,在某些
情況下,應該被視為一種暴行,甚至是一種醜聞。而且在很多情況下,雜訊會付出高
昂的成本,企業、員工、消費者、投資人及其他許多人也會受到傷害。
• 只要是判斷,就會有雜訊,而且雜訊比我們每一個人想像的要多很多。
Johnson CHEN 202212 5
- 9. 雜 訊 的 問 題
Johnson CHEN 202212 9
• 社會充斥很多不合理的情況,像是不同法官對同一個案件卻有截然不同的判決、
不同醫師對同一個病人的診斷有很大的差異、不同選民對於客觀民調的解讀,
同一個員工的績效考核有不同的結果。至就連同一個法官、醫師與面試官在不
同的時間也會做出不同的判斷。為什麼會這樣?
• 因為,只要有判斷,就會有「雜訊」,而且在日常生活中,雜訊比你以為的還
要多。科學家發現,在經營管理、醫學、法律、經濟預測、法醫鑑識、保釋、
兒童保護、策略、績效評估、個人選擇等領域,都看得到雜訊,但是一般人和
組織都沒有意識到這個問題,結果是付出高昂的代價、企業有更大的隱藏成本、
公共安全與衛生受到影響、社會還會出現極端不公平的情況。
雜訊與偏誤一樣,都是人類必須迫切正視的問題
唯有正視雜訊與偏誤的存在,並做好決策保健工作
才能迎向決策錯誤更少、更公平、更健康的社會
- 10. Johnson CHEN 202212 10
人類判斷的三種錯誤
假設有一群朋友去射擊場打敗,
他們分成四隊,這是他們的成績
• A 隊是最接近理想的一對,所有著彈
點都靠近靶心,B 隊有偏誤(Bias),
C隊有雜訊,D隊又有雜訊又偏誤
但是當我們翻轉到標靶的背面,只有看到著彈點
痕跡的時候,我們可能繼續判斷或 C,D 兩隊可能
有雜訊,但是我們也同時落入以為B隊都也是正中
目標的偏差判斷。
為了避免判斷的錯誤,我們不但要避免思
考上的偏誤(Bias),同時還要理解雜訊
(Noise),還有它們之間的關聯關係
- 13. 司法判決裡遇到的雜訊問題
Johnson CHEN 202212 13
• 1970年代,世人對自由裁量權不再那麼熱衷。原因很簡單:量刑雜
訊多到令人震驚。1973年,美國著名的法官法蘭科(Marvin
Frankel,1920-2002)引發大眾對這個問題的關注。法蘭科在成
為法官之前,是一個捍衛言論自由的鬥士,積極倡導人權,協助創
立人權律師委員會。法蘭科是捍衛人權的悍將,而且對刑事司法體
系的雜訊問題感到憤怒
• 法蘭科描述法官專斷造成的種種冤罪案件,呼籲國會終止這種「歧
視」。他所說的「歧視」,主要是指雜訊,也就是莫名其妙的量刑
差異。但是,他也關心偏誤,也就是種族和社經地位造成的不平等。
為了消除雜訊和偏誤,他認為『…刑事被告不該受到差別待遇,除
非可以透過夠客觀的相關測試,確保判決結果不是單純官員、法官
等個人發布的敕令(Idiosyncratic Ukases)』
• 此外,法蘭科更主張,透過「詳細的個人資料或因素檢查清單,盡
可能包括數字或其他客觀評分」來減少雜訊。
- 14. 保險行業裡的系統雜訊-1
Johnson CHEN 202212 14
• 對於在像保險公司一樣的營利組織來說,雜訊的問題可能
非常嚴重。充滿雜訊的決策可能會對於公司和組織造成很
大的損失。
• 在任何大公司,很多專業人員在公司授權下所做的判斷,
與公司利益息息相關。例如,保險公司雇用很多核保人員,
他們會依據財務風險提出保費的報價給投保人,例如銀行
擔心因為詐欺或魔鬼交易(rogue trading)*而導致巨額
虧損,因此向保險公司投保。保險公司也雇用理賠人員來
計算未來的理賠成本,並與申請理賠者交涉。
• 保險公司的主管總是在衡量「促進判斷達到一致」(亦即減少雜訊)的潛在價
值。他們希望代表公司的人員在做出重要的財務決策時,盡可能意見一致。每
一個人都認為這樣的一致性是好的。然而,每一個人也都同意,他們的判斷不
可能完全一致,因為判斷並非制式,而且含有主觀的成分,因此雜訊是無可避
免的。
- 15. 保險行業裡的系統雜訊-2
Johnson CHEN 202212 15
• 保費確切的金額對公司有重大影響。如果保費高,客戶也願意接受的話,對公司來說是有利
的。但保費高也有將業務拱手讓給競爭對手的風險。保費低的話,客戶的接受度會比較高,
但對公司也比較不利。
• 以任何風險而言,都有所謂的「金髮姑娘價格」(Goldilocks price),也就是剛剛好,既不
會太高,也不會太低。一大群專業人士判斷出來的平均價格,可能和金髮姑娘價格相差無幾。
不管高於或低於這個價格都得付出代價,這就是為何判斷充滿雜訊,判斷的差異會損害公司
利益。、
• 早估價很重要,因為這為理賠人員未來與申請人的協商設定
一個隱性目標。在法律上,保險公司有義務為每一筆理賠案
件預留預計成本(有足夠的現金支付保險承諾的賠償)。
• 同樣的,從公司的角度來看,理賠金額最好符合金髮姑娘原
則。保險公司提出的理賠金額不一定會被申請人接受。如果
保險公司提出的給付金額太少,申請人可能會延請律師,將
保險公司告上法院。反之,如果理賠準備金過多,理賠人員
可能會輕易同意請求人的要求。因此,理賠人員的判斷對公
司來說很重要,而且期的對申請人而言甚至更重要。
- 16. 保險理賠抽籤制度創造的雜訊
Johnson CHEN 202212
16
• 在多數的理賠申請的的時候,保險公司往往只是指派一名理賠人員負責這個案子,就像指派
核保人員一樣,因為這個理賠人員正好有空,所以承辦此案。在保險公司的正常運作中,一
名專業人員被指派負責某一個案件,沒有人知道如果換另一個人會有什麼樣的結果。
• 理賠人員蒐集關於案件的事實證據,估算最後的理賠金額。同一名理賠人員也必須負責與理
賠申請人的代理人進行協商,確保申請人獲得保單條款承諾的理賠給付,同時也得保護公司,
讓公司不會付出過多的理賠金。
• 與法官判決一樣,研究人員發現保險公司在進行的雜訊審查
發現的差異要大得多。根據計算,核保人員的中位數差異為
55%,約為大多數人(包括該保險公司主管)預期的五倍。
這樣的結果意味著,如果一個核保人員核定的保費為9500美
元,另一個人提出的核保金額不是1萬500,而是1萬6700美
元。至於理賠人員的中位數差異則為43%。
• 很明顯的,龐大的雜訊量讓保險公司付出昂貴的代價。一位
資深主管估計,公司核保雜訊的年度成本可能高達幾億美元,
這些成本包括報價太高的業務流失,以及報價太低帶來的損
失。更由於沒有人知道每一個案件的『金髮姑娘價格』因此
沒有人能夠指出有多少錯誤或偏誤
- 17. 延伸閱讀:金髮姑娘價格 Goldilock Price
Johnson CHEN 202212 17
• 所謂『金髮女孩經濟』就是指「經濟溫和成
長,低通膨、低利率」的恰到好處的理想狀
態。這種環境確實是投資市場最舒服的階段。
消費的價格和市場自動產生的價格之間,消
費的價格應該貼近平均值。然而,讓人戒慎
恐懼的是,以上三個條件,何時改變、或是
還可以維持多久?這個擔心,也是讓市場充
滿波動性,以及經濟學家和政策制定者最大
的挑戰。
• 金髮女孩(Goldilocks)這個隱喻,來自於童話故事「金髮女孩與三隻
熊」。小女孩誤闖三隻熊的房子,房子裡有三碗粥、三張床,小女孩都嘗
試過後,選了最小碗的粥、最小的床睡覺,因為那最適合她。
- 18. 不必要的變異 vs 有利的多樣性
Johnson CHEN 202212
18
• 判斷的差異往往代表著某種程度的多樣性,不但應該在做決定的時候考慮進去,
同時也是一件好事。只是系統雜訊的一個關鍵特性是,這是不必要的雜訊,也
是我們希望避免或消除的
• 舉例來說,如果十位影評人看同一部電影、十位品酒師品評同一支酒、十位讀
者讀同一本小說,我們不會認為他們有相同的意見。畢竟人各有所好,這是很
自然的,也是我們完全可以預料到的。如果在一個世界裡,每一個人的好惡完
全相同,那麼沒有人願意活在這樣的世界。
• 但是,如果個人品味被誤認為專業判斷,品味差異也
可能造成錯誤。如果一個電影製片人決定以一個很不
尋常的主題拍片,只是因為他『很喜歡這個劇本』,
要是其他人都不喜歡的話,他可能就犯了重大偏見和
錯誤,這是我們希望在評價系統裡所避免和排除的,
也是希望能夠和所謂『多樣性』差異有所區分的。
- 19. 意見一致的錯覺-1
Johnson CHEN 202212 19
• 還在不久前,沒有人預期或關注雜訊的數量會那麼大。然而也沒有人質疑這個雜
訊審查結果的可信度和接受度。但雜訊的問題,以及因為雜訊帶來的巨大代價,
對組織而言似乎是個新問題。雜訊就像地下室漏水一樣。我們會容忍這個問題不
是因為這是可以接受的,只是因為一直沒有注意到這個問題的存在。
• 這個錯覺的根源來自於,對大多數的人而言,我
們大抵有個深信不疑的信念,認為這個世界看起
來這樣,是因為本來就是這樣。接著,也很容易
相信:「我這樣看世界,別人應該也是這樣看。」
這種信念就是所謂的天真的現實主義,這對於我
們與其他人共享的現實感受很重要。我們極少質
疑這種信念。不管任何時候我們都對周遭的世界
抱持著簡單,天真的單一解釋,更糟糕的是我們
也覺得這樣的解釋就足夠,就是正確了的,不會
去想像其他可能。
- 21. 單一決策 vs 重複決策
Johnson CHEN 202212 21
• 重複的決策可以透過收集結果和雜訊審查顯露出來。例如針對類似案件但是透過
執行,專業人員,法官的互換系統或機制,於是就很容易可以被定義和測量出不
必要的和系統雜訊本身所產出來的變異。但是單一決策(沒有前例可循的場景)
就相對來說困難許多。
• 只做一次的決策,例如如歐巴馬總統對伊波拉疫情的因
應措施,是單一決策,因為這樣的決策不是個人或團體
常常必須做出的決定,沒有預先準備好的因應措施,它
們具有真正獨特的特質,也沒有真正的前例可以借鑑。
• 公司領導人常常必須做一些對他們來說似乎獨一無二的
決定:例如是否推動可能帶來巨大變革的創新計畫?在
疫情進入全球大流行階段是否關閉店面?是否在外國開
設辦事處?等等….
• 重要的政治決策往往是單一決策最好的例子,軍事指揮
官做出攸關命運的抉擇也是如此。能夠過濾掉雜訊而針
對問題核心來解決,也就成為這些決策的重點關注
- 23. 延伸閱讀:COVID 抗疫政策與雜訊
Johnson CHEN 202212 23
• 2020年的 COVID 新冠並對,就是一個我們對抗雜訊的單一決策社
會實驗。面對同樣的病毒,世界各國五花八門的政策多樣,讓我們
見識到不同政策如何影響傳染病的傳播和應對。在這期間,許多國
家誤判這個冠狀病毒的傳播力,以及染疫的嚴重性,導致醫療崩潰
而造成大量人民死亡。
• 即使像台灣初期防疫有成,但後來也因一些的判斷失誤而近乎封城
了幾個月。同時疫苗採購的時間和選擇上也是備受諸多批評。
• 到了疫情的第三年,病毒也歷經了多次的變異。我們也慢慢的有一
些共識一些防疫成功的必要條件。然而,時即使是到了今天不缺疫
苗的時間節點,但仍有不少人拒絕接種而染疫,重症和病死。於是
完整沒有雜音的正確訊息,便是我們人類抗疫,甚至生存所面臨的
一個重要課題。
- 26. 延伸閱讀 均方誤差 Mean-Square Error
Carl Fredrich Gauss,1795
均方誤差(MSE)是我們在做預測性判斷,包括
預測和估計裡,準確度(accuracy)最高(偏誤
最小)和精確度(precision)最高(雜訊最小)
下接近真正平均的數值。
- 27. Johnson CHEN 202212 27
系統雜訊分析
• 水準誤差 Level Error- i.e 不同法官判斷平均水準的差異
• 型態雜訊 Pattern Noise-i.e. 法官對特定案件反應的差異
• 隨機雜訊 Random Error i.e 場合雜訊-不相干的戰士成份
- 29. 場合雜訊的來源
• 情緒
• 道德束縛
• 潛意識
• 天氣
• 排列順序
• ………
Johnson CHEN 202212 29
「判斷就像罰球:無論我們多麼想精準
呈現這個動作,沒有兩次罰球是完全相
同的。」
- 30. Johnson CHEN 202212 30
我們認知的限制和預防捷思謬誤
• 我們必須要理解人類大腦在認知上的
限制並預防我們捷思陷阱的基因:
• 相關性不代表因果關係,但我們可以從
因果關係找到相關性。
• 大多數正常事件不在我們意料之中,也
不會令人驚訝,也不需要解釋。
• 人們有對自己預測有過度的自信的傾向。
然而事實是,儘管我們自認為了解這裡
發生的事情,但我們同時卻不能夠能預
測到事情的發生,直到事情發生以後。
- 31. 延伸閱讀:一群人在一起,會變笨還是變聰明?
Johnson CHEN 202212
31
• 1950年代,哈佛心理學家艾許(Solomon Asch)研究證明,人常常會採用多數人的看法,
就算顯然是錯的、違背自己的直覺時依舊如此。同一時期的美國加州大學學者圖登罕(Read
Tuddenham)也發現,如果學生認為大家都選擇了某個答案,就會選擇同一個答案,就算
這個答案非常離譜也一樣。這個發現與我們所謂的「群眾的智慧」(wisdom of crowds)
指透過積聚大量人群的智慧,提供比獨自一人更正確的預測或答案的傳統思維截然不同
- 32. Johnson CHEN 202212 32
• 『群眾的智慧』(The Wisdom of The Crowd) 是說,
只要集合群體的資訊,做出的決策常常會比個別成員
做出的決定要好。
• 然而事實是,「從眾的智慧」門檻很高,往往要在群
體成員要都要能夠『獨立』做出判斷時才會發生,而
且在群眾具有多樣性時,效果也最好。
• 另一方面,在共享單一認同的一致性群體中,團結一
致的重要性高過一切。我們反而會有不理性的決定的
傾向。
• 現在很多人開始用這個理論反思我們現代社會對於社
群網路和軟件的依賴,因而產生的群體極化(Group
Polarization)。「我們認為網路是資訊的超高速公路,
其實不是,那是條偏見的超高速公路。推特和臉書很
適合分享資訊,但如果我們分享的是偏見,社群網站
可能會讓我們變笨。」
- 34. 降低雜訊的方法-1
Johnson CHEN 202212 34
1. 判斷的目標是準確,而非個人特質的表現
• 為了避免穩定型態雜訊,讓不同的專業人士對同一件事情有相近的判斷,我們
可以把要判斷的程度先定義清楚,而不是給一張空白畫布讓人隨意發揮。最激
進的做法是利用電腦演算法,以規則來代替判斷
2. 要有統計思維,用外部觀點來看待案件
• 把我們要判斷的事情,當成是一群類似案件裡面的其中一個案件,而非每次都
把案件當作全新的事件。當我們引入外部的數值,例如,評估一個執行長的留
任期間長短,就要先看業界平均期間是多少,再對目前的判斷做出調整。
3. 將判斷結構化,拆解成幾個部分
• 因為當不同的人看到不同的條件,都會在心裡編織起自己的故事。就像是不同
的面試官可能會給同一個面試者截然不同的評價。這個方式可以打破人們過度
追求連貫性的心理機制,在過程中針對各個獨立的特質進行評分,而不是等到
一連串的評估結束後才一口氣評分做判斷。
- 35. 降低雜訊的方法-2
Johnson CHEN 202212 35
4. 抗拒太早出現的直覺的誘惑
• 如果我們在第一時間就用直覺來判斷事情,那麼後續我們找的資料跟佐證,很可
能都只是為了證明我們自己的觀點,落入了對自己過度自信的幻覺。好的做法是
延續上一步,把各自獨立的評估都進行完成之後,然後才使用直覺進行最終判斷。
5. 從多位判斷者取得獨立判斷,然後考慮將這些判斷總合起來
• 作者們透過許多實驗說明,將獨立的判斷加以平均,可以保證系統雜訊減少。因
為不同的判斷者各自的技能和觀點會互補,增加資料的樣本數可以提高準確性,
例如 Google 在招募人才就會參考四位面試者的判斷。
6. 偏向相對判斷,相對尺度和應用基準比較(Benchmark)
• 人類在絕對值上面的判斷,都有各自截然不同的解讀。例如我們要替一個團隊打
績效,不同的主管給每個員工的絕對分數,差異一定很大。但如果改成用排序的
方式,不同的主管給出的排序反而都非常相近。採取案例量表來做判斷,會比給
絕對分數來得好。
- 38. 延伸閱讀: 假設檢定的型一錯誤 vs 型二錯誤
Hypothesis Testing Type I and Type II Error
Johnson
CHEN
202212
• 型一錯誤(Type I Error)
• 倘若虛無假說事實上成立,但計算出來的檢定統計量落在拒絕區域,使其拒絕虛無假設,該種錯
誤即為型一錯誤。其發生的機率以 α 表示,或稱顯著水準 (significant level)。
• 時常被提起的例子就是法官的判決。如果犯人無罪,卻判決有罪,就是典型的型一錯誤。
• 型二錯誤 (Type II Error)
• 倘若虛無假設事實上不成立,但計算出來的的檢定統計量沒有落在拒絕區域,也就是落在接受區
域,使其不拒絕虛無假設。其發生的機率以 β 表示。另外,統計上常稱 1−β 為檢定力 (Power) 。
38
• 『假設檢定』是一個常用在估
計母體參數的統計和預測手法。
• 根據檢定統計量(Test
Statistics) 是否落在拒絕區域,
來判斷是否應該拒絕某一個設
定的虛無假設(null
hypothesis),而反推我們對
於母體的一些判斷。
• 但是這個判斷可能會有兩種的
錯誤我們需要理解和更深入的
檢驗的: