雜訊 THE NOISE.pdf

The Noise
雜訊
人類判斷的缺陷
作者：Daniel Kahneman （2002 Nobel Laureate）
Olivier Sibony, Cass R. Sunstein
台灣天下文化出版
Johnson CHEN 202212 1

「我們經常是處在客觀的無知狀態之中。」
Daniel Kahneman 本書作者
2002年諾貝爾經濟學獎得主
康納曼親自現身說法，拆解雜訊與偏誤 ─ 天下文化

• 認知偏誤與快速直覺判斷（Heuristics，一種簡化的思考方式，又稱捷思法），是關聯在一
起的概念，之所以產生認知偏誤，有時是來自快速的直覺判斷風格。這種思考風格不一定就
會產生錯誤，也具有演化上的利益，如動物在野外求生，若不能發展出這種快速的直覺判斷
與反應，則很容易在天擇過程中出局。
• 在人類特別是現代社會做較複雜決策或在較不確定狀態下，並沒有要求一定要做快速反應，
也有資料可供研判，但這種思考風格卻似乎早已經在我們的基因裡，令我們經常不由自主的
發生，以致產生認知誤差。
• 誤差則是由偏誤和雜訊兩者的總合。「偏誤」比較廣為人知，例如損失趨避、錨定效應和從
眾效應…等；「雜訊」則不容易被人察覺，像是不同的專家對同一件事情意見分歧的程度，
遠超過人們常理的預測程度。但是，雜訊卻無處不在，影響也不比偏誤小，只有使用統計學
來觀察的時候能讓它現形。
人類判斷出錯的兩大來源：
認知偏誤與雜訊

雜訊與偏誤可以在概念與統計上分離
• 雜訊 (Noise Error) 與偏誤 (Bias) 其
實是統計學中，兩個很基本的機率
分配屬性，可以在概念上完全分開，
也是互相獨立的，
• 雜訊係指誤差分配的離散程度，越
分散雜訊越多，這是統計學中的標
準差（或變異數）概念.
• 偏誤（Bias)則是實際分配平均數偏
離零誤差多少的概念。

偏誤 vs 雜訊
• 人類的思考基因是擅長連結因果說故事，但卻不擅長統計數字的。
• 在過去幾十年，已經有很多人注意到偏誤的問題。人類判斷令人驚異，而且人類心靈
締造很多了不起的成就。但在某些情況之下，偏誤會造成系統性的誤差。如果人過於
樂觀，就會出現偏誤。同樣的，若是太重視短期，就會忽略長期（這就是「現時偏
誤」）。很多人會顯現樂觀偏誤和現時偏誤，雖然這樣的偏誤可能是有用的（如果你
很樂觀，也許會比較願意勇於嘗試），但這也可能造成嚴重錯誤，因此產生大問題。
• 但是我們卻沒有看到，有關同等重要的『雜訊』（Noise），對我們決定的影響的研
究與報告。我們把雜訊定義為我們不樂見，甚至討厭的判斷變異。如果一位醫師說，
病人的心臟有問題，不過另一位醫師說，病人只是壓力大，這時就有雜訊了。若是一
位安檢人員說，某個工作場所安全無虞，但另一位安檢人員卻說那個工作場所很危險，
顯然這就是雜訊。
• 從很多方面來看，雜訊是個未知的國度，一個尚未被發現的世界。如何從單一決定找
出變數？這是一個嚴重的問題，世人卻視若無睹。雜訊會造成嚴重的不公平，在某些
情況下，應該被視為一種暴行，甚至是一種醜聞。而且在很多情況下，雜訊會付出高
昂的成本，企業、員工、消費者、投資人及其他許多人也會受到傷害。
• 只要是判斷，就會有雜訊，而且雜訊比我們每一個人想像的要多很多。

偏誤：明顯的缺陷
• 偏誤（Bias）指的是人們「偏向同
一個方向的平均誤差」，也是心理
學上面最廣為人知的研究領域。例
如「規劃謬誤」偏誤，就是指人們
總是低估完成一件事情所需要的時
間，像是經理人總是低估專案完成
的時間。「從眾效應」偏誤，就是
指人們傾向相信很多人相信的事，
像是董事會討論一個併購案的時候，
董事們會被比較多數人相信的事影
響了最後的決定。
• 從事後諸葛的角度，偏誤很明顯可
以用因果的方式來解釋,這也是我們
人們善用和習慣的思考方式.

雜訊：隱形的缺陷
• 「雜訊」（noise）指的是人們「彼此判斷的方
向不同、意見分歧的程度」，但只有從統計學的
角度才看得到雜訊。像是一般的專業人士，例如
經驗資深的保險核保人員，往往對自己的判斷很
有信心，也不會去質疑同事的判斷跟自己有很大
的差異。但是一旦把統計的資料攤在桌上，才會
發現這些判斷的差異不但很大，甚至常常有不同
的專業人士對同一件事情有完全相反的判斷
• 因此統計學和經濟學家常說, 在因果關係裡，雜
訊不見蹤跡；在統計世界裡，雜訊無所不在。

現實世界充滿雜訊
醫療診斷充滿雜訊
預測充滿雜訊
政治議題充滿雜訊
人事決定充滿雜訊
司法判決充滿雜訊
面對相同的病人，不同醫師對於各
種病人情況的診斷和判斷往往大不
相同，往往給病人和家屬帶來更多
的壓力和焦慮。
經濟學家對於新產品，新季度景氣，
失業率等看法也有很大的分歧。
不同政治立場的選民對於一些客觀
的事實，選情判斷，民調結果等有
著不同的解讀
不同面試官對於同一個面試者或績
效考核的評價可能天差地遠。
被告是否有罪無罪？可不可以獲得保
釋？往往因為有的法官比較寬容，有
的比較嚴格而有所不同。太多的不確
定會令人對正義和司法感到擔心
• 說來遺憾，很多組織都飽受偏誤和雜訊的困擾。只要是人類的
判斷，就不免有雜訊。而這些重大的社會和太過於依賴個人決
定的不確定令人不安。為了提升判斷和決定的品質，除了偏誤
之外，我們還必須要克服雜訊的問題。

雜訊的問題
• 社會充斥很多不合理的情況，像是不同法官對同一個案件卻有截然不同的判決、
不同醫師對同一個病人的診斷有很大的差異、不同選民對於客觀民調的解讀，
同一個員工的績效考核有不同的結果。至就連同一個法官、醫師與面試官在不
同的時間也會做出不同的判斷。為什麼會這樣？
• 因為，只要有判斷，就會有「雜訊」，而且在日常生活中，雜訊比你以為的還
要多。科學家發現，在經營管理、醫學、法律、經濟預測、法醫鑑識、保釋、
兒童保護、策略、績效評估、個人選擇等領域，都看得到雜訊，但是一般人和
組織都沒有意識到這個問題，結果是付出高昂的代價、企業有更大的隱藏成本、
公共安全與衛生受到影響、社會還會出現極端不公平的情況。
雜訊與偏誤一樣，都是人類必須迫切正視的問題
唯有正視雜訊與偏誤的存在，並做好決策保健工作
才能迎向決策錯誤更少、更公平、更健康的社會

人類判斷的三種錯誤
假設有一群朋友去射擊場打敗，
他們分成四隊，這是他們的成績
• A 隊是最接近理想的一對，所有著彈
點都靠近靶心，B 隊有偏誤（Bias），
C隊有雜訊，D隊又有雜訊又偏誤
但是當我們翻轉到標靶的背面，只有看到著彈點
痕跡的時候，我們可能繼續判斷或 C,D 兩隊可能
有雜訊，但是我們也同時落入以為B隊都也是正中
目標的偏差判斷。
為了避免判斷的錯誤，我們不但要避免思
考上的偏誤（Bias），同時還要理解雜訊
（Noise)，還有它們之間的關聯關係

系統性雜訊
Systematic Noise
• 凡是由從一群同等資格的人當中隨機挑選人出來做判
斷的地方，雜訊就會是問題。很多組織都飽受系統雜
訊的困擾：你去醫院接受哪位醫師的診治、在法庭上
由哪位法官審理你的案子、哪位專利審查員審查你的
申請案、哪位客服專員聽你投訴等，往往是隨機指派
的。在這些判斷當中，不必要的變異可能會造成嚴重
的問題，包括金錢損失，以及層出不窮的不公平。
• 對於判斷當中不必要的變異，常會出現一種誤解，認
為這種變異並不重要，因為隨機錯誤應該會互相抵消。
當然關於同一個案件所做的判斷，正負誤差往往會互
相抵消，然而事實上，一個充滿雜訊的系統不會對同
一個案件做出多個判斷，而是對不同的案件做出『有
干擾』的判斷。如果一家保險公司的一份保單報價太
高，另一份報價過低，兩者的平均值似乎是適當的，
但其實這家保險公司還是犯了兩個代價高昂的錯誤。
• 在充滿雜訊的系統裡，錯誤不會互相抵消，只會相加。
11

犯罪與量刑的雜訊
• 長久以來，全世界的法官在量刑時都有自由裁量權。在很多國
家，法學專家無不讚許這種自由裁量權，認為這種做法既公正，
又合乎人道。這些專家認為刑事判決應該依據很多因素，不只
是罪行的種類，還必須考量被告的性格與情況。因此，「刑罰
個別化」的裁量方式成為主流。如果法官受到規則的約束，罪
犯就會受到不人道的待遇，他們不被視為個體，特殊情況也無
法納入考量。在很多人看來，「正當法律程序」似乎意味著
『法官的自由裁量權』（或所謂自由心證）是司法制度不可動
搖的基石。
• 然而，如果有一個人因為搶劫銀行而被定罪，在美國的刑法裡，
他有可能最高可能會被判處25年有期徒刑。這意味被告坐牢
的時間從0到25年都有可能。於是，刑期長短並非完全取決於
案件或被告，很有可能要看審理法官，也就是受法官的觀點、
偏好與偏誤所影響。因此，同樣的案件、同一個被告，可能因
為審理法官的不同，出現迥然不同的判決。
• 於是，我們的法律制度『需要一套客觀，放諸四海皆準的規則，
對於法官和所有人都有約束力』-Hn. Marvin Frankel (1973)

司法判決裡遇到的雜訊問題
• 1970年代，世人對自由裁量權不再那麼熱衷。原因很簡單：量刑雜
訊多到令人震驚。1973年，美國著名的法官法蘭科（Marvin
Frankel，1920-2002）引發大眾對這個問題的關注。法蘭科在成
為法官之前，是一個捍衛言論自由的鬥士，積極倡導人權，協助創
立人權律師委員會。法蘭科是捍衛人權的悍將，而且對刑事司法體
系的雜訊問題感到憤怒
• 法蘭科描述法官專斷造成的種種冤罪案件，呼籲國會終止這種「歧
視」。他所說的「歧視」，主要是指雜訊，也就是莫名其妙的量刑
差異。但是，他也關心偏誤，也就是種族和社經地位造成的不平等。
為了消除雜訊和偏誤，他認為『…刑事被告不該受到差別待遇，除
非可以透過夠客觀的相關測試，確保判決結果不是單純官員、法官
等個人發布的敕令（Idiosyncratic Ukases）』
• 此外，法蘭科更主張，透過「詳細的個人資料或因素檢查清單，盡
可能包括數字或其他客觀評分」來減少雜訊。

保險行業裡的系統雜訊-1
• 對於在像保險公司一樣的營利組織來說，雜訊的問題可能
非常嚴重。充滿雜訊的決策可能會對於公司和組織造成很
大的損失。
• 在任何大公司，很多專業人員在公司授權下所做的判斷，
與公司利益息息相關。例如，保險公司雇用很多核保人員，
他們會依據財務風險提出保費的報價給投保人，例如銀行
擔心因為詐欺或魔鬼交易（rogue trading）*而導致巨額
虧損，因此向保險公司投保。保險公司也雇用理賠人員來
計算未來的理賠成本，並與申請理賠者交涉。
• 保險公司的主管總是在衡量「促進判斷達到一致」（亦即減少雜訊）的潛在價
值。他們希望代表公司的人員在做出重要的財務決策時，盡可能意見一致。每
一個人都認為這樣的一致性是好的。然而，每一個人也都同意，他們的判斷不
可能完全一致，因為判斷並非制式，而且含有主觀的成分，因此雜訊是無可避
免的。

保險行業裡的系統雜訊-2
• 保費確切的金額對公司有重大影響。如果保費高，客戶也願意接受的話，對公司來說是有利
的。但保費高也有將業務拱手讓給競爭對手的風險。保費低的話，客戶的接受度會比較高，
但對公司也比較不利。
• 以任何風險而言，都有所謂的「金髮姑娘價格」（Goldilocks price），也就是剛剛好，既不
會太高，也不會太低。一大群專業人士判斷出來的平均價格，可能和金髮姑娘價格相差無幾。
不管高於或低於這個價格都得付出代價，這就是為何判斷充滿雜訊，判斷的差異會損害公司
利益。、
• 早估價很重要，因為這為理賠人員未來與申請人的協商設定
一個隱性目標。在法律上，保險公司有義務為每一筆理賠案
件預留預計成本（有足夠的現金支付保險承諾的賠償）。
• 同樣的，從公司的角度來看，理賠金額最好符合金髮姑娘原
則。保險公司提出的理賠金額不一定會被申請人接受。如果
保險公司提出的給付金額太少，申請人可能會延請律師，將
保險公司告上法院。反之，如果理賠準備金過多，理賠人員
可能會輕易同意請求人的要求。因此，理賠人員的判斷對公
司來說很重要，而且期的對申請人而言甚至更重要。

保險理賠抽籤制度創造的雜訊
Johnson CHEN 202212
16
• 在多數的理賠申請的的時候，保險公司往往只是指派一名理賠人員負責這個案子，就像指派
核保人員一樣，因為這個理賠人員正好有空，所以承辦此案。在保險公司的正常運作中，一
名專業人員被指派負責某一個案件，沒有人知道如果換另一個人會有什麼樣的結果。
• 理賠人員蒐集關於案件的事實證據，估算最後的理賠金額。同一名理賠人員也必須負責與理
賠申請人的代理人進行協商，確保申請人獲得保單條款承諾的理賠給付，同時也得保護公司，
讓公司不會付出過多的理賠金。
• 與法官判決一樣，研究人員發現保險公司在進行的雜訊審查
發現的差異要大得多。根據計算，核保人員的中位數差異為
55％，約為大多數人（包括該保險公司主管）預期的五倍。
這樣的結果意味著，如果一個核保人員核定的保費為9500美
元，另一個人提出的核保金額不是1萬500，而是1萬6700美
元。至於理賠人員的中位數差異則為43％。
• 很明顯的，龐大的雜訊量讓保險公司付出昂貴的代價。一位
資深主管估計，公司核保雜訊的年度成本可能高達幾億美元，
這些成本包括報價太高的業務流失，以及報價太低帶來的損
失。更由於沒有人知道每一個案件的『金髮姑娘價格』因此
沒有人能夠指出有多少錯誤或偏誤

延伸閱讀：金髮姑娘價格 Goldilock Price
• 所謂『金髮女孩經濟』就是指「經濟溫和成
長，低通膨、低利率」的恰到好處的理想狀
態。這種環境確實是投資市場最舒服的階段。
消費的價格和市場自動產生的價格之間，消
費的價格應該貼近平均值。然而，讓人戒慎
恐懼的是，以上三個條件，何時改變、或是
還可以維持多久？這個擔心，也是讓市場充
滿波動性，以及經濟學家和政策制定者最大
的挑戰。
• 金髮女孩（Goldilocks）這個隱喻，來自於童話故事「金髮女孩與三隻
熊」。小女孩誤闖三隻熊的房子，房子裡有三碗粥、三張床，小女孩都嘗
試過後，選了最小碗的粥、最小的床睡覺，因為那最適合她。

不必要的變異 vs 有利的多樣性
Johnson CHEN 202212
18
• 判斷的差異往往代表著某種程度的多樣性，不但應該在做決定的時候考慮進去，
同時也是一件好事。只是系統雜訊的一個關鍵特性是，這是不必要的雜訊，也
是我們希望避免或消除的
• 舉例來說，如果十位影評人看同一部電影、十位品酒師品評同一支酒、十位讀
者讀同一本小說，我們不會認為他們有相同的意見。畢竟人各有所好，這是很
自然的，也是我們完全可以預料到的。如果在一個世界裡，每一個人的好惡完
全相同，那麼沒有人願意活在這樣的世界。
• 但是，如果個人品味被誤認為專業判斷，品味差異也
可能造成錯誤。如果一個電影製片人決定以一個很不
尋常的主題拍片，只是因為他『很喜歡這個劇本』，
要是其他人都不喜歡的話，他可能就犯了重大偏見和
錯誤，這是我們希望在評價系統裡所避免和排除的，
也是希望能夠和所謂『多樣性』差異有所區分的。

意見一致的錯覺-1
• 還在不久前，沒有人預期或關注雜訊的數量會那麼大。然而也沒有人質疑這個雜
訊審查結果的可信度和接受度。但雜訊的問題，以及因為雜訊帶來的巨大代價，
對組織而言似乎是個新問題。雜訊就像地下室漏水一樣。我們會容忍這個問題不
是因為這是可以接受的，只是因為一直沒有注意到這個問題的存在。
• 這個錯覺的根源來自於，對大多數的人而言，我
們大抵有個深信不疑的信念，認為這個世界看起
來這樣，是因為本來就是這樣。接著，也很容易
相信：「我這樣看世界，別人應該也是這樣看。」
這種信念就是所謂的天真的現實主義，這對於我
們與其他人共享的現實感受很重要。我們極少質
疑這種信念。不管任何時候我們都對周遭的世界
抱持著簡單，天真的單一解釋，更糟糕的是我們
也覺得這樣的解釋就足夠，就是正確了的，不會
去想像其他可能。

意見一致的錯覺-2
• 以專業判斷而言，我們相信別人的看法跟我們
大抵相同，這種信念會透過多種方式強化。首
先，我們跟同事有著相同的語言，也有同樣的
思考規則，知道在做決定時何種考量是重要的。
• 經驗也告訴我們，與其他人意見一致是對的，
如果有人違反規則，就會做出荒謬的判斷。我
們偶爾會把和同事的意見分歧看作是他們的判
斷失誤。我們很少有機會注意到我們一致同意
的規則是模糊的，足以消除一些可能性，卻無
法一起積極的對某種情況做出反應。
• 我們喜歡待在與同事意見一致的舒適圈，未曾
注意到他們看到的世界其實和我們不一樣。
• 大多數的組織文化也是偏好共識與和諧，討厭
異議和衝突。即便是在檢視雜訊的相關會議和
討論裡，做法似乎是想盡量減少意見相左發生
的頻率，真的發生意見不一時，則找理由來掩
飾問題。

單一決策 vs 重複決策
• 重複的決策可以透過收集結果和雜訊審查顯露出來。例如針對類似案件但是透過
執行，專業人員，法官的互換系統或機制，於是就很容易可以被定義和測量出不
必要的和系統雜訊本身所產出來的變異。但是單一決策（沒有前例可循的場景）
就相對來說困難許多。
• 只做一次的決策，例如如歐巴馬總統對伊波拉疫情的因
應措施，是單一決策，因為這樣的決策不是個人或團體
常常必須做出的決定，沒有預先準備好的因應措施，它
們具有真正獨特的特質，也沒有真正的前例可以借鑑。
• 公司領導人常常必須做一些對他們來說似乎獨一無二的
決定：例如是否推動可能帶來巨大變革的創新計畫？在
疫情進入全球大流行階段是否關閉店面？是否在外國開
設辦事處？等等….
• 重要的政治決策往往是單一決策最好的例子，軍事指揮
官做出攸關命運的抉擇也是如此。能夠過濾掉雜訊而針
對問題核心來解決，也就成為這些決策的重點關注

單一決策的雜訊- 當作只做一次的重複決策
22
Johnson
CHEN
202212
• 單一決策的重複決策不同。重複決策的分析通常傾向利用統計學和社會科學統計
來評斷。而『高風險的單一決策』則是歷史學家和管理大師的研究範圍。
• 這兩種決策的研究方法截然不同。社會科學家也會評估很多類似決策，以辨識模
式、規律性，並衡量準確性。然而，單一決策的討論通常會採用因果關係的觀點，
而且是在事情發生之後才檢視，把焦點放在找出事情發生的原因和歷史分析。
• 單一決策的本質，為雜訊研究帶來一個重要
的問題。雖然我們定義雜訊是在判斷同一個
問題時出現不想要的變異。由於單一問題永
遠不會重複出現，因此這樣的定義並不適用
在單一決策上，
• 然而，從減少雜訊的角度來看，單一決策可
以被認為是只發生一次的重複決策。所以不
管你的決策只做一次，或是做一百次，都該
以減少偏誤和雜訊為目標。減少錯誤的做法，
對獨一無二的決策及重複決策應該同樣有效。

延伸閱讀：COVID 抗疫政策與雜訊
• 2020年的 COVID 新冠並對，就是一個我們對抗雜訊的單一決策社
會實驗。面對同樣的病毒，世界各國五花八門的政策多樣，讓我們
見識到不同政策如何影響傳染病的傳播和應對。在這期間，許多國
家誤判這個冠狀病毒的傳播力，以及染疫的嚴重性，導致醫療崩潰
而造成大量人民死亡。
• 即使像台灣初期防疫有成，但後來也因一些的判斷失誤而近乎封城
了幾個月。同時疫苗採購的時間和選擇上也是備受諸多批評。
• 到了疫情的第三年，病毒也歷經了多次的變異。我們也慢慢的有一
些共識一些防疫成功的必要條件。然而，時即使是到了今天不缺疫
苗的時間節點，但仍有不少人拒絕接種而染疫，重症和病死。於是
完整沒有雜音的正確訊息，便是我們人類抗疫，甚至生存所面臨的
一個重要課題。

• 判斷可以被描述為由人的頭腦作為儀器的一種測量。測量的概
念隱含追求準確的目的：盡可能接近真實數值，而且把錯誤降
到最低。
• 判斷的目的不是為了給人留下印象、不是為了表態，也不是為
了說服別人。同時，做出準確的判斷不等於擁有良好的判斷力。
判斷-Judgement
• 雖然準確是目標，要百分之百達成這個目標是不可能的，即
使是科學測量也做不到，更別提判斷了。有誤差是難免的，
有些誤差是偏誤，有些誤差則是雜訊。
• 特別是當人們認為自己在做判斷時，所展
現出思考的複雜性，並增添細微的考量。
但這種複雜性和微妙性往往只會弄巧成拙，
不會提高簡單模型的準確性。

誤差的測量
• 在所有類型的專業判斷中，計算整體誤差時，『偏誤』
（Bias）和『雜訊』（Noise）會扮演相同的角色。在某
些情況下，偏誤是造成誤差最主要的因素，在另外的情況
下，則是雜訊造成主要的誤差結果。
• 雜訊會產生代價很高的錯誤。如果一個經理人經常預測專
案所需時間是實際完成時間的一半，偶爾預測所需時間為
實際完成時間的兩倍，說這個經理人的「平均預測時間」
是對的，一點幫助也沒有。在研究雜訊的理論裡，我們必
須要記得，不同的錯誤會相加，不會互相抵消。

延伸閱讀均方誤差 Mean-Square Error
Carl Fredrich Gauss，1795
均方誤差（MSE）是我們在做預測性判斷，包括
預測和估計裡，準確度（accuracy）最高（偏誤
最小）和精確度（precision）最高（雜訊最小）
下接近真正平均的數值。

系統雜訊分析
• 水準誤差 Level Error- i.e 不同法官判斷平均水準的差異
• 型態雜訊 Pattern Noise-i.e. 法官對特定案件反應的差異
• 隨機雜訊 Random Error i.e 場合雜訊-不相干的戰士成份

場合雜訊-不相干的暫時成分
• 測量場合雜訊並不容易。基於這個原因，只要
案例讓人印象深刻，場合雜訊就很難直接測量
出來。
• 就像是一位醫師在不同日子（天氣、心情）對
於同一個診療案件的診斷不同。或者是某一位
法官他支持的球隊昨天獲勝了，所以今天的判
刑變得比較寬容。這種雜訊會隨著時間和場合
改變。
• 例如你給一位核保人員或刑事法官看他們承辦
過的案件，他們也許會記得那個案件，然後做
出相同的判斷。曾經有研究檢視專業判斷的變
異（技術上稱為再測信度〔test-retest
reliability〕，或簡稱信度〔reliability〕），
要求專家（或法官）在同一個期間針對同一件
事進行兩次判斷。結果並不令人意外，他們往
往會同意自己的意見。所以很難從相同的測信
度和稱信度來判定雜訊。 Johnson CHEN 202212 28

場合雜訊的來源
• 情緒
• 道德束縛
• 潛意識
• 天氣
• 排列順序
• ………
「判斷就像罰球：無論我們多麼想精準
呈現這個動作，沒有兩次罰球是完全相
同的。」

我們認知的限制和預防捷思謬誤
• 我們必須要理解人類大腦在認知上的
限制並預防我們捷思陷阱的基因：
• 相關性不代表因果關係，但我們可以從
因果關係找到相關性。
• 大多數正常事件不在我們意料之中，也
不會令人驚訝，也不需要解釋。
• 人們有對自己預測有過度的自信的傾向。
然而事實是，儘管我們自認為了解這裡
發生的事情，但我們同時卻不能夠能預
測到事情的發生，直到事情發生以後。

延伸閱讀：一群人在一起，會變笨還是變聰明？
Johnson CHEN 202212
31
• 1950年代，哈佛心理學家艾許（Solomon Asch）研究證明，人常常會採用多數人的看法，
就算顯然是錯的、違背自己的直覺時依舊如此。同一時期的美國加州大學學者圖登罕（Read
Tuddenham）也發現，如果學生認為大家都選擇了某個答案，就會選擇同一個答案，就算
這個答案非常離譜也一樣。這個發現與我們所謂的「群眾的智慧」（wisdom of crowds）
指透過積聚大量人群的智慧，提供比獨自一人更正確的預測或答案的傳統思維截然不同

• 『群眾的智慧』（The Wisdom of The Crowd) 是說，
只要集合群體的資訊，做出的決策常常會比個別成員
做出的決定要好。
• 然而事實是，「從眾的智慧」門檻很高，往往要在群
體成員要都要能夠『獨立』做出判斷時才會發生，而
且在群眾具有多樣性時，效果也最好。
• 另一方面，在共享單一認同的一致性群體中，團結一
致的重要性高過一切。我們反而會有不理性的決定的
傾向。
• 現在很多人開始用這個理論反思我們現代社會對於社
群網路和軟件的依賴，因而產生的群體極化（Group
Polarization)。「我們認為網路是資訊的超高速公路，
其實不是，那是條偏見的超高速公路。推特和臉書很
適合分享資訊，但如果我們分享的是偏見，社群網站
可能會讓我們變笨。」

O92
降低雜訊的方法：決策保健程序
「以總體誤差而言，雜訊和偏誤是互相獨立的。
不管偏誤有多少，減少雜訊的好處都是一樣的。」
-Daniel Kahneman

降低雜訊的方法-1
1. 判斷的目標是準確，而非個人特質的表現
• 為了避免穩定型態雜訊，讓不同的專業人士對同一件事情有相近的判斷，我們
可以把要判斷的程度先定義清楚，而不是給一張空白畫布讓人隨意發揮。最激
進的做法是利用電腦演算法，以規則來代替判斷
2. 要有統計思維，用外部觀點來看待案件
• 把我們要判斷的事情，當成是一群類似案件裡面的其中一個案件，而非每次都
把案件當作全新的事件。當我們引入外部的數值，例如，評估一個執行長的留
任期間長短，就要先看業界平均期間是多少，再對目前的判斷做出調整。
3. 將判斷結構化，拆解成幾個部分
• 因為當不同的人看到不同的條件，都會在心裡編織起自己的故事。就像是不同
的面試官可能會給同一個面試者截然不同的評價。這個方式可以打破人們過度
追求連貫性的心理機制，在過程中針對各個獨立的特質進行評分，而不是等到
一連串的評估結束後才一口氣評分做判斷。

降低雜訊的方法-2
4. 抗拒太早出現的直覺的誘惑
• 如果我們在第一時間就用直覺來判斷事情，那麼後續我們找的資料跟佐證，很可
能都只是為了證明我們自己的觀點，落入了對自己過度自信的幻覺。好的做法是
延續上一步，把各自獨立的評估都進行完成之後，然後才使用直覺進行最終判斷。
5. 從多位判斷者取得獨立判斷，然後考慮將這些判斷總合起來
• 作者們透過許多實驗說明，將獨立的判斷加以平均，可以保證系統雜訊減少。因
為不同的判斷者各自的技能和觀點會互補，增加資料的樣本數可以提高準確性，
例如 Google 在招募人才就會參考四位面試者的判斷。
6. 偏向相對判斷，相對尺度和應用基準比較（Benchmark)
• 人類在絕對值上面的判斷，都有各自截然不同的解讀。例如我們要替一個團隊打
績效，不同的主管給每個員工的絕對分數，差異一定很大。但如果改成用排序的
方式，不同的主管給出的排序反而都非常相近。採取案例量表來做判斷，會比給
絕對分數來得好。

36
課題與啟發：降低影響公平的雜訊
• 當政府或組織過於依賴所謂『平均值』和『統
計數字』制定某一個社會政策，結果造成極端的
影響，這就就代表了某個人因為有可能被不同的
雜訊所被「不公平對待」了。而這種不公平對待，
該檢討的不是個人，而是個人所身處的「系統」。
• 政策數字上的『偏誤』(Bias) 是一個人對件事常
有的各種偏見，犯錯是在個人，在民主社會裡或
許還有些救濟機制。而雜訊 (Noise) 卻是錯在系
統，系統沒有調控機制，導致一群專家，會針對
同一件事，做出截然不同的判斷。而這個影響卻
是深遠而實際衝擊到人民的生活的很多層面。
• 我們只有正視雜訊的存在，致力於改善系統，才
能朝向一個決策更正確、更公平、更健康的社會。

延伸閱讀: 假設檢定的型一錯誤 vs 型二錯誤
Hypothesis Testing Type I and Type II Error
Johnson
CHEN
202212
• 型一錯誤(Type I Error)
• 倘若虛無假說事實上成立，但計算出來的檢定統計量落在拒絕區域，使其拒絕虛無假設，該種錯
誤即為型一錯誤。其發生的機率以 α 表示，或稱顯著水準 (significant level)。
• 時常被提起的例子就是法官的判決。如果犯人無罪，卻判決有罪，就是典型的型一錯誤。
• 型二錯誤（Type II Error）
• 倘若虛無假設事實上不成立，但計算出來的的檢定統計量沒有落在拒絕區域，也就是落在接受區
域，使其不拒絕虛無假設。其發生的機率以 β 表示。另外，統計上常稱 1−β 為檢定力 (Power) 。
38
• 『假設檢定』是一個常用在估
計母體參數的統計和預測手法。
• 根據檢定統計量(Test
Statistics) 是否落在拒絕區域，
來判斷是否應該拒絕某一個設
定的虛無假設(null
hypothesis)，而反推我們對
於母體的一些判斷。
• 但是這個判斷可能會有兩種的
錯誤我們需要理解和更深入的
檢驗的：

雜訊 THE NOISE.pdf

Recommended

Recommended

More Related Content

More from Johnson Gmail

More from Johnson Gmail (20)

雜訊 THE NOISE.pdf