數字本身不會說謊,但說謊的人會創造數據,在數據爆炸的時代,唯有從生活中理解數字背後的邏輯,才能不被資料誤導,做出更理性的判斷。
統計幫助我們處理數據,而數據實質上只是一個比較炫麗的名詞,本質上是資訊。有時候,數據只是通盤大局裡的瑣碎細節,比如運動統計數字就是這樣;或有時候,數據可讓我們看透人類生活的特質,比如吉尼指數。
但統計可以幫忙,或是希望統計能幫上忙的問題還包括:
• Netflix 怎知你喜歡哪一種電影?
• 如果不做人體致癌實驗,如何找出哪些物質或行為會致癌?
• 替手術病患禱告會讓他們的術後結果變得比較好嗎?
• 拿到菁英大學的學位,真的可以帶來任何經濟上的益處嗎?
事實上,這個世界正在製造愈來愈多的數據,且速度愈來愈快。但,就如《紐約時報》所言:「數據只是知識的原物料。」(Data is merely the raw material of knowledge. )當我們要用資訊來達成某些有意義的目的,比如欲找出實力被低估的棒球員或是如何支付更合理的薪資給教師等,統計無疑都是最強的輔助工具。以下說明統計如何賦予原始數據更多「形式上」的意義。
1. 描述與比較:容易過於簡化而誤導結論
我們可以用學科平均(grade point average,簡稱GPA)來衡量高中生與大學生的學術表現,成績單上的考評會對應一個數值,通常A代表4分,B代表3分,C代表2分,依此類推。
高中生畢業要申請大學、大學生畢業要應徵工作時,學科平均都是評估此人學術潛力的便利工具。學科平均3.7的人,明顯比同一間學校裡拿到2.5分的人要強。這個指標也成為很好的描述性統計,因為容易評估且容易理解,也很容易對不同學生做出比較。
但這不完美。學科平均無法反映出不同學生選修的課程,可能存在不同的難易度。專挑相對沒有挑戰性的課而拿到3.4分的學生,與修了微積分、物理與其他艱澀科目拿到2.9分的學生,如何比較?
我就讀的高中就試著解決這個問題:校方給相對困難的課程比較高的權重:「菁英」班(honors class)裡拿到A的對應分數是5分,而不是一般的4分。然而,這又製造出問題。我母親很快就發現這套「修正」學科平均的方法造成新的扭曲。比如像我這般修了很多菁英班課程的學生,如果在非菁英班課程(如體育或健康教育)拿到A,反而會拉低整體學科平均,但這些課裡拿A已經是最高分了。
過度仰賴任何描述性統計數值就可能出現誤導的結論,或引發不樂見的行為。描述性統計的存在就是為了簡化,勢必會犧牲細微之處或細節,任何要處理數字的人都必須理解這一點。
2. 推論:從抽樣母體做縝密推估
有多少遊民生活在芝加哥街頭?要計算大型都會區裡有多少遊民,成本很高且後勤支援工作的難度也大。然而,為了能提供社會服務、確定領取各州與聯邦政府相關所得的資格,以及在國會獲得代表權等等,估計出這群人的數量非常重要。
有一種重要的統計方法稱之為「抽樣」(sample),亦即在小區域(例如人口普查區)收集數據,接著用這些數據對整個城市裡的遊民人口做出縝密的判斷或推論。比起點算所有遊民,抽樣所需的資源較少;如果做的方式正確,推斷同樣很精準。
3. 評估風險以及其他與機率有關的事件
整個博弈產業的根基正是機率賽局,這表示,每一次丟出骰子或是每一輪的牌面結果都不確定。但與此同時,相關事件(比方說21點牌局裡拿到21點或是轉盤轉出紅色)的根本機率則是已知。當根本機率對賭場有利,即可確定隨著下注的數目愈來愈大,即便把附加玩意拿掉,「莊家」仍舊會勝出。
這是一種很強大的現象,可以套用到賭場以外的人生。很多企業會評估各種逆境的風險,它們無法完全消除這些風險,就像賭場不能保證不會出現你賭21點把把都贏的事件,但是,任何面對不確定性風險的企業都可以藉由設計流程來管理風險,把發生天災或是產品缺失等負面結果的機率降到可接受的程度,而任何要處理風險的模型,都必須以統計當作基礎。
4. 找出重要的關係(統計偵查工作)
抽菸會致癌嗎?這個問題我們已經有答案了,但是得出答案的過程並不如一般人想的那麼直接了當。科學方法要求,如果我們要檢定某一項科學假說,應該要執行對照實驗,實驗組與對照組的唯一差異只有相關變項(例如抽菸)。如果我們觀察到兩群人之間出現某些明顯不同的結果(例如罹患肺炎的情況),我們就可以充分推論相關變項就是導致結果的因素。
我們是否可以跳過整套花俏的方法論,直接在20年後的同學會上,比較畢業後有吸菸與沒吸菸者的罹癌率?不行。除了是否吸菸外,兩者在其他方面很可能也有差異。舉例來說,吸菸者很可能也有其他習慣,比方說大量飲酒或飲食習慣不良,這些都對健康不利。如果20年後的同學會上吸菸的那一群明顯不健康,我們不知道要把結果歸因於吸菸這件事,還是很多吸菸者剛好也有的其他不健康因素上。
我們不能把人當成實驗室裡的白老鼠,因此,統計就會變得很像是好警探要做的事。統計是數據呈現出的雜亂線索,統計分析則是偵查工作,透過統計分析,把原始數據變成有意義的結論。
誰說每一個會用統計的人都是明智又誠實?現實就是,你可以用統計騙人,或者,你也可能犯下無心之過。無論哪一種,統計分析上隨附的數學精準度,可以掩飾一些很嚴重的胡說八道。這本書要詳細談一談很多常見的統計錯誤與誤讀,但目的是讓你可以辨別,而非拿來使用。
