總統大選前,240 萬與 3000 人次的民調哪個比較準?答案可能跟你想的不一樣|經理人
成功 Success > 決策技術
feature picture
Shutterstock

總統大選前,240 萬與 3000 人次的民調哪個比較準?答案可能跟你想的不一樣

2022-03-15 整理.撰文 簡鈺璇

總統選舉的民調預測,A 民調的有效問卷數有 240 萬人,B 民調只問了 3000 人,哪家民調的預測比較準確呢?大部分人會選前者,因為樣本數愈大誤差愈小,愈接近真實。

1936 年時任美國總統小羅斯福(Franklin Roosevelt)正與共和黨員阿爾弗雷德‧蘭登(Alfred Landon)競選總統。知名雜誌《文學文摘》根據 240 萬人的郵寄民調的結果,篤定蘭登會勝過小羅斯福。民調公司蓋洛普(Gallup)據說只做 3000 人次訪談,卻推測小羅斯福會勝出。

選舉結果出來,跌破眾人眼鏡,小羅斯福連任成功。為什麼 240 萬個樣本會「輸」給 3000 人訪談?

延伸閱讀:俄烏戰爭|從喜劇演員變烏克蘭總統!澤倫斯基到底是何來歷?憑什麼拿下 9 成支持率?

思考數據蒐集過程中,可能的「漏網之魚」

《臥底經濟學家的 10 堂數據課》指出,《文學文摘》忽視「樣本偏誤」(根據缺乏代表性的樣本推論出一般性的結論)的陷阱,他們透過汽車監理站的資料庫及電話簿名單來寄送問卷,卻遺漏了非開車者、家中無電話者的意見。相反的,蓋洛普花很多時間篩選出能代表母體的樣本,最後以小於 800 倍的樣本數在民調預測中勝出。

英國統計學家大衛‧漢德(David Hand)建議,分析資料時最重要的是先問「這筆資料中,有哪些是我們忽視的、沒有的?」在他的著作《暗數據》一書中,將人們遺漏的資訊與數據稱為「暗數據」(dark data),會在無形中影響我們的判斷。

漢德列舉 3 種數據隱藏起來的情況:

1. 知道有遺漏的數據: 常見的是訪談或研究中,出現資料不全的狀況,例如:針對台北市民進行電訪,有半數人拒接電話。

2. 研究只納入部分的數據: 像是樣本選取的標準不一,造成難以代表全體的狀況。例如:某美白產品只選擇膚況優者參與實驗。

3. 不知道有遺漏的數據: 此為網路問卷常有的狀況,讓網民自願填寫,無法得知誰沒有回應。

追蹤數據遺失的原因,判斷剔除會否影響結果

為了減少數據隱藏或遺漏的狀況,在蒐集數據時就需考慮抽樣的樣本能否代表母體。如果某研究要調查某國 40 歲以上、40 歲以下者的消費習慣,比起網路徵求填答者,更好方式是依母體年齡分布(假設 40 歲以上人數有 60%、40 歲以下 40%)的比例來抽樣,也就是說研究抽取的分析樣本中,40 歲以上要有 60%、40 歲以下則要有 40%,才能確保樣本代表性。

不僅在抽樣、問卷設計階段可能忽略某些數據,實際調查時也可能遺失數據。《暗數據》指出,應追蹤遺漏的原因,判斷該數據是否會影響分析結果。

延伸閱讀:別讓報表騙了你!數據分析的基本功:弄懂每個數字從何而來

舉例來說,執行減肥飲食對體重影響的研究時,一位受試者因為減重效果不好而退出實驗,另一位因為搬家而不能繼續參與。《暗數據》認為,後者退出原因與體重變化無關,且搬家為偶發事件,直接剔出可能不影響實驗結果,但前者數據刪除會造成研究對象集中在減重顯著者上,導致結果偏頗。

遇到這種狀況,研究者可以增加誘因(給予參與獎勵、保密體重資料)說服退出者繼續參與,或利用統計軟體的「遺漏值分析」及「插補法」,在已知資料中尋找與退出者特徵相似的資料,推敲出缺漏資料的數值,會比直接刪除遺漏值更準確一點。

數據會騙人?
經理人
繼續閱讀 數據分析
相關文章
會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們