如何看出數據造假？數據科學家要知道的 3 個數學定律

數據科學家必須透過各樣工具處理海量數據，這些工具、演算法則是以基礎數學作為根基。因此，若數據科學家能掌握手中的工具，了解它們的理論前提假設、能解決的問題，以及應用限制，將能提升數據分析的品質與效能。

金融集團安聯（Allianz）的資料科學家 Cornellius Yudha Wijaya 在《medium》上分享 3 個數據科學家要知道的數學定律，讓我們認識數據分析的本質。

Cornellius Yudha Wijaya 的《medium》傳送門

班佛定律（Benford’s Law）

班佛定律（Benford’s law），又稱為異數定律（the law of anomalous numbers）或首位數定律（the first-digit law），探討數據集當中，首位數的數學規律。

首位數指的是數字的第 1 個數，例如 12 的首位數是 1， 932 的首位數是 9。根據直覺，在一個自然產生，範圍不限的數據集中，若我們隨機取一個數字，該數字的首位數為 1、為 2、…為 9 的機率應該都要一樣，都是 11.1%。然而在現實世界中，首位數為 1 的機率大於 2 的機率，2 的機率又大於 3 的機率，依此類推。

若首位數 d(?∈1，……，9) 的出線機率滿足以下等式：

該數據集就滿足班佛定律。

而滿足班佛定律的數據集，首位數的出現機率如下：

班佛定律的主要應用，在檢測數據是否造假。例如 2000 年代初的安隆財報造假案，研究人員就發現上面的數據不符合班佛定律。2020 年美國總統大選，研究人員也透過班佛定律，判斷拜登是否有做票。

TO 相關文章：
【到底什麼是班佛定律】網傳：拜登得票數不符合「班佛定律」所以是作票？

大數法則（Law of Large Numbers，LLN）

大數法則指的是，隨著隨機過程的試驗次數增加，結果的平均值會愈來愈接近期望值或理論值。例如丟骰子，每個數字出現的機率都是 1/6，因此數字的期望值是 3.5。如果我們只丟 1 次骰子，它可能會出現 1 或 6 等數字，離 3.5 很遠；但如果我們丟了 100 次，這些數字的平均值會更接近 3.5；如果丟 1 萬次，數字的平均值又再更接近 3.5。因此，隨著試驗次數增加，試驗結果會趨近於期望值。

大數法則的應用難處在於，研究者必須做大量的實驗與觀察。好處是，若研究者握有大量數據，對於預測的穩定性很有幫助。

要注意的是，大數與平均法則（the Law of Average）不同。平均法則指的是，一個事件的發生頻率（frequency）與它的機率（probability）相當。以丟骰子為例，實際丟出點數為 1 的比例，要等於點數為 1 的理論機率，也就是 1/6。

平均法則的概念容易引發賭徒謬誤（gambler’s fallacy）。賭徒謬誤指的是，人們傾向於認為，若一個隨機事件連續發生（或是連續不發生），它下一次的發生機率就會較低（較高）。以丟骰子為例，若已經連續丟出 10 個 1，人們傾向於認為，下一次再丟出 1 的機率很低，但實際上，丟出 1 的機率也還是 1/6。

齊夫定律（Zipf’s Law）

齊夫定律指的是，在自然語言庫裡，一個單字的出現頻率與它在頻率表裡的排名成反比。也就是說，頻率最高的單字出現頻率，大約是頻率第 2 高的單字出現頻率的 2 倍，頻率第 3 高的單字出現頻率的 3 倍，依此類推。

Cornellius Yudha Wijaya 以 Spotify 的數據集為例，列出常見的 12 個詞：

Spotify 語料庫中的所有單字加總為 759,389，而出現最多的單字是 – ，有 32,258 個，占 4%；其次是 The，占 2%。

透過數學定律，數據科學家得以了解統計學與數據分析工具的背後原理，進而提升數據分析的品質。因此，若想要成為優秀的數據分析師，有必要對數學有基礎的認識。

參考資料

《medium》

（本文提供合作夥伴轉載。首圖來源：Piqsels CC Licensed）

延伸閱讀

想當數據分析師？你可以先去考這 6 個證書
 沒有相關工作經驗，要如何取得數據分析師的 offer？
光有熱忱和技術還不夠！想從事數據分析，你還需具備「業務能力」

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

如何看出數據造假？數據科學家要知道的 3 個數學定律

班佛定律（Benford’s Law）

大數法則（Law of Large Numbers，LLN）

齊夫定律（Zipf’s Law）

參考資料

延伸閱讀

是傳說？其實坐飛機不用開飛航模式——航空業者：怕乘客大聲講電話很吵

開啟心律不整治療的新可能！專訪國立陽明交通大學生物藥學研究所胡瑜峰教授談「心臟細胞轉化」

臺灣首顆自製氣象衛星「獵風者」即將升空！科普知識分享：獵風者如何「獵風」？

婚禮誓詞想破頭也空白？婚禮策劃公司推出 AI 工具讓新人不再絞盡腦汁！