序
凱文•凱利在《失控》中曾提道,當高度連結的群體數量大到一定程度時,群體特徵便會湧現,這是群體中任何個體都不具備的特徵。比如,大量水滴彙集成河水、海水,便會產生讓水滴「感到陌生」的新特徵——漩渦和波浪。
二〇一三年八月,Google提出了一個票房預測模型,該模型僅以單詞搜索量為依據,便可以提前一個月預測電影的首週票房,準確度高達94%;更令人驚訝的是,這是一個簡單的線性迴歸模型。Google是如何做到的呢?
人類已經進入大數據時代,可是絕大多數的人,對數據統計等基本常識還在算術常識時代。這是一個科技的時代,相對於十年前和二十年前,全球市值最大、最受人尊敬的公司Top10,全部變成了蘋果、微軟、Google……這些高科技公司。任何普通人都用智慧手機,任何人都在享受高科技技術帶來的便利。
為了更好地工作和生活,我們要瞭解一下這些高科技技術的常識。筆者在這方面有一些經驗,所以特地編寫了本書,希望以比較科普和有趣的筆調,讓你瞭解一門新的科學,甚至進入一個新的領域。
大學時,我曾上過「機率論」和「數理統計」兩門課,雖然完整地學習了機率統計,卻只是一知半解;攻讀碩士時,我在科學研究工作中需要用到機率統計,方才無奈地發現,當年所學已完完全全地還給了老師。我只能匆忙地自學了機率統計,勉強能應付科學研究工作,但心中對機率統計的很多概念仍舊一頭霧水。後來,我有幸與我的妻子走到了一起,她大學和碩士期間主修「應用數學」,在她的幫助下,我這個機率統計的門外漢終於入門了。
碩士畢業前,我和妻子共同翻譯了一部英文科普讀物《讓你愛上數學的50個遊戲》,這本書幫助我進一步鞏固了機率統計知識,也讓我萌生了寫書的念頭。畢業後我仍從事科學研究工作,參與了幾個與數據分析有關的項目,發現自己對機率統計的理解仍然不夠深刻,於是一口氣閱讀了幾本機率統計的科普書,比如《深入淺出數據分析》、《深入淺出統計學》和《生活中的機率趣事》,終於搞懂了「貝氏定理」、「假設檢定」等概念。看書之餘,我在「部落格」上寫了幾篇讀書心得,出版社的編輯看到我寫的文章,問我是否願意寫一本機率統計的科普書,說實話,能寫作一本屬於自己的書是我的小小理想,既然機會來了,我怎麼會拒絕呢?
開始寫作前,我為自己設定了三個原則。
一是理解而非定義。機率統計的教科書充滿了數學公式,雖然數學公式能對抽象的概念做出精確的定義,但這樣的定義太晦澀,難以理解。這是一本寫給初學者的書,我想幫助讀者理解概念的含義,而非求解某個具體問題。所以,我會用解釋性的語言來描述概念,而不是給出標準的定義。這麼做風險很大,但我願意嘗試,希望本書可以幫助讀者更快速、更深刻地理解概念。
二是引導而非灌輸。從小到大,我們都承受了太多的灌輸式教育,我很慶幸,自己在灌輸式教育下活了下來,但我不希望「灌輸」給讀者任何東西。所以,我總是以案例作先導,先引起讀者的興趣和思考,然後在解答問題的過程中講述知識。希望這麼做可以為讀者減負,讓讀者更流暢的閱讀,在輕鬆愉快中學到知識。
三是有趣而非無趣。很多人說,「有趣」是對一個人最高的評價,而我覺得一本書同樣如此。圖書銷售排行榜上,小說永遠是主角,因為它們「有趣」。讀者喜歡故事,不喜歡說教,這是事實,更是真理。我要努力避開說教式的言辭,把知識融入故事中,在講解知識的同時,帶給讀者閱讀的樂趣。
寫作時,我盡量堅持這三個原則,雖然期間有過掙扎和迷茫,但最終還是完成了這本書。
本書共有九章,第一章和第二章介紹機率和隨機變量的基礎知識;第三章和第四章介紹統計和分布的基礎知識;第五章是專門介紹賭博中的機率統計的一章,前四章的知識在這裡得到了應用;第六、七、八章分別介紹了機率統計的三個重要方法——假設檢定、貝氏定理和線性迴歸;第九章是漫談機率統計。
我的閱讀建議是:第一、二章合併閱讀,第三、四章合併閱讀,再閱讀第五、六、七、八、九章,後五章各自獨立,不需按順序閱讀。
本書由李帥主筆編寫,同時參與編寫的還有黃維、金寶花、李陽、程斌、胡亞麗、焦帥偉、馬新原、能永霞、王雅瓊、於健、周洋、謝國瑞、朱珊珊、李亞傑、王小龍、張彥梅、李楠、黃丹華、夏軍芳、武浩然、武曉蘭、張宇微、毛春豔、張敏敏、呂夢琪等作者,在此一併感謝。
這是我的第一本書,其中難免出現錯誤,希望讀者理解包涵,也歡迎讀者批評指正。
最後,我要感謝我的家人和朋友。感謝我的父母,陪伴我成長,幫助我養成了讀書和寫作的習慣。感謝我的妻子,一直理解我、陪伴我,並給我講解了一些晦澀的數學概念。感謝劉子沖、王充山、秦培根、劉翼、孫淼、趙瑋琪等老朋友,你們的支持和鼓勵是我堅持寫作的動力!
編者