推薦序》現象、真相與解方──提到「大數據」,你想到什麼?
苗博雅/《阿苗帶風向》主持人
想到城市裡數萬支監視器?想到電影《關鍵報告》(Minority Report)?還是想到一個令人興奮的研究領域?一大堆不知從何分析起的資料?想到臉書(Facebook)和 Google 大神總是會在你逛網拍後推送相關廣告給你?或者是政府定期公布的失業率、薪資、加班時數統計?犯罪熱區、犯罪率?
你有聽過有關美國職棒大聯盟(MLB)奧克蘭運動家隊《魔球》(Moneyball)的故事嗎?運動家隊制服組頭子比利‧比恩(Billy
Beane)利用「棒球統計學」成功締造許多「砂礫中撿到珍珠」的故事,讓小資本的運動家隊也創下傲人戰績。找到好球員並不稀奇,傳統的球探也能做到。《魔球》的威力在於能成功辨識被傳統球探低估的優質球員,在球員身價不高時用低價簽下,等到球員打出佳績還可高價脫手。怎麼做到的呢?就在於更多數據、更多統計。
《魔球》的祕訣,就是發展新的棒球統計數據,找出傳統數據並不特別傲人,但進階數據可找出與優秀球員比肩的新秀。使用比傳統數據更能準確評估球員能力的進階數據,可提升預測球員未來表現的準確度;比別人更早發展出新的進階數據,等於掌握了別人沒有的水晶球,可以提早進場佈局。
掌握且懂得運用更多數據的人,有更大的機會成為贏家,這給了所有競爭者一個追求數據棒球的好理由。在比利‧比恩創下佳績後,大聯盟的三十支球隊制服組都開始學著使用進階數據。原本被低估的球員不再被低估,要追求超額利潤,就必須再找出無人知曉的有用數據才行。更多的細節、更複雜的計算方式、更多的變項、更多的維度,就是要比別人搶先一步看到未來。
不只棒球如此,金融市場更是數據的殺戮戰場。如何評估一個金融商品是金雞母還是賠錢貨?古早時代可能是道聽塗說、問朋友、去工廠看存貨。現代可能是看財報,分析各種數據。如何評估景氣趨勢呢?古人已經學會看港口、市場的繁忙程度,現代人多了失業率、GDP 等各種指標。經濟學迄今發展出的各式數據統計早已超過一百年前科學家的想像。
所有的成功故事,或多或少都跟「資訊比人多、動作比人快」有關。人類很早就發現「歸納過去可以預測未來」的道理。從古文明觀星象到美國職棒大聯盟的《魔球》,人類發展與使用「數據」的歷史非常久遠。「統計學」從來不是新鮮事。「大數據」到底有什麼特別之處嗎?
什麼是「大數據」?
作者在書中並未對「大數據」下一個清楚的定義。一來,在資訊爆炸時代,人類一天可以產生二百五十萬兆位元組的資訊量,到底要多「大」才夠「大」?二來,擁有海量數據並不會自動產生精闢結論。「垃圾進,垃圾出」(Garbage in, garbage
out)是所有曾學過統計的人致力避免的錯誤。我們不應高估數據「量」的重要性(畢竟跟人類一天產生的數據量相比,再多數據也都是相對少量)。即使是相對較少量的數據但使用新穎方式處理,也可能讓我們看見以前不知道的真相。
總之,作者跳過了「定義大數據」的階段。選擇了另一種論述方式:讓大數據的力量說明它自身的特質。
作者在書中試圖論證四種「大數據的力量」,包括:
⒈提供新類型的數據:這主要是仰賴「電腦運算」的力量。包括書籍中的字詞、畢業紀念冊的照片,都可以藉由電腦運算處理成千上萬、上千萬筆資訊,並做出有意義的統計結果。若是使用人力,恐怕難以處理。
⒉提供誠實的數據:這是仰賴「以為沒人知道」的力量。作者運用了 Google 搜尋統計,發現人們不願說出口的祕密。例如深藏內心的種族歧視、仇恨思想,以及推測未出櫃的同志人口、未報案的虐童案件、墮胎手術等政府統計資訊沒有處理到的角落。還有,色情網站 PronHub 讓作者得以一窺人們不會公開談論的性事。這都來自於大數據曝光了人們原本以為沒人在看的角落。
⒊可以針對更特定的人口進行分析:大數據讓獲取每個樣本的單位成本大幅降低,「海量樣本、超低成本」成為現實。只需要幾行程式碼就能取得數十萬使用者的資訊,我們不僅可以看到大趨勢,更可以針對特定人口(例如出生在特定年分的男性是否喜歡某支球隊)做出有意義的分析。
⒋更容易進行「因果關係」的實驗:過去的統計學找出了很多「相關性」,但要找出「因果關係」可就不是這麼容易了。拜網路之賜,幾行程式碼就可以讓成千上萬不知情的使用者協助企業進行A/B測試(A/B testing)。大數據不只窺伺人們的祕密,更讓人們不知不覺間幫助企業挖掘連自己都未必知曉的偏好。
透過作者風趣的文筆,我們知道大數據搭配電腦運算,有嶄新的力量。大數據能完成一百年前做不出來的實驗,能打臉佛洛伊德的精神分析。百年前的天才們以少量樣本輔佐直覺得出的結論,如今能透過大數據找到證據或反證。原本「以推論對抗推論」的爭辯,現在可以變成「證據對抗證據」。如同電腦運算速度大幅提升帶來學術突破性進展,現今的大數據應用是一種更強大的研究工具。
所以呢?大數據就一定好棒棒嗎?
就我的理解,本書描述的大數據意味著「用更便宜的價格,取得更大量、更誠實的樣本」。如果我們可以用更少的錢,做出更精確的統計,代表我們有可能更成功地預測未來,也有可能挖出原本不為人知的資訊。也難怪擁有海量資源的政府、企業爭先恐後投入大數據研究。
但大數據再厲害,也無法改變統計學和邏輯學的基本原理。統計學與邏輯告訴我們,觀察到「現象」,未必等於掌握「真相」,更不等於理解「原因」。研究人類行為和社會現象,質性的觀察、歸納與演繹仍然不可或缺。
我們可以用大數據找出「賽馬左心室大小可以成為預測賽馬明星的有效指標」,但左心室何以影響馬匹的運動表現?還是要由獸醫學解答。大數據告訴我們美國極右派網站「風暴前線」(Stormfront)的使用者造訪《紐約時報》(New York Times)網站的可能性是他們造訪「雅虎新聞」(Yahoo News)的兩倍,是「勘查敵情」還是其他原因?大數據顯示在景氣蕭條時期虐童相關的
Google 搜尋量增加,但官方接獲的通報數卻未顯著上升,這之間的落差代表什麼?臉書可以撈出許多大數據,但臉書的貼文真的呈現人們的真實生活嗎?這些問題,都需要進一步的控制變因以及質性研究分析才能解答。
知道更多「現象」並不會自動帶來問題的「解方」。如果只沉迷於數據相關性,而忽略了因果關係的嚴謹判斷與質性研究,輕則鬧出「短裙流行會導致冰淇淋暢銷」的笑話,重則可能犯下「PornHub 網站的女性使用者搜尋『強暴』或『強迫』性交的數量比男性多,代表女性其實喜歡這些行為」之類低級又粗劣的錯誤。這是許多熱衷讚頌大數據威能的人所忽略的重點。
而本書的優點之一,就是本書作者雖然醉心於以新穎方式分析海量數據,但他仍然在書中誠實地提醒讀者大數據的各種「能與不能」。
依照作者的觀點,大數據未必能大殺四方。它最有威力的領域,是在「傳統方法效率極差」的領域,大數據較有可能帶來革命性的創新。然而在已經發展成熟統計分析方法的領域,例如金融業,大數據未必能有特別傑出的表現。作者也坦言,大數據仍然需要「人類判斷與小型調查」的輔助才能發揮最好的效果。同時也在本書的後段章節提醒讀者必須「小心面對大數據」,注意過度授權政府及企業將帶來危險。
大數據的驚人力量,必然有後座力。例如,掌握大數據的人可以輕易知道更多資訊,但無法取得這些數據的人呢?大數據是一項研究人類行為的神兵利器,但同時也製造了一個極大的資訊落差。利用這個資訊落差所衍生的牟利行為,我們有能力加以監督嗎?當人們日常行為的數據近乎免費地集中在少數的企業或政府手中,為企業或政府創造了超額利潤,弱勢的平凡人能分享受益嗎?大數據的力量之一來自於「誠實」,但人們並非自願誠實,而是「以為沒人知道」。大數據窺探了人們自以為獨處的時刻,那我們該如何更合理地維護人們想要擁有的隱私呢?
以上問題並沒有簡單的解答。但我認為這些問題值得每一位讀者放在心上。從作者進行的研究項目,包括美國潛藏的種族主義、仇恨言論、出身與階級流動、未出櫃同志人口、虐童案件、政府態度對墮胎的影響等,也可看出他手握大數據的同時仍然保有對社會的關懷。但本書並非學術書,書中提到非常多大數據統計的案例,但絕大多數都沒有標明統計的細節(例如時間區間、樣本數、抽樣母體等)。且在談論與色情、性癖好有關的章節,雖然作者在註腳清楚表明自己其實並不知道
Google 搜尋者的性別,但為了行文方便還是直接採取了假定所有人都是異性戀的方式。因此本書比較像是報紙專欄的集結,而非一本論文。不過這也正是本書的優點:簡明、幽默、易懂。只要讀者能夠看到最後一頁,勢必有所收穫。
推薦序》大數據成了窺探你內心的新窗口
史蒂芬.平克(Steven Pinker)/美國實驗心理學家、認知科學家暨科普作家
自從哲學家開始思索「腦部檢查鏡」這種能在螢幕上顯示個人想法的神話般裝置後,社會科學家就一直在找尋工具揭露人性的運作。身為實驗心理學家,我在事業生涯中看到不同工具的興衰演變,這些工具我全都試用過,包括:評定量表、反應時間、瞳孔擴張、功能性神經影像學,甚至是將電極植入癲癇患者腦部進行語言實驗,以腦波轉譯人類語言。
然而,這些方法都無法提供一個暢通無阻的觀點,將人們的內心世界一覽無遺,其間的問題就在於一個殘酷的取捨。人的思想是複雜的主題,不像知名導演伍迪.艾倫(Woody Allen)用速讀方式看完《戰爭與和平》(War and
Peace)後,只知道「那是一本關於俄羅斯的小說」。我們知道人類的內心世界並非那樣簡單,但是這些主題如此糾纏又牽涉甚廣,根本讓科學家難以分析。當然,當人們訴說自己的心聲時,我們會理解人們意識流的豐富性,但是獨白並非測試假設的理想數據。另一方面,如果我們專注於容易量化的方法,比如說:人們對字詞的反應時間或對圖片的皮膚反應,雖然我們可以製作出統計數據,卻將複雜的認知結構單純化為單一數字。即使最複雜的神經影像學方法論可以告訴我們,一個想法在三維空間中如何展現,卻無法告訴我們想法是由什麼構成的。
在可追查性和豐富性之間做取捨已經讓狀況有夠複雜了,研究人性的科學家們卻還要被小數法則(Law of Small Numbers)困擾。這項法則是阿莫斯.特維斯基(Amos Tversky)和丹尼爾.卡納曼(Daniel
Kahneman)為這種謬誤所取的名字,科學家們誤以為人口特質會反映在任何樣本中,無論樣本多小。但事實上,就連計算能力最強的科學家也無法憑直覺斷定,一項研究真正需要調查多少對象,才能不考慮樣本中隨機出現的異常值,而能將所有美國人概括陳述。至於我們不了解的智人(Homo
sapiens),那就更不用說了。當樣本是透過便利方式蒐集,一切就變得更不確定,比方說,我們為了取得樣本,在課堂中給大二學生一點小錢買啤酒。
這本書跟研究思維的一種嶄新方式有關。來自網路搜尋和其他線上回應的大數據並非一種腦部檢查鏡,但是作者賽斯.史蒂芬斯—大衛德維茲證明大數據提供一種前所未有的方式,讓我們窺探人們的內心世界。人們透過鍵盤可以私密地坦承千奇百怪的事情,譬如在約會網站或搜尋專業意見時吐露心聲,因為在現實生活中講這些事可是要承擔後果的。在其他時候,也正因為不必承擔後果,人們可以吐露自己的一些渴望或恐懼,而不會令人沮喪或有不好的反應。無論是哪一種情況,人們不僅按下按鈕或轉動旋鈕,也鍵入幾兆字元序列中的任何字元序列,以各種爆炸性的組合說出自己的心聲。更棒的是,人們以一種易於彙總分析的形式留下這些數位足跡。這些數位足跡來自各行各業,可以參與不引人注目的實驗,讓刺激變得多樣化並能即時將反應列表顯示。在人們開心提供這些數據之際,網路大數據衍然成形。
《數據、謊言與真相》不僅僅是一個概念驗證。史蒂芬斯—大衛德維茲的發現一次又一次地顛覆我對自己國家和同胞的先入之見。唐納德.川普(Donald Trump)的潛在支持者來自何處?專欄作家安.蘭德斯(Ann
Landers)在一九七六年詢問讀者是否後悔生小孩時,得到的回應令她訝異地發現大多數人都後悔生小孩,蘭德斯有沒有受到不具代表性的自選樣本誤導呢?網路是否要為二○一○年代後期的「過濾氣泡」(filter
bubble)*負責?觸發人們犯下仇恨罪行的原因為何?人們會找笑話讓自己開心嗎?雖然我總以為沒有什麼事情能嚇到我,但是網路披露人們性傾向的內情,真的讓我跌破眼鏡,包括發現每個月有一定數量的女性在搜尋「填充玩偶自慰」這回事。就算使用反應時間、瞳孔擴張或功能性神經影像等方法進行實驗,都不可能揭穿這項事實。
我相信大家都會喜歡《數據、謊言與真相》這本書。史蒂芬斯—大衛德維茲以無比的好奇心和迷人的機智,為二十一世紀的社會科學指出一條新的道路。有了大數據這個無限迷人又能窺探人心的窗口,誰還需要什麼腦部檢查鏡呢?
*「過濾氣泡」指演算法過濾掉個人可能不喜歡或不認同的資訊。