推薦序
本身很熱愛資料科學的推廣與顧問服務的工作,也在其中發現想要瞭解、學習資料科學的朋友很多,因為它是近年來很熱門的工作之一,且特別適合具備領域知識的人才,但是因為資料科學這個技術必須學會的知識內容相當多元,也包括了許多艱澀難懂的數學,大部分的朋友因困難而卻步。而今有書籍開始用嶄新的方法,搭配簡單的圖文,去介紹資料科學的技術。本書就是從統計的角度切入主題,搭配生活化的資料去介紹各種資料科學的方法,接著再用機器學習的主題做結尾,幫助大家能夠掌握進一步學習的方向。本書除了搭配趣味的插畫之外,也將常見的資料科學運作概念,例如掌握資料、分析解讀、資料預測等,囊括在書中。適合尚未接觸過資料科學,但是想初步了解這個技術的朋友們一起閱讀!
Google機器學習開發專家(GDE) JerryWu
書中作者自序
在資訊及通訊科技(ICT)高度發展的今日,無論你是否有所察覺,我們的日常生活總是脫離不了各式各樣的資料。本書將這樣的社會稱為「資料化社會」,這意謂著如果少了資料,就連一般的生活都無法順利運作。舉例來說,現已成了必需品的智慧型手機,若不能處理及運用影像、聲音、文字等資料,就只是個無用之物罷了。如此一來,我們的生活會變成什麼樣子呢?請各位試著想像一下。由此可見,對現代社會而言,「資料」的價值與重要性與日俱增。在這種情況下,研究資料的科學應運而生,可說是理所當然的結果,而這門科學就稱為資料科學(data
science)。
本書的目的,是使用插畫與圖表,以淺顯易懂的方式向讀者介紹,資料科學的概要與基本概念。由於這只是一本藉由視覺表現方式,幫助讀者瞭解概念,粗略掌握資料科學概要的「繪本」,書中並無關於數學理論與技術的具體解說。就這層意思來說,本書算是資料科學的「入門用的入門書」。
其實,資料科學目前尚無一個明確的定義。包括本書在內,坊間已有許多以「資料科學」為主題的著作,然而每位作者談及的範圍與內容卻不盡相同。不過,一說到資料科學,大多數的人應該都會聯想到AI或機器學習吧。其背景因素在於大數據的運用。
關於這部分本書也會說明,總之大數據並非單指「規模龐大」的資料,而是指運用在資訊及通訊科技的資料。若依照這個定義以大數據為前提去思考的話,那麼認為資料科學是與AI或機器學習等技術有關的科學也是很自然的。不過,本書對於這種看法是有些不贊同的。
若以大數據為前提去推想資料科學,怎樣都很難抹去「資訊及通訊科技是『主角』,資料是『配角』」的印象。但本書認為,對資料科學而言,資料才是「主角」,資訊及通訊科技則是「配角」。畢竟這是一門「資料」的科學,必須如此才名實相符。
為什麼說資料是「主角」呢?這是因為,我們要知道資料的性質,按照資料的性質進行分析,然後根據資料導出各種結論。這裡說的資料性質,其實可分成各種不同的類型。即便資料的外觀看起來都是數值陣列,但像經濟資料與醫學資料,兩者的產生方法與處理方法就截然不同,意義與解釋也不一樣。這種重視資料性質的差異,亦即「重視資料」之觀點,對資料科學而言是最重要的,這也是本書的基本觀念。因此,資訊及通訊科技,只能算是為了有效率地完成這一連串的程序而運用的「配角」。
為了達成本書的目的,內容做了以下的編排。
1 從「重視資料」之觀念出發,用1章的篇幅詳細解說資料的類型與特徵,以及各類資料的蒐集方法(第2章)。
2 資料科學的重點,在於資料分析方法(用來分析資料的數學理論)。本書安排了3名角色――在超市擔任行銷專員的A先生、為了專題討論課程而進行地區研究的大學生B同學、負責處理社區健康問題的公衛護理師C小姐,透過他們的業務或研究,解說資料分析方法的目的與分析結果的解釋。另外,本書完全不觸及數學理論,讀者就算不具備數學的先備知識也能夠理解內容(第3章~第5章)。
3 本書將資料分析方法,分成分類手法(第4章)與預測手法(第5章),個別介紹使用定量資料時與使用定性資料時的代表性手法。
4 關於前述的手法,本書以講解概念及計算結果的解釋為主,不過實際體驗資料分析也很重要。因此,本書會從介紹的手法當中,選出可用Excel簡單計算的手法,解說對應的函數與分析工具的用法(附錄)。
5 對資料科學而言資料就是一切。如果資料遭到竄改或捏造,即使套用再講究數學理論的資料分析方法也是白費功夫。因此,本書會花1章的篇幅談談資料倫理,介紹資料竄改案例並解說倫理規範(第6章)。
6 本書雖秉持「資料科學的對象並非只有大數據」的態度,不過大數據當然也是資料科學的重要對象。因此,最後會用1章的篇幅,從「大數據的運用」角度,解說資料科學與AI及機器學習的關係(第7章)。
資料科學一詞在最近幾年迅速普及,因此可算是一個流行語。有句俗話說:「流行終會過時。」但是如同前述,既然資料對「資料化社會」而言具有重要意義,以資料為對象的科學應該就不會衰退過時。不過,從囊括各種領域的資料科學現狀來看,其內容與體系未來應該會逐步統整。我在本書裡,也偷偷表達了自己對資料科學走向的看法。如果各位讀者在看完本書後,能因此對資料的價值產生興趣,並且加深對資料科學的瞭解,這是我的榮幸。
最後是謝辭。這次能夠出版資料科學的繪本,全要歸功於技術評論社的佐藤民子小姐與插畫家米村知倫先生的協助。另外,撰寫本書時,靜岡大學研究所的大關亮人同學也幫忙整理數據與資料。我要在這裡向他們表達感謝之意。非常謝謝各位。
2021年4月 上藤一郎