圖解統計與大數據

圖解統計與大數據
定價:300
NT $ 237 ~ 300
  • 作者:吳作樂吳秉翰
  • 出版社:五南
  • 出版日期:2016-06-25
  • 語言:繁體中文
  • ISBN10:9571186147
  • ISBN13:9789571186146
  • 裝訂:平裝 / 248頁 / 17 x 23 cm / 普通級 / 單色印刷 / 初版
 

內容簡介

  認識傳統統計與大數據的關係:Small Data vs. Big Data
  認識敘述統計、推論統計的意義及應用
  認識傳統統計、工程統計、大數據分析三者的關係

 
  本書介紹在各個範疇會用到的統計,其中內容包涵傳統統計、基礎機率、工程統計、生物統計,以及2010年開始熱門的大數據分析。為了讓大家理解這些內容,本書使用深入淺出的說明,來認識各個範疇的統計意義,並了解統計如物理一樣,是用數學語言敘述的應用科學。

  由於統計涵蓋相當大的領域,本書針對的對象為「小學到高中的學生及一般人的敘述統計」、「高中到大學的推論統計」、「社會人士所需要理解的大數據與統計」三大區塊。
 

作者介紹

作者簡介

吳作樂


  學歷
  國立台灣大學數學系學士
  美國哥倫比亞大學數理統計博士 

  經歷
  公共電視董事
  長榮大學資訊管理系教授   
  數位內容創作學程主任 
  國家太空中心主任    
  國際宇宙航行學院 (International Academy of Astronautics) 院士 
  宏遠育成科技股份有限公司總經理
  工研院電通所副所長 
  美國Bell core公司信號處理部研發經理(District Manager)
  美國貝爾實驗室(Bell Labs) 衛星通訊部門研究員

吳秉翰

  學歷
  輔仁大學應用數學學士
 

目錄

前言

第一章 統計綱要
1-1 傳統統計與大數據分析有何不同 
1-2 傳統統計是什麼 

第二章 傳統統計
一、敘述統計
2-1 常用的圖表(1)—長條圖 
2-2 常用的圖表(2)—直方圖 
2-3 常用的圖表(3)—折線圖 
2-4 常用的圖表(4)—圓餅圖、雷射圖 
2-5 常用的圖表(5)—泡泡圖、區域圖 
2-6 平均經常是無用的統計量 
2-7 認識不一樣的平均數:加權平均數 
2-8 濫用平均的實例(1)—只看PISA的平均值-part 1 
2-9 濫用平均的實例(2)—只看PISA的平均值-part 2 
2-10 標準差是什麼 
2-11 常態分布 
2-12 偏態、眾數、中位數 
2-13 濫用平均的實例(3)—M型社會 
2-14 濫用平均的實例(4)—台灣的平均所得 
2-15 衡量資料分散程度的數值 
2-16 升學用到的統計:百分位數與偏差值 
2-17 濫用平均的實例(5)—85%的人有屋、幸福指數 
2-18 難以察覺的圖表錯誤—非洲比你想像的大很多 
二、推論統計的基礎機率
2-19 機率的意義 
2-20 機率的分類 
2-21 隨機取樣的方法(1) 
2-22 隨機取樣的方法(2) 
2-23 獨立事件的機率 
2-24 條件機率 
2-25 利用樹狀圖計算機率 
2-26 貝氏定理 
2-27 排列與組合(1) 
2-28 排列與組合(2) 
2-29 核電真的安全嗎?保險費怎麼來? 
2-30 樂透1:各獎項的機率為多少 
2-31 樂透2:多久會開出一次頭獎 
2-32 撲克牌遊戲中,梭哈的牌面大小 
三、推論統計
1. 基本工具與常用的概率分布
2-33 認識二項分布、卜瓦松分布 
2-34 大數法則 
2-35 中央極限定理 
2-36 中央極限定理的歷史 
2-37 標準化 
2-38 常態分布的歷史與標準常態分布 
2-39 t分布與自由度 
2-40 t分布歷史與t分布表 
2-41 卡方分布與F分布 
2. 估計
2-42 估計(1) 
2-43 估計(2) 
2-44 比例的區間估計(1)—民調的區間估計 
2-45 比例的估計(2)—所需樣本數量 
2-46 區間估計的應用:民調 
3. 假設檢定
2-47 假設—虛無假設與對立假設 
2-48 檢定的概念 
2-49 已知母體標準差,母體平均數的z檢定 
2-50 p值法 
2-51 未知母體標準差,母體平均數的t檢定 
2-52 母體比例的檢定 
2-53 已知母體標準差,兩母體平均數的z檢定 
2-54 未知母體標準差,假設兩母體標準差相同,兩母體平均數的t檢定 
2-55 未知母體標準差,假設兩母體標準差不同,兩母體平均數的t檢定 
2-56 兩母體比例的檢定 
2-57 相依樣本的檢定 
2-58 兩母體變異數的F檢定 
2-59 ANOVA檢定(1) 
2-60 ANOVA檢定(2) 
2-61 卡方檢定(1)—適合度檢定 
2-62 卡方檢定(2)—列聯表分析 
4. 迴歸分析
2-63 迴歸線的由來 
2-64 圖案與迴歸線的關係 
2-65 迴歸線怎麼計算 
2-66 迴歸線的可信度 
2-67 複迴歸分析(1) 
2-68 複迴歸分析(2) 
2-69 複迴歸分析(3) 
四、生物統計
2-70 健保費與二項分布的關係 
2-71 統計野生動物的數量—捉放法 
2-72 醫療統計:判斷何種物質引起疾病、藥物是否有用 

第三章 工程與商業的統計應用
一、工程統計
3-1 資料探勘(1)—資料探勘的介紹 
3-2 資料探勘(2)—數據中的異常值 
3-3 資料探勘(3)—分群討論 
3-4 資料探勘的應用(1) 
3-5 資料探勘的應用(2) 
3-6 時間序列 
3-7 機器學習 
二、大數據的統計方法
3-8 什麼是大數據 
3-9 大數據的問題 
3-10 統計學界的統計分析與商業界的大數據分析之差異 
3-11 統計學界的統計分析與工程界的統計分析之差異 
3-12 大數據分析的起點 
3-13 資訊視覺化 
3-14 視覺分析的意義 
3-15 建議大數據該用的統計方法 
3-16 卡門濾波 
3-17 資訊科學家的定位、大數據結論 

第四章 統計的應用、其他
4-1 物價指數 
4-2 失業率 
4-3 怎樣的房價是合理 
4-4 如何看貧富差距?官員與學者的爭論:馬有多少牙齒? 
附錄一 參考連結 
附錄二 常用的統計符號 
附錄三 如何使用z表 
附錄四 如何使用t表 
附錄五 如何使用F表 
附錄六 如何使用χ2表
 

前言

  近年來,鼓吹大數據(Big Data)蔚為風潮,相關的書籍也很暢銷。有趣的是:幾乎所有鼓吹大數據的書都刻意避開統計,而使用預測分析(Predictive Analytics)這樣的名詞,來包含傳統統計方法及工程統計的工具,使用資料科學家(Data scientist)來避開具有統計專業的統計學者。但是,無論如何重新包裝,網路時代所謂「大數據分析」就是傳統統計與工程統計的工具結合起來的商業用統計分析。

  本書是一本介紹在各個範疇會用到的統計,其中內容包含傳統統計、基礎機率、工程統計、生物統計,以及2010年開始熱門的大數據分析。為了讓大家理解這些內容,本書使用深入淺出的說明,來認識各個範疇的統計意義。

  由於統計涵蓋相當大的領域,本書針對的對象不似一般的書籍,只針對某一類人,而是針對「小學到高中的學生及一般人的敘述統計」、「高中到大學的推論統計」、「社會人士所需要理解的大數據與統計」三大區塊。有興趣的人可以針對自己所需的部分進行閱讀與認識。

  本書在各個範疇都會以歷史及實際生活應用來做解釋,內容包括:

  1. 認識敘述統計各圖表的意義及應用,包含近代的資訊視覺化工具。
  2. 介紹推論統計的各種統計分析。
  3. 認識傳統統計、工程統計、大數據分析三者的關係。
  4. 說明統計不是純數學的一部分,而是如同物理學一樣,是一門用數學語言敘述的應用科學。

  作者認為學習應該從有趣的內容下手,有了興趣才有動力去學習,否則會淪為類似工作一般,因為工作是因必要而學習,過了此階段就忘記,並且學的時候也相當痛苦,不斷的背公式套題目。所以學習東西,不在於它可以多有用,而在於它可以多有趣。如同學習音樂不會是從五線譜開始學習,而是從聽音樂、唱歌,感覺開心,有興趣再去精深;同理美術課不會從調色開始,從調出各種顏色為基礎再來學習畫畫,一定是先隨便畫,讓自己覺得開心有趣,再學習如何調出更多顏色來讓畫作更有層次。同理數學也不該從背公式開始,但大多數人最後的印象都是如此。遑論統計對大多數人的概念,就是不斷地套更複雜難明的公式。所以我們加入許多視覺化的工具來幫助理解統計。

  本書特色是從社會、經濟、醫療、政治各領域的應用來認識統計重要性,也使用各種圖表說明與操作,打破統計是既枯燥無味,又難學又難懂的情況。

  在本書出版之際,特別感謝義美食品高志明總經理全力支持本書的出版。本書雖經多次修訂,缺點與錯誤在所難免,歡迎各界批評指正,得以不斷改善。
 

內容連載

1-1 傳統統計與大數據分析有何不同

(一)傳統統計分析

傳統統計的歷史源自17世紀,一直到20世紀,統計的研究是希望從樣本推論到母體,所以都是以小樣本數為主,其原因是有效樣本的不易取得且太過昂貴,並且數據受太多因素互相干擾而不準確,所以早期的統計研究分為兩個階段。

第一階段:資料分析(Data Analysis):研究如何收集、整理、歸納,描述資料中的數據和分散程度。第一階段的統計又被稱做探索性資料分析(Exploratory Data Analysis, EDA)。資料分析傾向於直接利用數據做判斷。

第二階段:推論統計(Inferential Statistics):由第一階段的資料分析推理數學模型,由隨機且有效的樣本推論到全體情形,來幫助決策。第二階段的統計又被稱做數理統計,傾向於利用第一階段的結果,並排除不必要的極端值後,再作分析。

以前統計因為樣本取得不易,必須用少數有效樣本推理、決策。也因此做許多機率模型並驗證,最後有了目前的統計。

(二)大數據分析

到了21世紀的電腦時代,因為能獲得大量資料,不像以前的資料量比較少,工程界已經有能力可以處理大量資料的分析,直接用電腦做出各種視覺化(Visualization),再來加以分析。但是由於可以獲得大量資料,也導致了樣本不完全是隨機樣本,所以大數據的分析不能僅限於傳統統計的分析方法(隨機抽樣),必須用到工程統計多年發展的工具。一直到2010年網路的普及程度提高,商業界也意識到利用大量外部資料來分析商業行為是勢在必行,所以商業界推出大數據分析(Big data)的統計方法,但其實目前大數據分析就是工程界上早已使用大量數據的統計分析。

處理大量資料的分析,又稱資料科學(Data Science),現狀是使用者不用完全懂統計的原理,只要會操作電腦來進行視覺化及分析,期望從中找到有用的資訊。當然這樣的方法在統計觀點是較不嚴謹的,但仍有助於分析。也正因為大數據的不嚴謹性,普遍地不被大多數統計學家認同是有效的統計方法。但在作者觀點,數據視覺化的提升可被認定是在敘述統計範疇內,並且使用的方法是工程統計的方法(Predictive Analytics),所以大數據分析可被歸類在統計之中,當然如果要很完整且有效的被利用,則需要數理統計的證明。
網路書店 類別 折扣 價格
  1. 新書
    79
    $237
  2. 新書
    9
    $270
  3. 新書
    9
    $270
  4. 新書
    93
    $279
  5. 新書
    93
    $279
  6. 新書
    $300