數據科學入門

數據科學入門
定價:414
NT $ 360
  • 作者:(美)JOEL GRUS
  • 出版社:人民郵電出版社
  • 出版日期:2016-03-01
  • 語言:簡體中文
  • ISBN10:7115417415
  • ISBN13:9787115417411
  • 裝訂:304頁 / 普通級 / 1-1
 

內容簡介

基於易於理解且具有數據科學相關的豐富的庫的Python語言環境,從零開始講解數據科學工作。具體內容包括:Python速成,可視化數據,線性代數,統計,概率,假設與推斷,梯度下降法,如何獲取數據,k近鄰法,朴素貝葉斯算法,等等。作者借助大量具體例子以及數據挖掘、統計學、機器學習等領域的重要概念,詳細展示了什麼是數據科學。

格魯斯(Joel Grus)是Google的一位軟件工程師,曾於數家創業公司擔任數據科學家。目前住在西雅圖,專注於數據科學工作並樂此不疲。 高蓉,講師,任教於杭州電子科技大學經濟學院金融系。博士和碩士畢業於南開大學經濟學院金融系,本科畢業於南開大學數學學院計算數學專業。研究領域包括資產定價、金融工程、計量經濟應用、數據科學應用。 韓波,自由譯者、撰稿人,從事IT工作二十余年,主要興趣領域為機器學習、Python。曾為多家IT媒體撰稿,另有譯着《Python數據分析》。
 

目錄

前言

第1章 導論
1.1 數據的威力
1.2 什麼是數據科學
1.3 激勵假設:DataSciencester
1.3.1 尋找關鍵聯系人
1.3.2 你可能知道的數據科學家
1.3.3 工資與工作年限
1.3.4 付費賬戶
1.3.5 興趣主題
1.4 展望

第2章 Python速成
2.1 基礎內容
2.1.1 Python獲取
2.1.2 Python之禪
2.1.3 空白形式
2.1.4 模塊
2.1.5 算法
2.1.6 函數
2.1.7 字符串
2.1.8 異常
2.1.9 列表
2.1.10 元組
2.1.11 字典
2.1.12 集合
2.1.13 控制流
2.1.14 真和假
2.2 進階內容
2.2.1 排序
2.2.2 列表解析
2.2.3 生成器和迭代器
2.2.4 隨機性
2.2.5 正則表達式
2.2.6 面向對象的編程
2.2.7 函數式工具
2.2.8 枚舉
2.2.9 壓縮和參數拆分
2.2.10 args和kwargs
2.2.11 歡迎來到DataSciencester
2.3 延伸學習

第3章 可視化數據
3.1 matplotlib
3.2 條形圖
3.3 線圖
3.4 散點圖
3.5 延伸學習

第4章 線性代數
4.1 向量
4.2 矩陣
4.3 延伸學習

第5章 統計學
5.1 描述單個數據集
5.1.1 中心傾向
5.1.2 離散度
5.2 相關
5.3 辛普森悖論
5.4 相關系數其他注意事項
5.5 相關和因果
5.6 延伸學習

第6章 概率
6.1 不獨立和獨立
6.2 條件概率
6.3 貝葉斯定理
6.4 隨機變量
6.5 連續分布
6.6 正態分布
6.7 中心極限定理
6.8 延伸學習

第7章 假設與推斷
7.1 統計假設檢驗
7.2 案例:擲硬幣
7.3 置信區間
7.4 P-hacking
7.5 案例:運行A/B 測試
7.6 貝葉斯推斷
7.7 延伸學習

第8章 梯度下降
8.1 梯度下降的思想
8.2 估算梯度
8.3 使用梯度
8.4 選擇正確步長
8.5 綜合
8.6 隨機梯度下降法
8.7 延伸學習

第9章 獲取數據
9.1 stdin和stdout
9.2 讀取文件
9.2.1 文本文件基礎
9.2.2 限制的文件
9.3 網絡抓取
9.3.1 HTML和解析方法
9.3.2 案例:關於數據的O』Reilly 圖書
9.4 使用API
9.4.1 JSON(和XML)
9.4.2 使用無驗證的API
9.4.3 尋找API
9.5 案例:使用Twitter API
9.6 延伸學習

第10章 數據工作
10.1 探索你的數據
10.1.1 探索一維數據
10.1.2 二維數據
10.1.3 多維數據
10.2 清理與修改
10.3 數據處理
10.4 數據調整
10.5 降維
10.6 延伸學習

第11章 機器學習
11.1 建模
11.2 什麼是機器學習
11.3 過擬合和欠擬合
11.4 正確性
11.5 偏倚-方差權衡
11.6 特征提取和選擇
11.7 延伸學習

第12章 k近鄰法
12.1 模型
12.2 案例:最喜歡的編程語言
12.3 維數災難
12.4 延伸學習

第13章 朴素貝葉斯算法
13.1 一個簡易的垃圾郵件過濾器
13.2 一個復雜的垃圾郵件過濾器
13.3 算法的實現
13.4 測試模型
13.5 延伸學習

第14章 簡單線性回歸
14.1 模型
14.2 利用梯度下降法
14.3 最大似然估計
14.4 延伸學習

第15章 多重回歸分析
15.1 模型
15.2 最小二乘模型的進一步假設
15.3 擬合模型
15.4 解釋模型
15.5 擬合優度
15.6 題外話:Bootstrap
15.7 回歸系數的標准誤差
15.8 正則化
15.9 延伸學習

第16章 邏輯回歸
16.1 問題
16.2 Logistic函數
16.3 應用模型
16.4 擬合優度
16.5 支持向量機
16.6 延伸學習

第17章 決策樹
17.1 什麼是決策樹
17.2 熵
17.3 分割之熵
17.4 創建決策樹
17.5 綜合運用
17.6 隨機森林
17.7 延伸學習

第18章 神經網絡
18.1 感知器
18.2 前饋神經網絡
18.3 反向傳播
18.4 實例:戰勝CAPTCHA
18.5 延伸學習

第19章 聚類分析
19.1 原理
19.2 模型
19.3 示例:聚會
19.4 選擇聚類數目k
19.5 示例:對色彩進行聚類
19.6 自下而上的分層聚類
19.7 延伸學習

第20章 自然語言處理
20.1 詞雲
20.2 n-grams 模型
20.3 語法
20.4 題外話:吉布斯采樣
20.5 主題建模
20.6 延伸學習

第21章 網絡分析
21.1 中介中心度
21.2 特征向量中心度
21.2.1 矩陣乘法
21.2.2 中心度
21.3 有向圖與PageRank
21.4 延伸學習

第22章 推薦系統
22.1 手工甄篩
22.2 推薦流行事物
22.3 基於用戶的協同過濾方法
22.4 基於物品的協同過濾算法
22.5 延伸學習

第23章 數據庫與SQL
23.1 CREATE TABLE與INSERT
23.2 UPDATE
23.3 DELETE
23.4 SELECT
23.5 GROUP BY
23.6 ORDER BY
23.7 JOIN
23.8 子查詢
23.9 索引
23.10 查詢優化
23.11 NoSQL
23.12 延伸學習

第24章 MapReduce
24.1 案例:單詞計數
24.2 為什麼是MapReduce
24.3 更加一般化的MapReduce
24.4 案例:分析狀態更新
24.5 案例:矩陣計算
24.6 題外話:組合器
24.7 延伸學習

第25章 數據科學前瞻
25.1 IPython
25.2 數學
25.3 不從零開始
25.3.1 NumPy
25.3.2 pandas
25.3.3 scikit-learn
25.3.4 可視化
25.3.5 R
25.4 尋找數據
25.5 從事數據科學
25.5.1 Hacker News
25.5.2 消防車
25.5.3 T 恤
25.5.4 你呢?

作者簡介
關於封面
網路書店 類別 折扣 價格
  1. 新書
    87
    $360