介紹了網絡爬蟲開發中的關鍵問題與Java實現。主要包括從互聯網獲取信息與提取信息和對Web信息挖掘等。
《自己動手寫網絡爬蟲(修訂版)》在介紹基本原理的同時注重輔以具體代碼實現來幫助讀者加深理解,書中部分代碼甚至可以直接使用。
目錄
第1篇自己動手抓取數據
第1章全面剖析網絡爬蟲
1.1抓取網頁
1.1.1深入理解URL
1.1.2通過指定的URL抓取網頁內容
1.1.3Java網頁抓取示例
1,1.4處理HTTP狀態碼
1.2寬度優先爬蟲和帶偏好的爬蟲
1.2.1圖的寬度優先遍歷
1.2.2寬度優先遍歷互聯網
1.2.3Java寬度優先爬蟲示例
1.2.4帶偏好的爬蟲
1.2.5Java帶偏好的爬蟲示例
1.3設計爬蟲隊列
1.3.1爬蟲隊列
1.3.2使用Berkeley DB構建爬蟲隊列
1.3.3使用Berkeley DB構建爬蟲隊列示例
1.3.4使用布隆過濾器構建Visited表
1.3.5詳解Heritrix爬蟲隊列
1.4設計爬蟲架構
1.4.1爬蟲架構
1.4.2設計並行爬蟲架構
1.4.3詳解Heritrix爬蟲架構
1.5使用多線程技術提升爬蟲性能
1.5.1詳解Java多線程
1.5.2爬蟲中的多線程
1.5.3一個簡單的多線程爬蟲實現
1.5.4詳解Heritrix多線程結構
本章小結
第2章分布式爬蟲
2.1設計分布式爬蟲
2.1.1分布式與雲計算
2.1.2分布式與雲計算技術在爬蟲中的應用——淺析Google的雲計算架構
2.2分布式存儲
2.2.1從Ralation_DB到key/value存儲
2.2.2Consistent Hash算法
2.2.3Consistent Hash代碼實現
2.3Google的成功之道——GFS
2.3.1GFS詳解
2.3.2開源GFS——HDFS
2.4Google網頁存儲秘訣——BigTable
2.4.1詳解BigTable
2.4.2開源BigTable—HBase
2.5Google的成功之道——MapReduce算法
2.5.1詳解MapReduce算法
2.5.2MapReduce容錯處理
2.5.3MapReduce實現架構
2.5.4Hadoop中的MapReduce簡介
2.5.5wordCount例子的實現
2.6Nutch中的分布式
2.6.1Nutch爬蟲詳解
2.6.2Nutch中的分布式
本章小結
第3章爬蟲的「方方面面」
3.1爬蟲中的「黑洞」
3.2主題爬蟲和限定爬蟲
3.2.1理解主題爬蟲
3.2.2Java主題爬蟲
3.2.3理解限定爬蟲
3.2.4Java限定爬蟲示例
3.3有「道德」的爬蟲
本章小結
第2篇自己動手抽取Web內容
第4章「處理」HTML頁面
4.1征服正則表達式
4.1.1學習正則表達式
4.1.2Java正則表達式
4.2抽取HTML正文
4.2.1了解Jsoup
4.2.2使用正則表達式抽取示例
4.3抽取正文
4.4從JavaScript中抽取信息
4.4.1JavaScript抽取方法
4.4.2JavaScript抽取示例
本章小結
第s章非HTML正文抽取
5.1抽取PDF文件
5.1.1學習PDFBox
5.1.2使用PDFBox抽取示例
5.1.3提取PDF文件標題
5.1.4處理PDF格式的公文
5.2抽取Office文檔
5.2.1學習POI
5.2.2使用POI抽取Word示例
5.2.3使用POI抽取PPT示例
5.2.4使用POI抽取Excel示例
5.3抽取RTF
5.3.1開源RTF文件解析器
5.3.2實現一個RTF文件解析器
5.3.3解析RTF示例
本章小結
第6章多媒體抽取
6.1視頻抽取
6.1.1抽取視頻關鍵幀
6.1.2Java視頻處理框架
6.1.3Java視頻抽取示例
6.2音頻抽取
6.2.1抽取音頻
6.2.2Java音頻抽取技術
本章小結
第7章去掉網頁中的「噪聲」
7.1「噪聲」對網頁的影響
7.2利用「統計學」消除「噪聲」
7.2.1網站風格樹
7.2.2「統計學去噪」的Java實現
7.3利用「視覺」消除「噪聲」
7.3.1「視覺」與「噪聲」
7.3.2「視覺去噪」的Java實現
本章小結
第3篇自己動手挖掘Web數據
第8章分析Web圖
8.1存儲Web「圖」
8.2利用Web「圖」分析鏈接
8.3Google的秘密——PageRank
8.3.1深入理解PageRank算法
8.3.2PageRank算法的Java實現
8.3.3應用PageRank進行鏈接分析
8.4PageRank的兄弟HITS
8.4.1深入理解HITS算法
8.4.2HITS算法的Java實現
8.4.3應用HITS進行鏈接分析
8.5PageRank與HITS比較
本章小結
第9章去掉「重復」的文檔
9.1何為「重復」的文檔
9.2利用「語義指紋」排重
9.2.1理解「語義指紋」
9.2.2「語義指紋」排重的Java實現
9.3SimHash排重
9.3.1理解SimHash
9.3.2SimHash排重的Java實現
9.4分布式文檔排重
本章小結
第10章分類與聚類的應用
10.1網頁分類
10.1.1收集語料庫
10.1.2選取網頁的「特征」
10.1.3使用支持向量機進行網頁分類
10.1.4利用URL地址進行網頁分類
10.1.5使用AdaBoost進行網頁分類
10.2網頁聚類
10.2.1深入理解DBScan算法
10.2.2使用
第1章全面剖析網絡爬蟲
1.1抓取網頁
1.1.1深入理解URL
1.1.2通過指定的URL抓取網頁內容
1.1.3Java網頁抓取示例
1,1.4處理HTTP狀態碼
1.2寬度優先爬蟲和帶偏好的爬蟲
1.2.1圖的寬度優先遍歷
1.2.2寬度優先遍歷互聯網
1.2.3Java寬度優先爬蟲示例
1.2.4帶偏好的爬蟲
1.2.5Java帶偏好的爬蟲示例
1.3設計爬蟲隊列
1.3.1爬蟲隊列
1.3.2使用Berkeley DB構建爬蟲隊列
1.3.3使用Berkeley DB構建爬蟲隊列示例
1.3.4使用布隆過濾器構建Visited表
1.3.5詳解Heritrix爬蟲隊列
1.4設計爬蟲架構
1.4.1爬蟲架構
1.4.2設計並行爬蟲架構
1.4.3詳解Heritrix爬蟲架構
1.5使用多線程技術提升爬蟲性能
1.5.1詳解Java多線程
1.5.2爬蟲中的多線程
1.5.3一個簡單的多線程爬蟲實現
1.5.4詳解Heritrix多線程結構
本章小結
第2章分布式爬蟲
2.1設計分布式爬蟲
2.1.1分布式與雲計算
2.1.2分布式與雲計算技術在爬蟲中的應用——淺析Google的雲計算架構
2.2分布式存儲
2.2.1從Ralation_DB到key/value存儲
2.2.2Consistent Hash算法
2.2.3Consistent Hash代碼實現
2.3Google的成功之道——GFS
2.3.1GFS詳解
2.3.2開源GFS——HDFS
2.4Google網頁存儲秘訣——BigTable
2.4.1詳解BigTable
2.4.2開源BigTable—HBase
2.5Google的成功之道——MapReduce算法
2.5.1詳解MapReduce算法
2.5.2MapReduce容錯處理
2.5.3MapReduce實現架構
2.5.4Hadoop中的MapReduce簡介
2.5.5wordCount例子的實現
2.6Nutch中的分布式
2.6.1Nutch爬蟲詳解
2.6.2Nutch中的分布式
本章小結
第3章爬蟲的「方方面面」
3.1爬蟲中的「黑洞」
3.2主題爬蟲和限定爬蟲
3.2.1理解主題爬蟲
3.2.2Java主題爬蟲
3.2.3理解限定爬蟲
3.2.4Java限定爬蟲示例
3.3有「道德」的爬蟲
本章小結
第2篇自己動手抽取Web內容
第4章「處理」HTML頁面
4.1征服正則表達式
4.1.1學習正則表達式
4.1.2Java正則表達式
4.2抽取HTML正文
4.2.1了解Jsoup
4.2.2使用正則表達式抽取示例
4.3抽取正文
4.4從JavaScript中抽取信息
4.4.1JavaScript抽取方法
4.4.2JavaScript抽取示例
本章小結
第s章非HTML正文抽取
5.1抽取PDF文件
5.1.1學習PDFBox
5.1.2使用PDFBox抽取示例
5.1.3提取PDF文件標題
5.1.4處理PDF格式的公文
5.2抽取Office文檔
5.2.1學習POI
5.2.2使用POI抽取Word示例
5.2.3使用POI抽取PPT示例
5.2.4使用POI抽取Excel示例
5.3抽取RTF
5.3.1開源RTF文件解析器
5.3.2實現一個RTF文件解析器
5.3.3解析RTF示例
本章小結
第6章多媒體抽取
6.1視頻抽取
6.1.1抽取視頻關鍵幀
6.1.2Java視頻處理框架
6.1.3Java視頻抽取示例
6.2音頻抽取
6.2.1抽取音頻
6.2.2Java音頻抽取技術
本章小結
第7章去掉網頁中的「噪聲」
7.1「噪聲」對網頁的影響
7.2利用「統計學」消除「噪聲」
7.2.1網站風格樹
7.2.2「統計學去噪」的Java實現
7.3利用「視覺」消除「噪聲」
7.3.1「視覺」與「噪聲」
7.3.2「視覺去噪」的Java實現
本章小結
第3篇自己動手挖掘Web數據
第8章分析Web圖
8.1存儲Web「圖」
8.2利用Web「圖」分析鏈接
8.3Google的秘密——PageRank
8.3.1深入理解PageRank算法
8.3.2PageRank算法的Java實現
8.3.3應用PageRank進行鏈接分析
8.4PageRank的兄弟HITS
8.4.1深入理解HITS算法
8.4.2HITS算法的Java實現
8.4.3應用HITS進行鏈接分析
8.5PageRank與HITS比較
本章小結
第9章去掉「重復」的文檔
9.1何為「重復」的文檔
9.2利用「語義指紋」排重
9.2.1理解「語義指紋」
9.2.2「語義指紋」排重的Java實現
9.3SimHash排重
9.3.1理解SimHash
9.3.2SimHash排重的Java實現
9.4分布式文檔排重
本章小結
第10章分類與聚類的應用
10.1網頁分類
10.1.1收集語料庫
10.1.2選取網頁的「特征」
10.1.3使用支持向量機進行網頁分類
10.1.4利用URL地址進行網頁分類
10.1.5使用AdaBoost進行網頁分類
10.2網頁聚類
10.2.1深入理解DBScan算法
10.2.2使用
網路書店
類別
折扣
價格
-
新書87折$256