本書針對文本分類方法在發展過程中出現的問題,圍繞「本體及其在文本分類中的應用」和「海量網絡學術文獻自動分類」兩個方面展開探討。深入研究了海量網絡學術文獻處理技術,比較分析了適合網絡文獻自動獲取及並行處理的工具;設計了基於Heritrix與Hadoop平台的海量網絡學術文獻獲取及並行處理模型和基於WordNet與SUMO本體集成的語義驅動自動文檔分類模型;梳理了本體以及本體集成理論、方法和工具;開發了海量網絡學術文獻並行獲取和自動分類原型系統。
王效岳,男,1961年生,工學博士,教授,山東理工大學科技信息研究所所長。中國圖書館學會高等學校圖書館分會委員,山東省科技情報學會副理事長,山東省圖書館學會常務理事。研究方向為數據挖掘與信息處理技術。
主編及參編學術著作6部,主持或參與國家級課題3項、省部級課題6項、廳局級課題10余項,發表學術論文80余篇,其中被EI、CSSCI索引30余篇。授權發明專利3項。獲省科技進步3等獎l項,廳局級科技進步2等獎2項、3等獎3項。
白如江,男,1979年生,管理學博士,副研究館員,山東理工大學圖書館數字資源部主任。研究領域包括文本數據挖掘、自然語言處理、信息檢索技術、高科技戰略情報研究等。主持國家社科青年基金項目l項,教育部人文社會科學青年基金項目等省部級課題多項。獲國家級教學成果獎1項、省部級獎勵多項,發表SCI、EI、CSSCI檢索核心期刊論文30余篇。
目錄
序
緒論
第一章網絡爬蟲
第一節網絡爬蟲
一、開源網絡爬蟲工具
二、爬蟲工具比較分析
第二節Hadoop平台
一、Hadoop與其他系統的比較
二、Hadoop項目及結構
三、Hadoop分布式文件系統
四、MapReduce編程模型
五、Hadoop平台搭建
第二章海量網絡學術文獻獲取及並行處理模型
第一節網絡學術文獻的主要來源及常用文件格式
一、網絡學術文獻的主要來源及特點
二、網絡學術文獻的常用文件格式
第二節網絡學術文獻自動獲取實驗
一、實驗環境
二、實驗平台搭建
第三節網絡學術文獻資源獲取
一、網絡學術文獻獲取方案
二、種子站點的選擇
三、抓取任務的配置
四、文件類型和大小過濾
五、網絡學術文獻獲取實驗結果
第四節網絡學術文獻資源判定
第五節網絡學術文獻並行處理
一、數據預處理
二、並行處理
第六節MapReduce任務優化
一、任務調度
二、任務數量
三、Combine函數
四、文件壓縮
五、重用JVM
六、網絡學術文獻並行處理模塊實驗結果
第三章本體集成
第一節本體研究
一、本體概念
二、本體基本構成要素
三、本體類型
四、本體表示語言
第二節本體庫研究
一、國內外主要本體庫
二、本體庫比較分析
第三節本體集成基本過程
第四節本體集成工具
一、工具介紹
二、工具比較與分析
第五節本體集成方法
一、基於形式概念分析(FCA)的本體集成方法
二、基於范疇論的本體集成方法
三、基於RDFS圖閉包的本體集成方法
第四章基於語義驅動文本自動分類研究
第一節文檔自動分類基本理論
一、文檔自動分類基本概念
二、文檔自動分類基本流程
三、文檔自動分類性能評價指標
第二節基於語義驅動文檔自動分類概念
第三節基於語義驅動文檔自動分類實現基礎
第四節基於語義驅動文檔自動分類方法模型
一、詞向量空間構建
二、語義向量空間構建
第五章基於本體集成的文檔語義分類模型
第一節SUMO和WordNet本體庫概述
一、WordNet本體庫
二、SUMO本體庫
第二節WordNet與SUMO本體庫映射機制研究
一、映射動機
二、映射模型
三、映射實例
四、映射效果及應用分析
第三節基於WordNet與SUMO本體集成文檔語義分類模型設計與實現
一、實驗平台構建
二、實驗數據集及方法
三、集成本體庫構建
四、詞向量空間到概念向量空間的映射
五、概念向量空間通用化
六、分類模型訓練與測試過程描述
七、實驗評估指標
八、實驗及結果分析
第六章海量網絡學術文獻自動分類系統
第一節海量網絡學術文獻自動分類系統
一、開發環境
二、海量網絡學術文獻自動獲取模塊
三、海量網絡學術文獻詞一文檔矩陣處理模塊
四、本體集成模塊
五、基於語義驅動的分類模塊
第二節海量網絡學術文獻自動分類系統實現
一、系統主要技術及標准
二、系統功能
第七章總結及展望
第一節總結
第二節展望
附錄A
附錄B
附錄C
附錄D
參考文獻
索引
后記
緒論
第一章網絡爬蟲
第一節網絡爬蟲
一、開源網絡爬蟲工具
二、爬蟲工具比較分析
第二節Hadoop平台
一、Hadoop與其他系統的比較
二、Hadoop項目及結構
三、Hadoop分布式文件系統
四、MapReduce編程模型
五、Hadoop平台搭建
第二章海量網絡學術文獻獲取及並行處理模型
第一節網絡學術文獻的主要來源及常用文件格式
一、網絡學術文獻的主要來源及特點
二、網絡學術文獻的常用文件格式
第二節網絡學術文獻自動獲取實驗
一、實驗環境
二、實驗平台搭建
第三節網絡學術文獻資源獲取
一、網絡學術文獻獲取方案
二、種子站點的選擇
三、抓取任務的配置
四、文件類型和大小過濾
五、網絡學術文獻獲取實驗結果
第四節網絡學術文獻資源判定
第五節網絡學術文獻並行處理
一、數據預處理
二、並行處理
第六節MapReduce任務優化
一、任務調度
二、任務數量
三、Combine函數
四、文件壓縮
五、重用JVM
六、網絡學術文獻並行處理模塊實驗結果
第三章本體集成
第一節本體研究
一、本體概念
二、本體基本構成要素
三、本體類型
四、本體表示語言
第二節本體庫研究
一、國內外主要本體庫
二、本體庫比較分析
第三節本體集成基本過程
第四節本體集成工具
一、工具介紹
二、工具比較與分析
第五節本體集成方法
一、基於形式概念分析(FCA)的本體集成方法
二、基於范疇論的本體集成方法
三、基於RDFS圖閉包的本體集成方法
第四章基於語義驅動文本自動分類研究
第一節文檔自動分類基本理論
一、文檔自動分類基本概念
二、文檔自動分類基本流程
三、文檔自動分類性能評價指標
第二節基於語義驅動文檔自動分類概念
第三節基於語義驅動文檔自動分類實現基礎
第四節基於語義驅動文檔自動分類方法模型
一、詞向量空間構建
二、語義向量空間構建
第五章基於本體集成的文檔語義分類模型
第一節SUMO和WordNet本體庫概述
一、WordNet本體庫
二、SUMO本體庫
第二節WordNet與SUMO本體庫映射機制研究
一、映射動機
二、映射模型
三、映射實例
四、映射效果及應用分析
第三節基於WordNet與SUMO本體集成文檔語義分類模型設計與實現
一、實驗平台構建
二、實驗數據集及方法
三、集成本體庫構建
四、詞向量空間到概念向量空間的映射
五、概念向量空間通用化
六、分類模型訓練與測試過程描述
七、實驗評估指標
八、實驗及結果分析
第六章海量網絡學術文獻自動分類系統
第一節海量網絡學術文獻自動分類系統
一、開發環境
二、海量網絡學術文獻自動獲取模塊
三、海量網絡學術文獻詞一文檔矩陣處理模塊
四、本體集成模塊
五、基於語義驅動的分類模塊
第二節海量網絡學術文獻自動分類系統實現
一、系統主要技術及標准
二、系統功能
第七章總結及展望
第一節總結
第二節展望
附錄A
附錄B
附錄C
附錄D
參考文獻
索引
后記
網路書店
類別
折扣
價格
-
新書87折$198