統計語言學

統計語言學
定價:336
NT $ 265
  • 作者:劉穎
  • 出版社:清華大學出版社
  • 出版日期:2014-09-01
  • 語言:簡體中文
  • ISBN10:7302378150
  • ISBN13:9787302378150
  • 裝訂:259頁 / 普通級 / 1-1
 

內容簡介

統計語言學是一門涉及語言學、計算機科學和數學等多門學科的交叉學科,覆蓋面廣。劉穎編著的這本《統計語言學》詳細闡述語言統計知識、語言統計的R語言實現、統計結果的直觀展示和統計結果的語言分析。主要介紹語言學的基本統計、參數假設檢驗 、非參數假設檢驗、方差分析、文本聚類、文本分類和綜合運用這些統計知識的計量風格學研究。

本書結構完整,層次分明,條理清楚。既便於教學,又便於自學。可作為中文、外語、計算機等專業高年級本科生和研究生教材,也可供從事語言統計和計量分析的研究者參考。
 

目錄

第1章 概論
1.1 統計語言學
1.2 統計語言學與其他學科
1.2.1 計量語言學
1.2.2 計算語言學
1.2.3 語料庫語言學
1.2.4 與三個學科的聯系與區別
1.3 使用統計方法研究的語言特征
1.4 統計語言學基本研究方法
1.5 統計語言學研究的步驟
1.6 統計的語言學應用
第2章 語料庫
2.1 語料庫的定義
2.2 語料庫的類型
2.2.1 口語語料庫與書面語語料庫
2.2.2 單語語料庫、雙語語料庫與多語語料庫
2.2.3 通用語料庫與專用語料庫
2.2.4 共時語料庫與歷時語料庫
2.2.5 動態語料庫與靜態語料庫
2.2.6 同質語料庫與異質語料庫
2.2.7 生語料庫與標注語料庫
2.3 國內外主要語料庫
2.3.1 國外的語料庫
2.3.2 國內的語料庫
2.4 本章小結
第3章 統計在語言研究中的基本應用
3.1 統計學的基本概念
3.1.1 總體、個體、樣本
3.1.2 參數與統計量
3.1.3 常量、變量
3.1.4 實際值與觀測值
3.2 平均數
3.2.1 簡單算術平均數
3.2.2 加權算術平均數
3.3 方差與標准差
3.3.1 未分組數據的方差與標准差
3.3.2 分組數據的方差與標准差
3.4 頻度、頻率、概率、條件概率、貝葉斯定理
3.4.1 概率論中的常用概念
3.4.2 概率
3.4.3 獨立性
3.4.4 貝葉斯定理
3.4.5 頻度與頻率
3.5 互信息
3.6 Z評分
3.7 Dice系數
3.8 Phi平方系數(Φ2)
3.9 對數似然比
3.10 N元模型
3.10.1 N元語法
3.10.2 N元語法模型
3.11 語言學三大統計規律
3.11.1 Zipf法則
3.11.2 Menzerath?Altmann定律
3.11.3 Piotrowski?Altmann定律
3.12 熵
3.12.1 靜態平均信息熵
3.12.2 極限熵
3.13 Yule 圖
3.14 Fuchs公式
3.15 使用度與通用度
3.15.1 使用度
3.15.2 通用度
3.16 本章小結
第4章 假設檢驗
4.1 假設檢驗的相關概念
4.1.1 假設檢驗的基本原理
4.1.2 假設的分類
4.1.3 檢驗統計量與臨界值
4.1.4 雙尾檢驗與單尾檢驗
4.1.5 假設檢驗的一般步驟
4.1.6 假設檢驗中的兩類錯誤
4.2 參數假設檢驗
4.2.1 正態分布
4.2.2 U檢驗
4.2.3 t檢驗
4.2.4 χ2檢驗
4.2.5 F檢驗
4.2.6 參數假設檢驗比較
4.3 非參數假設檢驗
4.3.1 χ2檢驗
4.3.2 秩和檢驗
4.3.3 非參數假設檢驗比較
4.4 本章小結
第5章 方差分析
5.1 方差分析的定義及基本思想
5.1.1 方差分析的定義
5.1.2 方差分析的基本思想
5.2 方差分析的基本概念和使用條件
5.2.1 方差分析中的基本概念
5.2.2 使用方差分析的條件
5.3 方差分析的類型和一般步驟
5.3.1 方差分析的類型
5.3.2 方差分析的一般步驟
5.4 單因素方差分析
5.4.1 各個因素水平間的樣本容量相同
5.4.2 各個因素水平間的樣本容量不完全相同
5.4.3 方差分析中的多重比較
5.5 雙因素方差分析
5.5.1 無重復雙因素方差分析
5.5.2 可重復雙因素方差分析
5.6 本章小結
第6章 文本聚類
6.1 文本聚類概述
6.1.1 文本聚類定義
6.1.2 文本聚類的流程
6.2 文本聚類中的數據
6.2.1 聚類分析中使用的數據結構
6.2.2 數據歸一化處理
6.3 相似度計算
6.3.1 文本相似度的計算
6.3.2 特征相似度的計算
6.4 聚類算法
6.4.1 層次聚類
6.4.2 划分聚類
6.4.3 划分聚類與層次聚類的聯系和區別
6.5 文本聚類性能評價
6.5.1 純度
6.5.2 歸一化互信息
6.5.3 精確度
6.5.4 F值
6.6 本章小結
第7章 文本分類
7.1 文本分類的定義
7.2 分類方法
7.2.1 基於知識工程的方法
7.2.2 基於機器學習的方法
7.3 分類步驟與流程
7.4 文本表示與特征選擇
7.4.1 特征項選擇
7.4.2 詞袋模型
7.4.3 向量空間模型
7.4.4 特征篩選與權重
7.5 向量相似度測量
7.6 分類模型
7.6.1 朴素貝葉斯(Naive Bayes)
7.6.2 k?最近鄰(k-Nearest Neighbor)
7.6.3 支持向量機(Support Vector Machines)
7.7 文本分類的評價
7.7.1 准確率、召回率
7.7.2 正確率、錯誤率
7.7.3 F值
7.7.4 微平均和宏平均
7.8 本章小結
第8章 R語言簡介
8.1 R語言的幫助文件
8.1.1 R的基本知識在線幫助
8.1.2 R程序中的關鍵字符及函數的在線幫助
8.2 R程序包
8.2.1 程序包的安裝
8.2.2 程序包的載入
8.3 R語言的數據結構及基本函數
8.3.1 R語言的對象類型
8.3.2 R語言的對象的建立
8.3.3 數值型向量的常用統計函數
8.4 數據的讀取和存儲
8.4.1 數據的讀取
8.4.2 數據的存儲
8.5 R的基本繪圖
8.5.1 餅圖(Pie Plot)
8.5.2 條形圖(Barplot)
8.5.3 直方圖(Hist)
8.5.4 折線圖(Matplot)
8.5.5 箱線圖(Boxplot)
8.5.6 散點圖(Scatter Diagram)
8.5.7 散點圖矩陣(Scatterplot Matrices)
8.6 假設檢驗
8.6.1 參數假設檢驗
8.6.2 非參數假設檢驗
8.7 方差分析
8.7.1 方差齊性檢驗
8.7.2 單因素方差分析
8.7.3 雙因素方差分析
8.8 本章小結
第9章 計算風格學研究
9.1 計算風格學研究使用的語言特征
9.1.1 字符方面
9.1.2 詞匯方面
9.1.3 句子方面
9.1.4 詞類方面
9.1.5 短語和語法結構方面
9.1.6 段落方面
9.2 計算風格學研究中常使用的方法
9.3 莫言與余華小說計算風格學研究
9.3.1 基於頻率的風格分析
9.3.2 假設檢驗的文本風格分析
9.3.3 基於文本聚類的風格分析
9.3.4 基於文本分類的風格分析
9.3.5 小結
9.4 本章小結
附錄 常用的統計數表
附表1 標准正態分布函數數值表
附表2 正態性檢驗統計量W的系數ai(n)的值
附表3 正態性檢驗統計量W的α分位數Wα表
附表4 正態性檢驗統計量Y的α分位數Yα表
附表5 t檢驗臨界值表
附表6 χ2檢驗臨界值表
附表7 F檢驗臨界值表
附表8 Wilcoxon秩和檢驗臨界值表
附表9 統計量H的分位數H1-α(r,f)表
附表10 多重比較q1-α(r,f)表
參考文獻
網路書店 類別 折扣 價格
  1. 新書
    79
    $265