本書主要介紹基於互聯網場景的互動式即時語音處理流程,內容涉及智慧語音助手、智慧音箱、音/視訊會議等,具體包括即時語音信號處理、數位音效、網路傳輸編/解碼和語音喚醒識別四部分。
在闡述各部分內容時,本書從基本概念和原理入手,將理論和實踐相結合,並細緻分析了極具商業價值的實例,以説明讀者瞭解相關演算法在工程上是如何實現的。另外,為便於有興趣的讀者快速進行演算法驗證並將其改進和應用到實際的項目中,作者也開源了書中演算法的源碼。
對於語音技術零基礎的讀者,建議按照本書的編排順序閱讀;本書也適合有一定語音理論基礎的高等院校相關專業本科生和研究生;對從事語音相關產品的非技術人員來說,可從本書瞭解語音處理的主要內容和技術難點,對從事語音工程開發的技術人員來說,本書開源了一些極具商業價值的源碼工程,具有較高的參考價值。
作者介紹
葛世超,碩士,畢業于西安電子科技大學雷達國防重點實驗室,先後任職于阿裡巴巴、rokid和Zoom,從事語音演算法工作。
呂強,學士,吉林大學通信工程專業畢業,原微鯨電視系統軟體音訊專家。
錢思沖,武漢理工大學博士,2016年至2018年在rokid從事麥克風陣列信號研究,目前主要研究語音信號盲源分離。
張博倫,碩士研究生,畢業于中國海洋大學海底科學與探測技術教育部重點實驗室。畢業後先後從事水聲、音訊信號處理等工作。
張碩,畢業于西安電子科技大學和法國高等電力學院,先後任職於諾基亞和Rokid,從事語音演算法相關工作。
呂強,學士,吉林大學通信工程專業畢業,原微鯨電視系統軟體音訊專家。
錢思沖,武漢理工大學博士,2016年至2018年在rokid從事麥克風陣列信號研究,目前主要研究語音信號盲源分離。
張博倫,碩士研究生,畢業于中國海洋大學海底科學與探測技術教育部重點實驗室。畢業後先後從事水聲、音訊信號處理等工作。
張碩,畢業于西安電子科技大學和法國高等電力學院,先後任職於諾基亞和Rokid,從事語音演算法相關工作。
目錄
緒論1
第1章 信號處理 7
1.1 數位和類比頻率 7
1.2 離散傅裡葉變換8
1.2.1 實數DFT 9
1.2.2 複數DFT 10
1.2.3 負頻分量 10
1.2.4 DFT變換性質 10
1.3 FFT 11
1.3.1 FFT 結果舉例 12
1.3.2 實信號FFT 13
1.3.3 短時傅裡葉變換 14
1.3.4 STFT語音窗函數選擇 14
1.4 重疊相加法和重疊保留法 16
1.4.1 OLA 17
1.4.2 OLS 19
1.5 加權重疊相加法 21
1.5.1 WOLA 計算過程 22
1.5.2 WOLA 窗函數選擇 22
1.6 濾波器組 23
1.7 語音預加重 27
1.8 高斯分佈 27
1.8.1 單高斯分佈 27
1.8.2 多維高斯分佈 29
1.9 HMM模型 31
1.10 卡爾曼濾波 32
第2章 發音機理和器件 34
2.1 語音的產生和接收 34
2.1.1 語音產生機理 34
2.1.2 發聲模型 36
2.1.3 發音單位 36
2.1.4 發音分類 37
2.1.5 聲音接收 37
2.1.6 聲音傳播 38
2.2 揚聲器 38
2.2.1 電學性能 38
2.2.2 聲學性能 39
2.2.3 底噪 40
2.2.4 頻響特性 41
2.2.5 THD+N POUT 41
2.2.6 電壓(功率)和失真 42
2.3 麥克風 42
2.3.1 麥克風性能指標 42
2.3.2 麥克風的選擇 43
2.4 結構設計 45
2.5 音訊設備 46
2.6 聲學測試 49
第3章 語音端點檢測 59
3.1 特徵選取 59
3.2 判決準則 61
3.2.1 門限 61
3.3 VAD 實例 63
3.4 語音/非語音幀的初始參數 75
第4章 單通道降噪 79
4.1 譜減法 79
4.2 維納濾波 84
4.3 子空間降噪 86
4.4 WebRTC 單通道降噪實現 87
4.5 深度學習降噪 101
第5章 聲學回聲消除 106
5.1 回聲消除原理 106
5.2 自我調整濾波器 108
5.3 WebRTC 回聲消除演算法 113
5.4 Speex 回聲消除演算法 128
第6章 聲源定位 147
6.1 GCC演算法 147
6.2 SRP-PHAT演算法 149
6.3 MUSIC演算法 150
6.4 TOPS 演算法 152
6.5 FRIDA演算法 154
6.6 後處理抗噪 155
第7章 波束形成技術 162
7.1 麥克風陣列 163
7.2 常見波束形成方法 168
7.3 WebRTC 波束形成實例 174
7.4 後置濾波(Post-filtering) 187
第8章 盲源分離 196
8.1 基本概念及數學預備知識 196
8.2 盲語音分離預處理——PCA 199
8.3 頻域獨立成分分析法——FDICA 200
8.4 後置濾波處理 205
8.5 GSC 與ICA聯合估計 209
第9章 音效處理 214
9.1 聲道的分類 214
9.2 後端音效處理 217
第10章 語音編/解碼 227
10.1 LPC 編碼 230
10.2 SILK編/解碼 231
10.3 opus 編/解碼概覽 239
10.4 語音品質評估 247
第11章 語音網路傳輸 251
11.1 擁塞控制 252
11.2 NetEQ 266
第12章 語音喚醒 278
12.1 語音喚醒技術簡介 278
12.2 特徵提取 279
12.3 模型結構 284
12.4 計算加速 292
第13章 語音辨識 301
13.1 語音特徵提取 303
13.2 聲學模型 306
13.3 語言模型 310
13.4 YES 和NO識別實例 312
13.5 Kaldi 中文語音辨識 321
13.6 DeepSpeech 語音辨識 324
附錄A 本書涉及的專業術語 331
第1章 信號處理 7
1.1 數位和類比頻率 7
1.2 離散傅裡葉變換8
1.2.1 實數DFT 9
1.2.2 複數DFT 10
1.2.3 負頻分量 10
1.2.4 DFT變換性質 10
1.3 FFT 11
1.3.1 FFT 結果舉例 12
1.3.2 實信號FFT 13
1.3.3 短時傅裡葉變換 14
1.3.4 STFT語音窗函數選擇 14
1.4 重疊相加法和重疊保留法 16
1.4.1 OLA 17
1.4.2 OLS 19
1.5 加權重疊相加法 21
1.5.1 WOLA 計算過程 22
1.5.2 WOLA 窗函數選擇 22
1.6 濾波器組 23
1.7 語音預加重 27
1.8 高斯分佈 27
1.8.1 單高斯分佈 27
1.8.2 多維高斯分佈 29
1.9 HMM模型 31
1.10 卡爾曼濾波 32
第2章 發音機理和器件 34
2.1 語音的產生和接收 34
2.1.1 語音產生機理 34
2.1.2 發聲模型 36
2.1.3 發音單位 36
2.1.4 發音分類 37
2.1.5 聲音接收 37
2.1.6 聲音傳播 38
2.2 揚聲器 38
2.2.1 電學性能 38
2.2.2 聲學性能 39
2.2.3 底噪 40
2.2.4 頻響特性 41
2.2.5 THD+N POUT 41
2.2.6 電壓(功率)和失真 42
2.3 麥克風 42
2.3.1 麥克風性能指標 42
2.3.2 麥克風的選擇 43
2.4 結構設計 45
2.5 音訊設備 46
2.6 聲學測試 49
第3章 語音端點檢測 59
3.1 特徵選取 59
3.2 判決準則 61
3.2.1 門限 61
3.3 VAD 實例 63
3.4 語音/非語音幀的初始參數 75
第4章 單通道降噪 79
4.1 譜減法 79
4.2 維納濾波 84
4.3 子空間降噪 86
4.4 WebRTC 單通道降噪實現 87
4.5 深度學習降噪 101
第5章 聲學回聲消除 106
5.1 回聲消除原理 106
5.2 自我調整濾波器 108
5.3 WebRTC 回聲消除演算法 113
5.4 Speex 回聲消除演算法 128
第6章 聲源定位 147
6.1 GCC演算法 147
6.2 SRP-PHAT演算法 149
6.3 MUSIC演算法 150
6.4 TOPS 演算法 152
6.5 FRIDA演算法 154
6.6 後處理抗噪 155
第7章 波束形成技術 162
7.1 麥克風陣列 163
7.2 常見波束形成方法 168
7.3 WebRTC 波束形成實例 174
7.4 後置濾波(Post-filtering) 187
第8章 盲源分離 196
8.1 基本概念及數學預備知識 196
8.2 盲語音分離預處理——PCA 199
8.3 頻域獨立成分分析法——FDICA 200
8.4 後置濾波處理 205
8.5 GSC 與ICA聯合估計 209
第9章 音效處理 214
9.1 聲道的分類 214
9.2 後端音效處理 217
第10章 語音編/解碼 227
10.1 LPC 編碼 230
10.2 SILK編/解碼 231
10.3 opus 編/解碼概覽 239
10.4 語音品質評估 247
第11章 語音網路傳輸 251
11.1 擁塞控制 252
11.2 NetEQ 266
第12章 語音喚醒 278
12.1 語音喚醒技術簡介 278
12.2 特徵提取 279
12.3 模型結構 284
12.4 計算加速 292
第13章 語音辨識 301
13.1 語音特徵提取 303
13.2 聲學模型 306
13.3 語言模型 310
13.4 YES 和NO識別實例 312
13.5 Kaldi 中文語音辨識 321
13.6 DeepSpeech 語音辨識 324
附錄A 本書涉及的專業術語 331
網路書店
類別
折扣
價格
-
新書$594