-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

語音識別基本法:Kaldi實踐與探索

( 簡體 字)
作者:湯志遠 等類別:1. -> 程式設計 -> 綜合
譯者:
出版社:電子工業出版社語音識別基本法:Kaldi實踐與探索 3dWoo書號: 54205
詢問書籍請說出此書號!

缺書
NT售價: 445

出版日:2/1/2021
頁數:256
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121404788
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

推薦序
人與人之間最主要的交流方式是語言。要實現人與機器之間更便捷的交互,語言是一種理想的方案。語音識別,是實現這個目標的關鍵一環。
從當下整個人工智能行業來看,語音識別也是發展迅猛且接近成熟的領域之一。由于其應用廣泛,所以社會對語音技術人才的需求相當迫切。不管是面向學校教育還是自學閱讀,系統而通俗地介紹語音技術的書籍都會擁有相當多的讀者。
這本書對語音識別的基本概念和工作流程做了詳細的介紹,并涉及語音識別在實際應用中的若干問題和相關前沿課題。對于不同的應用場景,需要因地制宜、靈活應對,很多經驗需要在實際應用中積累。
為此, 本書作者在講解過程中還搭配使用了一種開源語音工具——Kaldi, 有助于讀者從無到有地搭建一套語音識別系統, 通過豐富生動的實踐,深化對概念、理論和算法的理解。
書中比較注重概念的直觀理解和可操作性,盡量避免了繁重的論述,適合初學者快速了解整個語音研究領域的全景圖,并且較為深入、具體地了解語音識別技術。相信很多讀者會從書中獲得啟發和切實的幫助。
本書作者之一湯志遠是我的學生,他讀博時曾到清華大學的語音和語言技術中心交流學習,從零開始進入語音研究領域,這本書恰恰也可以看作他對整個學習過程的總結。我很高興看到這期間他的進步和成長。

中國科學院院士
2020年10月1 日
前言
幾年來,實驗室接收了很多語音領域的新人,有在校讀書的學生,也有工作過一段時間的工程師。剛開始我們傳遞語音技術的方式僅限于口口相傳,慢慢地我們意識到這種方式的可復制性太低,費時費力,而且沒有體系,不利于長久的知識積淀和傳承。于是,我們有了寫一本語音技術筆記的想法,以供后來的新手自學,也可以作為實驗室積累知識和經驗的載體。
獨樂樂不如眾樂樂,從一開始,我們就將語音技術筆記共享在實驗室主頁上,供實驗室以外的人閱讀和討論,每每有新版本時也及時發布。這樣做,一方面可以與更多的人分享技術經驗,另一方面也希望同仁們能夠反饋一些好的建議。
寫作過程中有過多次中斷,但這本筆記還是逐漸豐滿起來,我們覺得可以將其裝訂成書,傳播出去,讓更多讀者受益,也是對這本筆記所做的一個儀式性“轉正”,于是有了這本《語音識別基本法:Kaldi 實踐與探索》。
語音識別所處理的對象是非常抽象的語音信號,這種信號看不到、摸不著、轉瞬即逝,卻包含極其豐富的信息。從這種語音信號中識別出發音內容,會涉及信號處理、語音學、語言學、模式識別、信息論等多層次的復雜知識,如果沒有從一開始就形成一個清晰的概念框架,就會走很多彎路。
本書的初衷就是使語音初學者能夠快速地掌握語音識別技術的基本概念和流程,同時也能夠對語音識別在實際應用中的問題和相關前沿課題有所了解。本書的幾位主要作者都是從學校畢業不久的青年學者,對語音學習中的入門困難有切身體會,也希望把解決這些困難的思路和方法傳遞給其他初學者。
本書的內容由淺入深,適合零基礎的讀者從頭開始學習。為了進一步地理解本書的內容,讀者需要對線性代數、概率論、信號處理及機器學習(特別是深度學習)等基礎知識有一定了解。
同時,為了順利地使用Kaldi 工具進行實驗,讀者需要熟悉Linux 系統的基本操作。
這本書的順利出版是多方共同努力的結果。感謝前期對這本書進行材料收集、整理、修訂的同學,包括(排名不分先后):杜文強、吳嘉瑤、齊詔娣、于嘉威、董文偉、周子雅、孫浩然、李開誠、王雪儀、李恪純等。感謝電子工業出版社有限公司的南海寶老師及其他同事的辛勤付出。同時,作者水平有限,書中難免會有錯誤,還請讀者朋友們指正。

作者
于清華大學
2020年10月1 日
內容簡介:

語音是新一代人機交互的方式,語音識別是實現這一方式的關鍵環節,也是實現人工智能的基本步驟之一。本書結合當下使用廣泛的Kaldi工具,對語音識別的基本概念和流程進行了詳細的講解,包括GMM-HMM、DNN-HMM、端到端等常用結構,并探討了語音識別在實際應用中的問題,包括說話人自適應、噪聲對抗與環境魯棒性、小語種語音識別、關鍵詞識別與嵌入式應用等方面,也對語音技術的相關前沿課題進行了介紹,包括說話人識別、語種識別、情緒識別、語音合成等方向。本書的寫作以讓讀者快速、直觀地理解概念為目標,只展示最基本的數學公式,同時本書注重理解與實踐相結合,在對語音技術各個概念的講解中都展示了相應的Kaldi語音處理命令,以便讓讀者進一步融會貫通。本書適用于語音識別及相關技術的初學者、在校學生,以及基于Kaldi進行產品研發的同仁,也可以作為語音從業者的參考書目。
目錄:

1 語音是什么 2
1.1 大音希聲 2
1.2 產生語音 4
1.3 看見語音 5
1.4 小結 8
2 語音識別方法 9
2.1 總體思路 10
2.2 聲學模型GMM-HMM 12
2.2.1 HMM 12
2.2.2 GMM 14
2.2.3 訓練 15
2.3 聲學模型DNN-HMM 16
2.4 語言模型 18
2.4.1 N-Gram 18
2.4.2 RNN語言模型 18
2.5 解碼器 20
2.6 端到端結構 22
2.6.1 CTC 23
2.6.2 RNN-T 26
2.6.3 Attention 27
2.6.4 Self-Attention 29
2.6.5 CTC+Attension 31
2.7 開源工具和硬件平臺 32
2.7.1 深度學習平臺 32
2.7.2 語音識別工具 33
2.7.3 硬件加速 34
2.8 小結 36
3 完整的語音識別實驗 37
3.1 語音識別實驗的步驟 38
3.2 語音識別實驗的運行 46
3.3 其他語音任務案例 47
3.4 小結 47
4 前端處理 48
4.1 數據準備 48
4.2 聲學特征提取 52
4.2.1 預加重(Pre-Emphasis) 54
4.2.2 加窗(Windowing) 54
4.2.3 離散傅里葉變換(DFT) 55
4.2.4 FBank特征 56
4.2.5 MFCC特征 57
4.3 小結 58
5 訓練與解碼 59
5.1 GMM-HMM基本流程 60
5.1.1 訓練 60
5.1.2 解碼 61
5.1.3 強制對齊 62
5.2 DNN-HMM基本流程 63
5.3 DNN配置詳解 64
5.3.1 component和component-node 65
5.3.2 屬性與描述符 66
5.3.3 不同組件的使用方法 66
5.3.4 LSTM配置范例 76
5.4 小結 81
6 說話人自適應 84
6.1 什么是說話人自適應 84
6.2 特征域自適應與聲道長度規整 85
6.3 聲學模型自適應:HMM-GMM系統 87
6.3.1 基于MAP的自適應方法 88
6.3.2 基于MLLR的自適應方法 91
6.4 聲學模型自適應:DNN系統 93
6.4.1 模型參數自適應學習 93
6.4.2 基于說話人向量的條件學習 94
6.5 領域自適應 95
6.6 小結 95
7 噪聲對抗與環境魯棒性 97
7.1 環境魯棒性簡介 97
7.2 前端信號處理方法 98
7.2.1 語音增強方法 99
7.2.2 特征域補償方法 103
7.2.3 基于DNN的特征映射 106
7.3 后端模型增強方法 108
7.3.1 簡單模型增強方法 108
7.3.2 模型自適應方法 109
7.3.3 多場景學習和數據增強方法 109
7.4 小結 110
8 小語種語音識別 111
8.1 小語種語音識別面臨的主要困難 112
8.2 基于音素共享的小語種語音識別 113
8.3 基于參數共享的小語種語音識別方法 118
8.4 其他小語種語音識別方法 121
8.4.1 Grapheme 建模 121
8.4.2 網絡結構與訓練方法 121
8.4.3 數據增強 122
8.5 小語種語音識別實踐 122
8.5.1 音頻數據采集 122
8.5.2 文本數據采集 122
8.5.3 文本正規化 123
8.5.4 發音詞典設計 123
8.6 小結 123
9 關鍵詞識別與嵌入式應用 125
9.1 基本概念 125
9.2 評價指標 126
9.3 實現方法 129
9.3.1 總體框架 129
9.3.2 基于LVCSR的KWS系統 130
9.3.3 基于示例的KWS 132
9.3.4 端到端KWS 133
9.3.5 滑動窗口 133
9.4 嵌入式應用 134
9.4.1 模型壓縮 134
9.4.2 遷移學習 136
9.4.3 網絡結構搜索與設計 137
9.5 小結 137
10 說話人識別 140
10.1 什么是說話人識別 140
10.1.1 基本概念 140
10.1.2 技術難點 143
10.1.3 發展歷史 143
10.2 基于知識驅動的特征設計 144
10.3 基于線性高斯的統計模型 147
10.3.1 高斯混合模型-通用背景模型 147
10.3.2 因子分析 150
10.4 基于數據驅動的特征學習 154
10.4.1 模型結構 156
10.4.2 訓練策略 157
10.4.3 多任務學習 157
10.5 基于端到端的識別模型 158
10.6 小結 160
11 語種識別 161
11.1 什么是語種識別 161
11.2 語言的區分性特征 163
11.3 統計模型方法 165
11.3.1 基于聲學特征的識別方法 165
11.3.2 基于發音單元的語種識別方法 167
11.4 深度學習方法 170
11.4.1 基于DNN的統計模型方法 170
11.4.2 基于DNN的端到端建模 172
11.4.3 基于DNN的語言嵌入 176
11.5 Kaldi中的語種識別 178
11.6 小結 180
12 語音情緒識別 182
12.1 什么是語音情緒識別 182
12.2 語音情緒模型 185
12.2.1 離散情緒模型 186
12.2.2 連續情緒模型 186
12.3 語音情緒特征提取 187
12.3.1 語音情緒識別中的典型特征 187
12.3.2 局部特征與全局特征 190
12.4 語音情緒建模 192
12.4.1 離散情緒模型 192
12.4.2 連續情緒模型 195
12.5 深度學習方法 196
12.5.1 基礎DNN方法 196
12.5.2 特征學習 198
12.5.3 遷移學習 200
12.5.4 多任務學習 200
12.6 小結 201
13 語音合成 203
13.1 激勵-響應模型 204
13.2 參數合成 207
13.3 拼接合成 208
13.4 統計模型合成 210
13.5 神經模型合成 212
13.6 基于注意力機制的合成系統 214
13.7 小結 216
參考文獻 217
索引 243
序: