-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Java中文文本信息處理---從海量到精準

( 簡體 字)
作者:羅剛 張子憲 崔智杰類別:1. -> 程式設計 -> JAVA -> Java
譯者:
出版社:清華大學出版社Java中文文本信息處理---從海量到精準 3dWoo書號: 46870
詢問書籍請說出此書號!

缺書
NT售價: 280

出版日:5/1/2017
頁數:396
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302469360
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

  “前門到了,請在后門下車。”把“前門”標注成地名就容易理解這句話了。從種地到買菜、買房、養生保健以及投資理財等,都可以用到中文分詞等文本信息挖掘技術。
  各行業都在構建越來越復雜的軟件系統,很多系統都會用到文本處理技術。但是即使在計算機專業,也有很多人對文本信息處理相關技術不太了解。其實,學習相關技術的門檻并不高。而本書就是為了普及相關開發而做的一次新的嘗試,其中也結合了作者自己的研究成果,希望為推動相關應用的發展做出貢獻。
  本書借助計算機語言Java實現中文文本信息處理,試圖通過恰當的數據結構和算法來應對一些常見的文本處理任務。相關代碼可以從清華大學出版社的網站下載。
  本書的第1章到第3章介紹了相關的Java開發基礎。第4章介紹處理文本所用到的有限狀態機基本概念和具體實現。第5章介紹相關的基礎數據結構。第6章到第9章介紹中文分詞原理與實現。
  書中的很多內容來源于作者的開發和教學實踐。作者的實踐經驗還體現在相關的其他書中,如《自己動手寫搜索引擎》、《自然語言處理原理與技術實現》、《自己動手寫網絡爬蟲》、《使用C#開發搜索引擎》、《解密搜索引擎技術實戰》等。相對于作者編寫的其他書籍,本書更加注意零基礎入門。
  學習是個循序漸進的過程。可以在讀者群中共同學習。群體往往比單個人有更多的智慧產出。為了構建出更好的技術群體,請加讀者QQ群(453406621)交流。希望快速入門的讀者也可以參加相關培訓。這本書最開始是為一位從蘇州專門來北京現場學習的學員入門中文分詞而編寫。感謝他為編寫本書提供的幫助。
  也希望通過本書能結識更多的同行。有您真誠的建議,我們會發展得更好。例如,通過與同行的交流,讓我們的數量、日期等量化信息的提取工具更加成熟。當前,語義分析等文本處理技術仍然需要更深入的發展,來更好地支持各行業的智能軟件開發。
  本書由羅剛、張子憲、崔智杰編著,參與本書編寫的還有石天盈、張繼紅、童曉軍,在此一并表示感謝。感謝開源軟件和我們的家人、關心我們的老師和朋友、創業伙伴,以及選擇獵兔自然語言處理軟件的客戶多年來的支持。
  
  
  
  編 者


內容簡介:

本書以讓零基礎的讀者通過自學完成一個中文分詞系統為目標,從Java基礎語法開始講解,然后介紹文本處理相關的數據結構和算法,最后介紹如何實現文本切分和詞性標注。
本書是介紹業界熱門的以Java開發中文分詞技術的唯一書籍。本書選取相關領域的經典內容,深入理解和挖掘,也綜合了實踐性強的創新想法,適合對軟件開發感興趣的青少年或者大學生閱讀和學習。
目錄:

第1章Java軟件開發 1

1.1背景 3

1.1.1好身體是一切成功的保證 3

1.1.2路線圖 4

1.1.3Java 4

1.2軟件工具 7

1.2.1搜索引擎 7

1.2.2Windows命令行 8

1.2.3機器翻譯 9

1.2.4Linux 10

1.2.5源代碼比較工具 11

1.3Java基礎 11

1.3.1準備開發環境 11

1.3.2Eclipse 13

1.4本章小結 17

第2章結構化程序設計 19

2.1基本數據類型 19

2.2變量 20

2.2.1表達式執行順序 22

2.2.2簡化的運算符 23

2.2.3常量 24

2.3控制結構 25

2.3.1語句 25

2.3.2判斷條件 25

2.3.3三元運算符 27

2.3.4條件判斷 27

2.3.5循環 31

2.4方法 36

2.4.1main方法 41

2.4.2遞歸調用 41

2.4.3方法調用棧 42

2.5數組 42

2.5.1數組求和 45

2.5.2計算平均值舉例 45

2.5.3前趨節點數組 46

2.5.4快速復制 47

2.5.5循環不變式 49

2.6字符串 50

2.6.1字符編碼 52

2.6.2格式化 53

2.6.3增強switch語句 54

2.7數值類型 54

2.7.1類型轉換 58

2.7.2整數運算 59

2.7.3數值運算 60

2.7.4位運算 61

2.8安裝Java 69

2.8.1服務器端安裝 69

2.8.2自動安裝Java 70

2.9提高代碼質量 72

2.9.1代碼整潔 72

2.9.2單元測試 72

2.9.3調試 73

2.9.4重構 73

2.10本章小結 74

第3章面向對象編程 77

3.1類和對象 77

3.1.1類 78

3.1.2類方法 78

3.1.3類變量 79

3.1.4實例變量 79

3.1.5構造方法 82

3.1.6對象 84

3.1.7實例方法 87

3.1.8調用方法 89

3.1.9內部類 89

3.1.10克隆 90

3.1.11結束 91

3.2繼承 92

3.2.1重寫 92

3.2.2繼承構造方法 94

3.2.3接口 95

3.2.4匿名類 98

3.2.5類的兼容性 98

3.3封裝 98

3.4重載 99

3.5靜態 100

3.5.1靜態變量 100

3.5.2靜態類 100

3.5.3修飾類的關鍵詞 101

3.6枚舉類型 101

3.7集合類 105

3.7.1動態數組 105

3.7.2散列表 106

3.7.3泛型 109

3.7.4GoogleGuava集合 112

3.7.5類型擦除 112

3.7.6遍歷 114

3.7.7排序 117

3.7.8lambda表達式 119

3.8比較 119

3.8.1Comparable接口 119

3.8.2比較器 120

3.9SOLID原則 122

3.10異常 123

3.10.1斷言 123

3.10.2Java中的異常 124

3.10.3從方法中拋出異常 126

3.10.4處理異常 128

3.10.5正確使用異常 130

3.11字符串對象 132

3.11.1字符對象 135

3.11.2查找字符串 135

3.11.3修改字符串 136

3.11.4格式化 136

3.11.5常量池 137

3.11.6關于對象不可改變 139

3.12日期 140

3.13大數對象 141

3.14給方法傳參數 142

3.14.1基本類型和對象 143

3.14.2重載 145

3.15文件操作 146

3.15.1文本文件 146

3.15.2二進制文件 149

3.15.3文件位置 152

3.15.4讀寫Unicode編碼的文件 153

3.15.5文件描述符 155

3.15.6對象序列化 156

3.15.7使用IOUtils 160

3.16Java類庫 161

3.16.1使用Java類庫 162

3.16.2構建JAR包 163

3.16.3使用Ant 167

3.16.4生成JavaDoc 167

3.16.5ClassLoader 168

3.16.6反射 172

3.17編程風格 173

3.17.1命名規范 173

3.17.2流暢接口 174

3.17.3日志 175

3.18IDEA 181

3.19實例 181

3.20本章小結 183

第4章處理文本 185

4.1字符串操作 185

4.2有限狀態機 188

4.2.1從NFA到DFA 190

4.2.2DFA 194

4.2.3DFA交集 197

4.2.4DFA并集 203

4.2.5有限狀態轉換 204

4.3本章小結 207

第5章數據結構 209

5.1鏈表 209

5.2樹算法 210

5.2.1標準Trie樹 211

5.2.2鏈表Trie樹 221

5.2.3二叉搜索樹 223

5.2.4數組形式的二叉樹 227

5.2.5三叉Trie樹 233

5.2.6三叉Trie樹交集 244

5.2.7Trie樹詞典 245

5.2.8平衡Trie樹 249

5.2.9B樹 250

5.3雙數組Trie 251

5.4隊列 257

5.4.1鏈表實現的隊列 257

5.4.2優先隊列 258

5.4.3找出前k個最大的元素 261

5.5堆棧 262

5.6雙端隊列 264

5.7散列表 268

5.7.1快速查找的散列表 269

5.7.2HashMap 272

5.7.3應用散列表 276

5.7.4開放式尋址 279

5.7.5布隆過濾器 282

5.7.6SimHash 284

5.8圖 286

5.8.1表示圖 287

5.8.2遍歷圖 295

5.9大數據 297

5.10本章小結 297

第6章算法 299

6.1貪婪法 299

6.2分治法 301

6.3動態規劃 302

6.4在中文分詞中使用動態規劃算法 303

6.5本章小結 310

第7章最長匹配分詞 311

7.1正向最大長度匹配法 312

7.2逆向最大長度匹配法 316

7.3處理未登錄串 320

7.4開發分詞 324

7.5本章小結 326

第8章概率語言模型的分詞方法 327

8.1一元模型 328

8.2整合基于規則的方法 334

8.3表示切分詞圖 336

8.4形成切分詞圖 342

8.5數據基礎 344

8.5.1文本形式的詞表 344

8.5.2數據庫詞表 348

8.6改進一元模型 349

8.7二元詞典 352

8.8完全二叉數組 357

8.9三元詞典 360

8.10N元模型 361

8.11N元分詞 362

8.12生成語言模型 368

8.13評估語言模型 369

8.14概率分詞的流程與結構 370

8.15本章小結 371

第9章詞性標注 373

9.1數據基礎 376

9.2隱馬爾科夫模型 377

9.3存儲數據 385

9.4統計數據 390

9.5整合切分與詞性標注 392

9.6知識型詞性序列標注 396

9.7本章小結 396

參考資源 397

后記 398

序: