Python自然語言處理實戰：核心技術與算法 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

3/26 新書到！ 3/19 新書到！ 3/14 新書到！ 12/12 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

Python自然語言處理實戰：核心技術與算法
( 簡體字)

作者：涂銘　劉祥　劉樹春　著類別：1. -> 程式設計 -> Python
　　　2. -> 程式設計 -> 自然語言

譯者：

出版社：機械工業出版社 3dWoo書號： 49087
詢問書籍請說出此書號！
【缺書】
NT售價： 345 元

出版日：5/1/2018

頁數：281

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787111597674

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：
為什么要寫這本書

這是一本關于中文自然語言處理（簡稱NLP）的書，NLP是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。NLP是一門融語言學、計算機科學、數學于一體的科學。本書偏重實戰，不僅系統介紹了NLP涉及的知識點，同時也教會讀者如何實際應用與開發。圍繞這個主題，本書從章節規劃到具體的講述方式，具有以下兩個特點：

第一個特點是本書的主要目標讀者定位為高校相關專業的大學生（統計學、計算機技術）、NLP愛好者，以及不具備專業數學知識的人群。NLP是一系列學科的集合體，其中包含了語言學、機器學習、統計學、大數據以及人工智能等方面，尤其依賴數學知識才能深入理解其原理。因此本書對專業知識的講述過程必須繞過復雜的數學證明，從問題的前因后果、創造者思考的過程、概率或幾何解釋代替數學解釋等一系列迂回的路徑去深入模型的本源，這可能多少會犧牲一些嚴謹性，但是卻能換來對大多數人更為友好的閱讀體驗。

第二個特點是本書是一本介紹中文自然語言處理的書，中文分詞相對于英文分詞來說更為復雜，讀者將通過例子來學習，體會到能夠通過實踐驗證自己想法的價值，我們提供了豐富的來自NLP領域的案例。在本書的內容編制上，從知識點背景介紹到原理剖析，輔以實戰案例，所有的代碼會在書中詳細列出或者上傳Github方便讀者下載與調試，幫助讀者快速上手掌握知識點，同時可以應用到后續實際的開發項目中。在實際項目章節中，選取目前在NLP領域中比較熱門的項目，將之前的知識點進行匯總，幫助讀者鞏固與提升。本書難度適中屬于入門和擴展級讀物。

讀者將學到什么

如何用NLP 與語言學的關鍵概念來描述和分析語言

NLP 中的數據結構和算法是怎樣的

自然語言處理目前主流的技術與方法論

信息檢索技術與大數據應用

讀者對象

1）統計學或相關IT專業學生

本書的初衷是面向相關專業的學生——大量基于理論知識的認知卻缺乏實戰經驗的人員，讓其在理論的基礎上深入了解。通過本書，學生可以跟隨本書的教程一起操作學習，達到對自己使用的人工智能工具、算法和技術知其然亦知其所以然的目的。

2）信息科學和計算機科學愛好者

本書是一部近代科技的歷史書，也是一部科普書，還可以作為一部人工智能思想和技術的教科書去閱讀。通過本書可以了解到行業先驅們在探索人工智能道路上所做出的努力和思考，理解他們不同的觀點和思路，有助于開拓自己的思維和視野。

3）人工智能相關專業的研究人員

本書具體介紹了NLP相關知識。通過本書可以了解理論知識，了解哪些才是項目所需的內容以及如何在項目中實現，能夠快速上手。

如何閱讀本書

本書內容針對NLP從以下幾個方面進行闡述：

第一部分的內容包括第1、2、11章，主要介紹了NLP所需要了解的Python科學包、正則表達式以及Solr檢索。

第二部分的內容包括第5～10章的內容，主要是介紹NLP相關的各個知識點。分別是：

第3～5章主要介紹了詞法分析層面的一些技術，這一部分是NLP技術的基礎，需要讀者熟練掌握。

第6章介紹了句法分析技術，該部分目前理論研究較多，工程實踐中使用門檻相對較高，且效果多是依賴結合業務知識進行規則擴展，因此本書未做深入探討，讀者了解即可。

第7章介紹了常用的向量化方法。這些方法常用于各種NLP任務的輸入，讀者需重點掌握。

第8章介紹了情感分析相關的概念、場景以及一般做情感分析的流程，情感分析在很多行業都有應用，所以需要讀者熟練掌握。

第9章介紹了機器學習的一些基本概念，重點突出NLP常用的分類算法、聚類算法，同時還介紹了幾個案例，這章是NLP的基礎內容，需要重點掌握。

第10章介紹了NLP中常用的深度學習算法，這些方法比較復雜，但是非常實用，需要讀者耐心學習。

除了以上內容外，以下信息是在本書中涉及特定內容的解釋和說明：

內容延伸。本書每個章節都有一定的內容延伸章節，其內容是對于有興趣深入研究的讀者推薦的資料或進一步了解的知識點，由于每個主題都涵蓋很多內容，因此本書僅在內容延伸中拋磚引玉，有興趣的讀者可以加以了解和學習。

相關知識點。本書很多章節中都有“相關知識點”的內容介紹，其對特定工具、知識、算法、庫等方面做了較為詳細的介紹，它們是本書的知識堡壘。

本章小結。每章的結尾都有“本章小結”，在小結中包含4部分內容。

內容小結。內容小結是有關本章內容的總結。

重點知識。重點知識是本章重點需要讀者掌握的知識和內容。

外部參考。外部參考是本章提到過但是無法詳細介紹的內容，都在外部參考中列出，有興趣的讀者可以基于比構建自己的知識圖譜。

應用實踐。基于本章內容推薦讀者在實踐中落地的建議。

提示。對于知識點的重要提示和應用技巧，相對“相關知識點”而言，每條提示信息的內容量較少，一般都是經驗類的總結。

注意。特定需要引起注意的知識，這些注意點是應用過程中需要避免的“大坑”。
致謝

在本書的撰寫過程中，得到了來自多方的指導、幫助和支持。

首先要感謝的是機械工業出版社華章公司的楊福川編輯，他在本書出版過程中給予我極大的支持和鼓勵，并為此書的撰寫提供了方向和思路指導。

其次要感謝黃英和周劍老師在自然語言處理項目和工作中提供的寶貴經驗和支持。

再次要感謝全程參與審核、校驗等工作的張錫鵬、孫海亮編輯以及其他背后默默支持的出版工作者，是他們的辛勤付出才讓本書得以順利面世。

最后感謝我的父母、家人和朋友，使得我有精力完成本書的編寫。

謹以此書獻給熱愛數據工作并為之奮斗的朋友們，愿大家身體健康、生活美滿、事業有成！

涂銘

2018年1月于上海

書籍初成，感慨良多。

在接受邀請撰寫本書時，從未想到過程如此艱辛。

感謝我的女友和家人的理解與支持，陪伴我度過寫書的漫長歲月。

感謝我的合著者——涂銘和劉樹春，與他們合作輕松愉快，給予我很多的理解和包容。

感謝參與審閱、校驗等工作的孫海亮老師等出版社工作人員，是他們在幕后的辛勤付出保證了本書的出版成功。

再次感謝一路陪伴的所有人！

劉祥

2018年1月于北京

首先要感謝我的兩位合作者——涂銘和劉祥，能夠相聚在一起寫書是緣分。當初聊到出版NLP入門書籍的想法時我們一拍即合，然而真正開始執筆才發現困難重重，業余時間常常被工作擠占，進度一拖再拖，在伙伴們的支持下，克服了拖延癥，順利完成本書。

特別感謝我的愛人和家人的悉心照料和支持。

感謝孫海亮老師、張錫鵬老師等出版社工作人員，沒有他們的辛勞付出就沒有本書保質保量的完成。

最后感謝幫我校稿的林博、謝雨飛、陳敏，謝謝他們在生活和工作上給我的支持與幫助。

最后，祝大家學習快樂。

劉樹春

2018年1月于上海

內容簡介：
自然語言處理是一門融語言學、計算機科學、數學于一體的學科，比較復雜，學習門檻高，但本書巧妙地避開了晦澀難懂的數學公式和證明，即便沒有數學基礎，也能零基礎入門。

本書專注于中文的自然語言處理，以Python及其相關框架為工具，以實戰為導向，詳細講解了自然語言處理的各種核心技術、方法論和經典算法。三位作者在人工智能、大數據和算法領域有豐富的積累和經驗，是阿里巴巴、前明略數據和七牛云的資深專家。同時，本書也得到了阿里巴巴達摩院高級算法專家、七牛云AI實驗室Leader等專家的高度評價和鼎力推薦。

全書一共11章，在邏輯上分為2個部分：

第一部分（第1、2、11章）

主要介紹了自然語言處理中需要了解的基礎知識、前置技術、Python科學包、正則表達式以及Solr檢索等。

第二部分（第3~10章）

第3~5章講解了詞法分析相關的技術，包括中文分詞技術、詞性標注與命名實體識別、關鍵詞提取算法等。

第6章講解了句法分析技術，該部分目前理論研究較多，工程實踐中使用門檻相對較高，且效果多是依賴結合業務知識進行規則擴展，因此本書未做深入探討。

第7章講解了常用的向量化方法，這些方法常用于各種NLP任務的輸入。

第8章講解了情感分析相關的概念、場景以及一般做情感分析的流程，情感分析在很多行業都有應用。

第9章介紹了機器學習的重要概念，重點突出了NLP常用的分類算法、聚類算法，同時還介紹了幾個案例。

第10章介紹了NLP中常用的一些深度學習算法，這些方法比較復雜，但是非常實用，需要讀者耐心學習。中文的自然語言處理，以Python及其相關框架為工具，以實戰為導向，詳細講解了自然語言處理的各種核心技術、方法論和經典算法。三位作者在人工智能、大數據和算法領域有豐富的積累和經驗，是阿里巴巴、前明略數據和七牛云的資深專家。同時，本書也得到了阿里巴巴達摩院高級算法專家、七牛云AI實驗室Leader等專家的高度評價和鼎力推薦。

全書一共11章，在邏輯上分為2個部分：

第一部分（第1、2、11章）

主要介紹了自然語言處理所需要了解的基礎知識、前置技術、Python科學包、正則表達式以及Solr檢索等。

第二部分（第5-10章）

第3~5章講解了詞法分析相關的技術，包括中文分詞技術、詞性標注與命名實體識別、關鍵詞提取算法等。

第6章講解了句法分析技術，該部分目前理論研究較多，工程實踐中使用門檻相對較高，且效果多是依賴結合業務知識進行規則擴展，因此本書未做深入探討。

第7章講解了常用的向量化方法，這些方法常用于各種NLP任務的輸入。

第8章講解了情感分析相關的概念、場景以及一般做情感分析的流程，情感分析在很多行業都有應用。

第9章介紹了機器學習的重要概念，同時重點突出NLP常用的分類算法、聚類算法，還介紹了幾個案例。

第10章節介紹了NLP中常用的一些深度學習算法，這些方法比較復雜，但是非常實用，需要讀者耐心學習。

目錄：
序一
序二
前言
第1章　NLP基礎 1
1.1　什么是NLP 1
1.1.1　NLP的概念 1
1.1.2　NLP的研究任務 3
1.2　NLP的發展歷程 5
1.3　NLP相關知識的構成 7
1.3.1　基本術語 7
1.3.2　知識結構 9
1.4　語料庫 10
1.5　探討NLP的幾個層面 11
1.6　NLP與人工智能 13
1.7　本章小結 15
第2章　NLP前置技術解析 16
2.1　搭建Python開發環境 16
2.1.1　Python的科學計算發行版——Anaconda 17
2.1.2　Anaconda的下載與安裝 19
2.2　正則表達式在NLP的基本應用 21
2.2.1　匹配字符串 22
2.2.2　使用轉義符 26
2.2.3　抽取文本中的數字 26
2.3　Numpy使用詳解 27
2.3.1　創建數組 28
2.3.2　獲取Numpy中數組的維度 30
2.3.3　獲取本地數據 31
2.3.4　正確讀取數據 32
2.3.5　Numpy數組索引 32
2.3.6　切片 33
2.3.7　數組比較 33
2.3.8　替代值 34
2.3.9　數據類型轉換 36
2.3.10　Numpy的統計計算方法 36
2.4　本章小結 37
第3章　中文分詞技術 38
3.1　中文分詞簡介 38
3.2　規則分詞 39
3.2.1　正向最大匹配法 39
3.2.2　逆向最大匹配法 40
3.2.3　雙向最大匹配法 41
3.3　統計分詞 42
3.3.1　語言模型 43
3.3.2　HMM模型 44
3.3.3　其他統計分詞算法 52
3.4　混合分詞 52
3.5　中文分詞工具——Jieba 53
3.5.1　Jieba的三種分詞模式 54
3.5.2　實戰之高頻詞提取 55
3.6　本章小結 58
第4章　詞性標注與命名實體識別 59
4.1　詞性標注 59
4.1.1　詞性標注簡介 59
4.1.2　詞性標注規范 60
4.1.3　Jieba分詞中的詞性標注 61
4.2　命名實體識別 63
4.2.1　命名實體識別簡介 63
4.2.2　基于條件隨機場的命名實體識別 65
4.2.3　實戰一：日期識別 69
4.2.4　實戰二：地名識別 75
4.3　總結 84
第5章　關鍵詞提取算法 85
5.1　關鍵詞提取技術概述 85
5.2　關鍵詞提取算法TF/IDF算法 86
5.3　TextRank算法 88
5.4　LSA/LSI/LDA算法 91
5.4.1　LSA/LSI算法 93
5.4.2　LDA算法 94
5.5　實戰提取文本關鍵詞 95
5.6　本章小結 105
第6章　句法分析 106
6.1　句法分析概述 106
6.2　句法分析的數據集與評測方法 107
6.2.1　句法分析的數據集 108
6.2.2　句法分析的評測方法 109
6.3　句法分析的常用方法 109
6.3.1　基于PCFG的句法分析 110
6.3.2　基于最大間隔馬爾可夫網絡的句法分析 112
6.3.3　基于CRF的句法分析 113
6.3.4　基于移進–歸約的句法分析模型 113
6.4　使用Stanford Parser的PCFG算法進行句法分析 115
6.4.1　Stanford Parser 115
6.4.2　基于PCFG的中文句法分析實戰 116
6.5　本章小結 119
第7章　文本向量化 120
7.1　文本向量化概述 120
7.2　向量化算法word2vec 121
7.2.1　神經網絡語言模型 122
7.2.2　C&W模型 124
7.2.3　CBOW模型和Skip-gram模型 125
7.3　向量化算法doc2vec/str2vec 127
7.4　案例：將網頁文本向量化 129
7.4.1　詞向量的訓練 129
7.4.2　段落向量的訓練 133
7.4.3　利用word2vec和doc2vec計算網頁相似度 134
7.5　本章小結 139
第8章　情感分析技術 140
8.1　情感分析的應用 141
8.2　情感分析的基本方法 142
8.2.1　詞法分析 143
8.2.2　機器學習方法 144
8.2.3　混合分析 144
8.3　實戰電影評論情感分析 145
8.3.1　卷積神經網絡 146
8.3.2　循環神經網絡 147
8.3.3　長短時記憶網絡 148
8.3.4　載入數據 150
8.3.5　輔助函數 154
8.3.6　模型設置 155
8.3.7　調參配置 158
8.3.8　訓練過程 159
8.4　本章小結 159
第9章　NLP中用到的機器學習算法 160
9.1　簡介 160
9.1.1　機器學習訓練的要素 161
9.1.2　機器學習的組成部分 162
9.2　幾種常用的機器學習方法 166
9.2.1　文本分類 166
9.2.2　特征提取 168
9.2.3　標注 169
9.2.4　搜索與排序 170
9.2.5　推薦系統 170
9.2.6　序列學習 172
9.3　分類器方法 173
9.3.1　樸素貝葉斯Naive Bayesian 173
9.3.2　邏輯回歸 174
9.3.3　支持向量機 175
9.4　無監督學習的文本聚類 177
9.5　文本分類實戰：中文垃圾郵件分類 180
9.5.1　實現代碼 180
9.5.2　評價指標 187
9.6　文本聚類實戰：用K-means對豆瓣讀書數據聚類 190
9.7　本章小結 194
第10章　基于深度學習的NLP算法 195
10.1　深度學習概述 195
10.1.1　神經元模型 196
10.1.2　激活函數 197
10.1.3　感知機與多層網絡 198
10.2　神經網絡模型 201
10.3　多輸出層模型 203
10.4　反向傳播算法 204
10.5　最優化算法 208
10.5.1　梯度下降 208
10.5.2　隨機梯度下降 209
10.5.3　批量梯度下降 210
10.6　丟棄法 211
10.7　激活函數 211
10.7.1　tanh函數 212
10.7.2　ReLU函數 212
10.8　實現BP算法 213
10.9　詞嵌入算法 216
10.9.1　詞向量 217
10.9.2　word2vec簡介 217
10.9.3　詞向量模型 220
10.9.4　CBOW和Skip-gram模型 222
10.10　訓練詞向量實踐 224
10.11　樸素Vanilla-RNN 227
10.12　LSTM網絡 230
10.12.1　LSTM基本結構 230
10.12.2　其他LSTM變種形式 234
10.13　Attention機制 236
10.13.1　文本翻譯 237
10.13.2　圖說模型 237
10.13.3　語音識別 239
10.13.4　文本摘要 239
10.14　Seq2Seq模型 240
10.15　圖說模型 242
10.16　深度學習平臺 244
10.16.1　Tensorflow 245
10.16.2　Mxnet 246
10.16.3　PyTorch 246
10.16.4　Caffe 247
10.16.5　Theano 247
10.17　實戰Seq2Seq問答機器人 248
10.18　本章小結 254
第11章　Solr搜索引擎 256
11.1　全文檢索的原理 257
11.2　Solr簡介與部署 258
11.3　Solr后臺管理描述 263
11.4　配置schema 267
11.5　Solr管理索引庫 270
11.5.1　創建索引 270
11.5.2　查詢索引 276
11.5.3　刪除文檔 279
11.6　本章小結 281

序：