-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

白話大數據與機器學習

( 簡體 字)
作者:高揚 衛崢 尹會生 著類別:1. -> 程式設計 -> 大數據
   2. -> 程式設計 -> 機器學習
譯者:
出版社:機械工業出版社白話大數據與機器學習 3dWoo書號: 44679
詢問書籍請說出此書號!

缺書
NT售價: 345

出版日:7/1/2016
頁數:326
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111538479
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

為什么要寫這本書

不知從何時開始我們已周身沒入大數據時代的潮流,不知不覺被卷入了大數據時代。

無論是每天上網看網頁、聊QQ、聊微信,或者登錄銀行、網購、買票,或者出行、投宿,甚至是出入任何公眾場合、駕車、用水用電……我們無時無刻不在生產著各種數據。而同時我們也在消費著其他人生產的數據,我們使用的眾多家電產品,每一個設計細節都融入了設計者對用戶體驗數據的調查與分析;我們使用的每一部手機、每一臺電腦,每一個部件的產出都融入著多得無法想象的指標數據控制下的生產與監控;我們訪問的每一個網頁、每一個軟件,每一次享受到的貼心的產品改動和服務的升級,無不浸透著無數的數據匯集與精細的分析和反饋。這是一場慢慢到來的、貫穿所有產業的革命,這是一次潤物細無聲的各行業精耕細作的開端。

不管我們是不是愿意,不管我們有沒有意識到,我們現在已經身處大數據時代的奇點,而未來要迎接的是大數據奇點爆炸給我們帶來的沖擊力。我們需要力量來駕馭浪里的航船,我們需要乘風破浪前進的動力。

在這一次遠航中,我們不必擔心自己的能力水平無法感知數據這種磅?之力的氣魄,不必擔心晦澀難懂的公式定理會讓我們感到阻力。

請相信我,這是一本通俗易懂的大數據圖書,這是一本輕松愉悅的數據挖掘和機器學習的讀本,這是一本沒有門檻的機器學習實戰手冊。讓我們一起揚帆遠航吧!

本書特色

從行為脈絡來看,本書基本上是從數據統計、數據指標理解、數據模型、聚類/分類與機器學習、數據應用、大數據框架補充知識,以及擴展討論這樣的角度來層層深入完成的。

這種方式會給讀者比較好的帶入感,讓大家——尤其是不擅長數學的讀者降低對大數據與機器學習算法的恐懼感。如果讀者朋友對排列組合、統計分布這些基礎知識比較了解,完全可以考慮跳過這些部分直接去讀后面更感興趣的內容。

為了調節閱讀氣氛,我們還嘗試加入了一些漫畫插圖。為了讓讀者朋友能夠更快地進行實踐,我們幾乎在每一個算法講解后都配有Python或者SQL語言的實現部分。相信這些能夠幫助大家更快、更輕松地閱讀本書。

讀者對象

(1)對大數據感興趣但是完全不了解的技術人員。

(2)對機器學習和數據挖掘比較感興趣的技術人員。

(3)大數據初級從業人員。

如何閱讀本書

本書一共分為18章。

第1章∼第5章為入門所需基礎知識及對數據指標運營的闡述。

第6章∼第10章是對數據挖掘基礎知識與算法的介紹。

第11章∼第18章為生產應用與高級擴展。

其中,第1章∼第15章正文內容,以及第17章、第18章的正文內容由高揚編寫。

全書所有的Python代碼由衛崢編寫與補充整理。

第16章、附錄全部由尹會生編寫。

全書所有的漫畫插畫由萬娟創作完成。

勘誤和支持

由于水平有限,編寫時間倉促,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。如果你有更多的寶貴意見,歡迎掃描下方的二維碼,關注“奇點大數據”微信公眾號和我們進行互動討論。關注大數據尖端技術發展,關注“奇點大數據”。

同時,你也可以通過郵箱77232517@qq.com聯系到我,期待能夠得到你的真摯反饋,在技術之路上互勉共進。

致謝

特別感謝:萬娟女士為本書做的漫畫插畫內容。

萬娟女士現任深圳星盤科技有限公司UI設計師,是我在多年工作中遇到過的最敬業的UI設計師之一,在2013年一起合作的過程中給我留下了非常深刻的印象。

她多次參加全國和國際藝術比賽,曾獲得全國青少年繪畫大賽銅獎,中國–新加坡國際青少年繪畫比賽優秀獎,以及全國大學生工業設計大賽三等獎。從小酷愛繪畫,理想是開一個屬于自己的畫室。

她給我留下的最深刻的印象用兩個詞可以描述:一個詞是“敬業”,不管是在過去共事期間的合作,還是在為本書創作插畫的過程中,為了保證進度帶病堅持創作,都讓我非常感動;另一個詞是“唯美”,不僅人長得美,作品設計風格也透出現代與時尚的氣息。

此外還要對所有支持和關心本書成書的各界朋友表示由衷的感謝:

衷心感謝北京郵電大學軟件學院楊談老師對本書的審校工作。

衷心感謝騰訊公司數據分析師彭瑤女士對本書的審校工作。

衷心感謝重慶工商大學黃輝老師、楊藝老師對本書的大力支持。

衷心感謝機械工業出版社華章公司對本書的支持與幫助。

衷心感謝“奇點大數據”微信群友對本書的關注與支持。



高 揚
內容簡介:

目前很多大中型企業都有數據分析崗位,尤其是和自己業務結合緊密的分析崗位。企業求賢若渴,而求職者對數據分析崗位望而卻步。這就是當前大數據分析市場的尷尬。
原因有三:
● 數學基礎薄弱:很多應用中的統計學、概率學,成為學習中的巨大阻力。
● 學習成本高:數學和相關的算法過于抽象,布道者往往忽略了很多解釋性的內容,使得讀者學習起來費時費力。
● 變現不確定:這也是數據分析人員的尷尬。個人對數據的加工增值以及變現有多大的貢獻難以度量。
本書通俗易懂,有高中數學基礎即可看懂,同時結合大量案例與漫畫,將高度抽象的數學、算法與應用,與現實生活中的案例和事件一一做了關聯,將源自生活的抽象還原出來,幫助讀者理解后,又帶領大家將這些抽象的規律與算法應用于實踐,貼合讀者需求。同時,本書不是割裂講解大數據與機器學習的算法和應用,還講解了其生態環境與關聯內容,讓讀者更全面地知曉淵源與未來,是系統學習大數據與機器學習的不二之選:
● 大數據產業解讀——剖析產業情況,人才供需、職業選擇與相應“武器”庫;
● 步入大數據之門——解讀數據、信息、算法,以及與大數據應用的關系;
● 大數據基石——結合大量示例和漫畫,趣味講解大數據算法應掌握的數學知識,無障礙學習;
● 大數據算法奧義——信息論、向量空間、回歸、聚類、分類等最為核心的算法的釋義與應用,舉重若輕;
● 大數據熱門應用——關聯分析、用戶畫像、推薦算法、文本挖掘、人工神經網絡等最實用、最需要了解的應用的原理與實現;
● 大數據主流框架——介紹了主流的大數據框架(Hadoop、Spark和Cassandra);
● 系統架構與調優——從速度與穩定性方面給出調優的一般性“內功心法”;
● 大數據價值與變現——從運營指標、AB測試、大數據價值與變現場景多維度解讀。
目錄:

第1章 大數據產業 1

1.1 大數據產業現狀 1

1.2 對大數據產業的理解 2

1.3 大數據人才 3

1.3.1 供需失衡 3

1.3.2 人才方向 3

1.3.3 環節和工具 5

1.3.4 門檻障礙 6

1.4 小結 8

第2章 步入數據之門 9

2.1 什么是數據 9

2.2 什么是信息 10

2.3 什么是算法 12

2.4 統計、概率和數據挖掘 13

2.5 什么是商業智能 13

2.6 小結 14

第3章 排列組合與古典概型 15

3.1 排列組合的概念 16

3.1.1 公平的決斷——扔硬幣 16

3.1.2 非古典概型 17

3.2 排列組合的應用示例 18

3.2.1 雙色球彩票 18

3.2.2 購車搖號 20

3.2.3 德州撲克 21

3.3 小結 25

第4章 統計與分布 27

4.1 加和值、平均值和標準差 27

4.1.1 加和值 28

4.1.2 平均值 29

4.1.3 標準差 30

4.2 加權均值 32

4.2.1 混合物定價 32

4.2.2 決策權衡 34

4.3 眾數、中位數 35

4.3.1 眾數 36

4.3.2 中位數 37

4.4 歐氏距離 37

4.5 曼哈頓距離 39

4.6 同比和環比 41

4.7 抽樣 43

4.8 高斯分布 45

4.9 泊松分布 49

4.10 伯努利分布 52

4.11 小結 54

第5章 指標 55

5.1 什么是指標 55

5.2 指標化運營 58

5.2.1 指標的選擇 58

5.2.2 指標體系的構建 62

5.3 小結 63

第6章 信息論 64

6.1 信息的定義 64

6.2 信息量 65

6.2.1 信息量的計算 65

6.2.2 信息量的理解 66

6.3 香農公式 68

6.4 熵 70

6.4.1 熱力熵 70

6.4.2 信息熵 72

6.5 小結 75

第7章 多維向量空間 76

7.1 向量和維度 76

7.1.1 信息冗余 77

7.1.2 維度 79

7.2 矩陣和矩陣計算 80

7.3 數據立方體 83

7.4 上卷和下鉆 85

7.5 小結 86

第8章 回歸 87

8.1 線性回歸 87

8.2 擬合 88

8.3 殘差分析 94

8.4 過擬合 99

8.5 欠擬合 100

8.6 曲線擬合轉化為線性擬合 101

8.7 小結 104

第9章 聚類 105

9.1 K-Means算法 106

9.2 有趣模式 109

9.3 孤立點 110

9.4 層次聚類 110

9.5 密度聚類 113

9.6 聚類評估 116

9.6.1 聚類趨勢 117

9.6.2 簇數確定 119

9.6.3 測定聚類質量 121

9.7 小結 124

第10章 分類 125

10.1 樸素貝葉斯 126

10.1.1 天氣的預測 128

10.1.2 疾病的預測 130

10.1.3 小結 132

10.2 決策樹歸納 133

10.2.1 樣本收集 135

10.2.2 信息增益 136

10.2.3 連續型變量 137

10.3 隨機森林 140

10.4 隱馬爾可夫模型 141

10.4.1 維特比算法 144

10.4.2 前向算法 151

10.5 支持向量機SVM 154

10.5.1 年齡和好壞 154

10.5.2 “下刀”不容易 157

10.5.3 距離有多遠 158

10.5.4 N維度空間中的距離 159

10.5.5 超平面怎么畫 160

10.5.6 分不開怎么辦 160

10.5.7 示例 163

10.5.8 小結 164

10.6 遺傳算法 164

10.6.1 進化過程 164

10.6.2 算法過程 165

10.6.3 背包問題 165

10.6.4 極大值問題 173

10.7 小結 181

第11章 關聯分析 183

11.1 頻繁模式和Apriori算法 184

11.1.1 頻繁模式 184

11.1.2 支持度和置信度 185

11.1.3 經典的Apriori算法 187

11.1.4 求出所有頻繁模式 190

11.2 關聯分析與相關性分析 192

11.3 稀有模式和負模式 193

11.4 小結 194

第12章 用戶畫像 195

12.1 標簽 195

12.2 畫像的方法 196

12.2.1 結構化標簽 196

12.2.2 非結構化標簽 198

12.3 利用用戶畫像 203

12.3.1 割裂型用戶畫像 203

12.3.2 緊密型用戶畫像 204

12.3.3 到底“像不像” 204

12.4 小結 205

第13章 推薦算法 206

13.1 推薦思路 206

13.1.1 貝葉斯分類 206

13.1.2 利用搜索記錄 207

13.2 User-based CF 209

13.3 Item-based CF 211

13.4 優化問題 215

13.5 小結 217

第14章 文本挖掘 218

14.1 文本挖掘的領域 218

14.2 文本分類 219

14.2.1 Rocchio算法 220

14.2.2 樸素貝葉斯算法 223

14.2.3 K-近鄰算法 225

14.2.4 支持向量機SVM算法 226

14.3 小結 227

第15章 人工神經網絡 228

15.1 人的神經網絡 228

15.1.1 神經網絡結構 229

15.1.2 結構模擬 230

15.1.3 訓練與工作 231

15.2 FANN庫簡介 233

15.3 常見的神經網絡 235

15.4 BP神經網絡 235

15.4.1 結構和原理 236

15.4.2 訓練過程 237

15.4.3 過程解釋 240

15.4.4 示例 240

15.5 玻爾茲曼機 244

15.5.1 退火模型 244

15.5.2 玻爾茲曼機 245

15.6 卷積神經網絡 247

15.6.1 卷積 248

15.6.2 圖像識別 249

15.7 深度學習 255

15.8 小結 256

第16章 大數據框架簡介 257

16.1 著名的大數據框架 257

16.2 Hadoop框架 258

16.2.1 MapReduce原理 259

16.2.2 安裝Hadoop 261

16.2.3 經典的WordCount 264

16.3 Spark 框架 269

16.3.1 安裝Spark 270

16.3.2 使用Scala計算WordCount 271

16.4 分布式列存儲框架 272

16.5 PrestoDB——神奇的CLI 273

16.5.1 Presto為什么那么快 273

16.5.2 安裝Presto 274

16.6 小結 277

第17章 系統架構和調優 278

17.1 速度——資源的配置 278

17.1.1 思路一:邏輯層面的優化 279

17.1.2 思路二:容器層面的優化 279

17.1.3 思路三:存儲結構層面的優化 280

17.1.4 思路四:環節層面的優化 280

17.1.5 資源不足 281

17.2 穩定——資源的可用 282

17.2.1 借助云服務 282

17.2.2 鎖分散 282

17.2.3 排隊 283

17.2.4 謹防“雪崩” 283

17.3 小結 285

第18章 數據解讀與數據的價值 286

18.1 運營指標 286

18.1.1 互聯網類型公司常用指標 287

18.1.2 注意事項 288

18.2 AB測試 289

18.2.1 網頁測試 290

18.2.2 方案測試 290

18.2.3 灰度發布 292

18.2.4 注意事項 293

18.3 數據可視化 295

18.3.1 圖表 295

18.3.2 表格 299

18.4 多維度——大數據的靈魂 299

18.4.1 多大算大 299

18.4.2 大數據網絡 300

18.4.3 去中心化才能活躍 301

18.4.4 數據會過剩嗎 302

18.5 數據變現的場景 303

18.5.1 數據價值的衡量的討論 303

18.5.2 場景1:征信數據 307

18.5.3 場景2:宏觀數據 308

18.5.4 場景3:畫像數據 309

18.6 小結 310

附錄A VMware Workstation的安裝 311

附錄B CentOS虛擬機的安裝方法 314

附錄C Python語言簡介 318

附錄D Scikit-learn庫簡介 323

附錄E FANN for Python安裝 324

附錄F 群眾眼中的大數據 325

寫作花絮 327

參考文獻 329
序: