Spark機器學習進階實戰 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

3/26 新書到！ 3/19 新書到！ 3/14 新書到！ 12/12 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

Spark機器學習進階實戰
( 簡體字)

作者：馬海平　于俊　呂昕　向海類別：1. -> 程式設計 -> Spark

譯者：

出版社：機械工業出版社 3dWoo書號： 49836
詢問書籍請說出此書號！
【缺書】
NT售價： 295 元

出版日：9/1/2018

頁數：205

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787111608103

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：
上善若水，水善利萬物而不爭。

數據一如水，無色無味，非方非圓，以百態存于自然，于自然無違也。綿綿密密，微則無聲，巨則洶涌；與人無爭卻又容納萬物。生活離不開水，同樣離不開數據，我們被數據包圍，在數據中生活，體會著數據量爆炸式增長帶來的幸福和挑戰。

本書從《道德經》和《莊子》精選名言，并結合大數據機器學習相關內容，對名言加以講解，引導大家以老莊的思想認識大數據的內涵，使用機器學習進行大數據價值挖掘，探求老子道之路和莊子智慧之路。

為什么要寫這本書

2014年春天，曾經和公司大數據團隊小伙伴一起聚焦研究大數據，為了解決國內資料匱乏、學習門檻較高的問題，著手編寫《Spark核心技術與高級應用》一書，并于2016年1月出版，取得了較好的反響，得到很多朋友的支持。

近年來，隨著收集、存儲和分析的數據量呈爆炸式增長，大規模的數據分析和數據價值挖掘能力已經成為影響企業生死存亡的關鍵，越來越多的企業必須面對這殘酷而美好的挑戰。基于大數據的機器學習有效解決了大數據帶來的數據分析和數據挖掘瓶頸。

如何讓更多的大數據從業人員更輕松地使用機器學習算法進行大數據價值挖掘，通過簡單的學習建立大數據環境下的機器學習工程化思維，在不必深究算法細節的前提下，實現大數據分類、聚類、回歸、協同過濾、關聯規則、降維等算法，并使用這些算法解決實際業務場景的問題。2016年秋天，在機械工業出版社高婧雅編輯的指導下，懷著一顆附庸風雅之心，我決定和小伙伴們一起朝著新的目標努力。

本書的寫作過程中，Spark版本也在不斷變化，秉承大道至簡的原則，我們一方面盡量按照新的版本進行統籌，另外一方面盡量做到和版本解耦，希望能拋磚引玉，以個人的一些想法和見解，為讀者拓展出更深入、更全面的思路。

本書只是一個開始，如何使用機器學習算法從海量數據中挖掘出更多的價值，還需要無數的大數據從業人員前赴后繼，突破漫漫雄關，共同創造美好的大數據機器學習時代。

本書特色

本書介紹大數據機器學習的算法和實踐，同時對傳統文化進行了一次緬懷，吸收傳統文化的精華，精選了《道德經》和《莊子》部分名言，實現大數據和哲學思想的有效統一。結合老子的“無為”和莊子的“天人合一”思想，引導讀者以辯證法思考方式認識大數據機器學習的內涵。

從技術層面上，本書一方面基于Spark現有的機器學習庫講解，另一方面盡量做到和現有Spark版本中的機器學習庫解耦，突出對大數據機器學習的宏觀理解，并給出典型算法的工程化實現，使更多的人輕松使用機器學習進行大數據價值挖掘，從而建立大數據機器學習工程化思維，在不必深究算法細節的前提下有效解決實際問題。本書更加強調在實際場景中的應用，并有針對性地給出了綜合應用場景。

從適合讀者閱讀和掌握知識的結構安排上講，本書分“基礎篇”“算法篇”“綜合應用篇”三個維度層層推進，便于讀者在深入理解基礎上根據相應的解決思路找到適合自己的方案。

本書使用的機器學習算法和應用場景都是實際業務的抽象，并基于具體業務進行實現。作為本書的延續，接下來我們會聚焦應用實踐并提供更深層次的拓展，專注知識圖譜的技術與應用，以及Bot技術與構建實戰，期待相關圖書能和讀者盡早見面。

讀者對象

（1）對大數據感興趣的讀者

伴隨著大數據時代的到來，很多工作都和大數據息息相關，無論是傳統行業、互聯網行業，還是移動互聯網行業，都必須要了解大數據，通過大數據發現自身的價值。對這部分讀者來說，本書的內容能夠幫助他們加深對大數據/機器學習及其演進趨勢的理解，通過本書可以了解機器學習相關算法，以及Spark機器學習應用場景和存在價值，如果希望更深層次地掌握Spark機器學習相關知識，本書可以作為一個很好的開始。

（2）從事大數據機器學習算法的研究人員

本書基于分類、聚類、回歸、關聯規則、協同過濾、降維等算法，結合異常檢測、用戶畫像、廣告點擊率預估、企業征信大數據、智慧交通大數據等場景，系統地講解了Spark機器學習相關知識，對從事大數據算法的研究人員來說，能夠身臨其境地體驗各種場景，了解各類算法在不同場景下的優缺點，減少自己的研究成本。本書對生產環境中遇到的算法建模、數據挖掘等問題有很好的借鑒作用。

（3）大數據工程開發人員

大數據工程開發人員可以從本書中獲取需要的機器學習算法工程化知識。對大數據工程開發人員來說，掌握并快速對算法進行工程化，是很重要的技能，本書為填補算法工程開發人員與算法研究人員之間的鴻溝、高效工作提供了更多可能。

（4）大數據架構設計人員

基于大數據的采集、存儲、清洗、實時計算、統計分析、數據挖掘等是大數據架構師必備技能。他們需要對Spark機器學習進行了解，才能在架構設計中綜合考慮各種因素，構建穩定高效的大數據架構。

如何閱讀本書

本書分為三篇，共計13章內容。

基礎篇（第1和2章），對機器學習進行概述講解，并通過Spark機器學習進行數據分析。

算法篇（第3～8章），針對分類、聚類、回歸、關聯規則、協同過濾、降維等算法進行詳細講解，并進行算法建模應用實現。

綜合應用篇（第9～13章），綜合異常檢測、用戶畫像，引出廣告點擊率預估，并對企業征信大數據、智慧交通大數據等場景進行實踐，詳細講解基于Spark的大數據機器學習綜合應用。

勘誤和支持

由于筆者的水平有限，編寫時間倉促，書中難免會出現一些錯誤或者不準確的地方，懇請讀者批評指正。如果你有更多的寶貴意見，可以通過大數據技術交流QQ群435263033，或者郵箱datadance@163.com聯系我們，期待能夠得到大家的真摯反饋，在大數據和人工智能征程中互勉共進。

致謝

感謝親愛的搭檔馬海平、呂昕、向海三位大數據專家以及譚昶博士，在本書寫作遇到困難的時候，我們一直互相鼓勵，犧牲休息時間，堅持不放棄。

感謝大數據團隊的張志勇、張龍、陳愛華、楊柳、俞祥祥、王慶慶、牛鑫、謝榭、李雅潔，以及廖攀、覃雪輝等小伙伴，你們為本書的修改貢獻了寶貴的智慧，你們的參與使本書更上一層樓。

本書使用了部分互聯網測試數據，包括：Stanford的gowalla數據、360的應用市場數據、UCI的鳶尾花卉數據和裙子銷售數據、數據堂的豆瓣電影評分數據、Digit數據集、新聞App的用戶行為數據、某運營商手機信令數據、某地圖路況的道路擁堵指數數據，在這里進行特別感謝。

最后特別祝福本書寫作期間出生的馬海平家的二寶和向海家的二寶，你們的出生代表了大數據機器學習有了新的傳承，也讓我們的努力變得更有意義。

謹以此書獻給大數據團隊的小伙伴，以及眾多熱愛大數據機器學習技術的朋友！

于俊

2018年8月

內容簡介：
科大訊飛大數據專家團隊撰寫，不囿于Spark機器學習庫，突出算法的工程化思維與實踐。從基礎引出算法，從算法實踐到場景應用，層層推進，分享筆者的一些想法和見解，鋪展開更為深入、全面的思路。

6大機器學習模型構建

分類：刻畫事物特征的類標識，有效預測未知數據的歸類情況。

聚類：根據相似程度生成對象集合，同集合相似，不同集合相異。

回歸：找出數據規律和趨勢，預測數據未來變化。

關聯規則：挖掘關聯關系，輔助商業決策。

協同過濾：刻畫用戶相似興趣，實現偏好預測。

降維：有效地消除無關和冗余特征，提升模型精度。

5大典型應用場景

異常檢測：有效解決入侵檢測、欺詐檢測、社交假新聞等問題。

用戶畫像：高度精煉用戶的特征標識，為產品與決策提供數據支持和事實依據。

點擊率預估：預估點擊概率，計算點擊收益，選出收益最高的策略。

企業征信：提供信用信息服務，洞察企業信用風險。

智慧交通：實現交通數據的價值，提供解決城市交通問題的思路。

同時，本書從《道德經》和《莊子》精選名言，并結合大數據機器學習相關內容，對名言加以講解，引導大家以老莊的思想來認識大數據的內涵。

目錄：
前　言
第一篇　基礎篇
第1章　機器學習概述 2
1.1　機器學習概述 2
1.1.1　理解大數據 2
1.1.2　機器學習發展過程 4
1.1.3　大數據生態環境 5
1.2　機器學習算法 6
1.2.1　傳統機器學習 6
1.2.2　深度學習 8
1.2.3　其他機器學習 8
1.3　機器學習分類 9
1.3.1　監督學習 9
1.3.2　無監督學習 10
1.3.3　半監督學習 10
1.3.4　強化學習 10
1.4　機器學習綜合應用 11
1.4.1　異常檢測 12
1.4.2　用戶畫像 12
1.4.3　廣告點擊率預估 12
1.4.4　企業征信大數據應用 12
1.4.5　智慧交通大數據應用 13
1.5　本章小結 13
第2章　數據分析流程和方法 14
2.1　數據分析概述 14
2.2　數據分析流程 15
2.2.1　業務調研 16
2.2.2　明確目標 16
2.2.3　數據準備 16
2.2.4　特征處理 17
2.2.5　模型訓練與評估 21
2.2.6　輸出結論 23
2.3　數據分析的基本方法 24
2.3.1　匯總統計 24
2.3.2　相關性分析 25
2.3.3　分層抽樣 26
2.3.4　假設檢驗 26
2.4　簡單的數據分析實踐 27
2.4.1　環境準備 27
2.4.2　準備數據 28
2.4.3　數據分析 29
2.5　本章小結 30
第二篇　算法篇
第3章　構建分類模型 32
3.1　分類模型概述 32
3.2　分類模型算法 34
3.2.1　邏輯回歸 34
3.2.2　樸素貝葉斯模型 36
3.2.3　SVM模型 37
3.2.4　決策樹模型 39
3.2.5　K-近鄰 40
3.3　分類效果評估 40
3.3.1　正確率 41
3.3.2　準確率、召回率和F1值 41
3.3.3　ROC和AUC 42
3.4　App數據的分類實現 44
3.4.1　選擇分類器 44
3.4.2　準備數據 45
3.4.3　訓練模型 46
3.4.4　模型性能評估 48
3.4.5　模型參數調優 49
3.5　其他分類模型 50
3.5.1　隨機森林 50
3.5.2　梯度提升樹 51
3.5.3　因式分解機模型 51
3.6　本章小結 52
第4章　構建聚類模型 53
4.1　聚類概述 53
4.2　聚類模型 54
4.2.1　KMeans聚類 54
4.2.2　DBSCAN聚類 55
4.2.3　主題聚類 56
4.3　聚類效果評價 58
4.3.1　集中平方誤差和 58
4.3.2　Purity評價法 59
4.4　使用KMeans對鳶尾花卉數據集聚類 59
4.4.1　準備數據 59
4.4.2　特征處理 60
4.4.3　聚類分析 60
4.4.4　模型性能評估 62
4.5　使用DBSCAN對GPS數據進行聚類 62
4.5.1　準備數據 63
4.5.2　特征處理 64
4.5.3　聚類分析 64
4.5.4　模型參數調優 65
4.6　其他模型 66
4.6.1　層次聚類 66
4.6.2　基于圖的聚類 67
4.6.3　混合聚類模型 67
4.7　本章小結 68
第5章　構建回歸模型 69
5.1　常用回歸模型 69
5.1.1　線性回歸模型 70
5.1.2　回歸樹模型 70
5.1.3　其他回歸模型 71
5.2　評估指標 73
5.3　回歸模型優化 74
5.3.1　特征選擇 74
5.3.2　特征變換 74
5.4　構建UCI裙子銷售數據回歸模型 75
5.4.1　準備數據 75
5.4.2　訓練模型 78
5.4.3　評估效果 79
5.4.4　模型優化 79
5.5　其他回歸模型案例 80
5.5.1　GDP影響因素分析 81
5.5.2　大氣污染分析 81
5.5.3　大數據比賽中的回歸問題 81
5.6　本章小結 82
第6章　構建關聯規則模型 83
6.1　關聯規則概述 83
6.2　常用關聯規則算法 84
6.2.1　Apriori算法 84
6.2.2　FP-Growth算法 85
6.3　效果評估和優化 86
6.3.1　效果評估 86
6.3.2　效果優化 87
6.4　使用FP-Growth對豆瓣評分數據進行挖掘 88
6.4.1　準備數據 89
6.4.2　訓練模型 89
6.4.3　觀察規則 91
6.4.4　參數調優 91
6.4.5　使用算法 92
6.5　其他應用場景 94
6.6　本章小結 96
第7章　協同過濾 97
7.1　協同過濾概述 97
7.2　常用的協同過濾算法 98
7.2.1　基于用戶的協同過濾 99
7.2.2　基于物品的協同過濾 100
7.2.3　矩陣分解技術 101
7.2.4　推薦算法的選擇 102
7.3　評估標準 103
7.3.1　準確率 103
7.3.2　覆蓋率 103
7.3.3　多樣性 104
7.3.4　其他指標 104
7.4　使用電影評分數據進行協同過濾實踐 104
7.4.1　準備數據 105
7.4.2　訓練模型 106
7.4.3　測試模型 109
7.4.4　使用ALS結果 111
7.5　本章小結 112
第8章　數據降維 113
8.1　降維概述 113
8.2　常用降維算法 114
8.2.1　主成分分析 114
8.2.2　奇異值分解 116
8.2.3　廣義降維 117
8.2.4　文本降維 118
8.3　降維評估標準 121
8.4　使用PCA對Digits數據集進行降維 122
8.4.1　準備數據 122
8.4.2　訓練模型 123
8.4.3　分析降維結果 124
8.5　其他降維方法 124
8.5.1　線性判別分析 124
8.5.2　局部線性嵌入 125
8.5.3　拉普拉斯特征映射 125
8.6　本章小結 126
第三篇　綜合應用篇
第9章　異常檢測 128
9.1　異常概述 128
9.1.1　異常的產生 129
9.1.2　異常檢測的分類 129
9.2　異常檢測方法 130
9.2.1　基于模型的方法 130
9.2.2　基于鄰近度的方法 131
9.2.3　基于密度的方法 132
9.2.4　基于聚類的方法 133
9.3　異常檢測系統 133
9.3.1　異常檢測過程 133
9.3.2　異常檢測步驟 134
9.3.3　特征選取和設計 135
9.4　應用場景 137
9.4.1　入侵檢測 137
9.4.2　欺詐檢測 138
9.4.3　社交假新聞 140
9.4.4　醫療和公共衛生 141
9.5　新聞App數據異常檢測實踐 141
9.5.1　準備數據 141
9.5.2　數據預處理 142
9.5.3　異常檢測 142
9.6　本章小結 144
第10章　用戶畫像 145
10.1　用戶畫像概述 145
10.1.1　什么是用戶畫像 145
10.1.2　為什么需要用戶畫像 146
10.2　用戶畫像流程 147
10.2.1　整體流程 147
10.2.2　標簽體系 148
10.3　構建用戶畫像 150
10.3.1　人口屬性畫像 150
10.3.2　興趣畫像 152
10.3.3　地理位置畫像 155
10.4　用戶畫像評估和使用 155
10.4.1　效果評估 156
10.4.2　用戶畫像使用 157
10.5　新聞App用戶畫像實踐 158
10.5.1　事實標簽構建 158
10.5.2　興趣標簽構建 159
10.6　本章小結 161
第11章　廣告點擊率預估 162
11.1　點擊率預估概述 162
11.1.1　互聯網廣告的發展 163
11.1.2　互聯網廣告交易架構 163
11.1.3　點擊率預估應用 165
11.2　點擊率預估技術 166
11.2.1　數據收集 166
11.2.2　特征構建 167
11.2.3　特征處理和選擇 169
11.2.4　模型訓練 170
11.3　模型效果評估 172
11.3.1　模型指標評估 172
11.3.2　線上流量評估 172
11.4　新聞App點擊率預估實踐 173
11.4.1　特征提取 173
11.4.2　模型訓練 174
11.4.3　廣告CTR模型擴展 175
11.5　本章小結 177
第12章　企業征信大數據應用 178
12.1　征信概述 178
12.1.1　征信組成 179
12.1.2　傳統征信 180
12.1.3　大數據征信 180
12.2　企業征信大數據平臺 181
12.2.1　大數據征信平臺架構 181
12.2.2　企業征信服務流程 182
12.2.3　企業征信數據源 182
12.2.4　企業征信畫像庫 183
12.2.5　征信評分模型 185
12.3　企業征信大數據應用 186
12.3.1　企業信用報告 186
12.3.2　企業風控管理 187
12.4　企業法人資產建模實踐 188
12.4.1　建模流程 188
12.4.2　數據準備 190
12.4.3　模型工程實現 191
12.5　本章小結 194
第13章　智慧交通大數據應用 195
13.1　智慧交通大數據概述 195
13.2　人群生活模式劃分 196
13.2.1　數據介紹 196
13.2.2　數據預處理 196
13.2.3　特征構建 197
13.2.4　生活模式挖掘 200
13.2.5　劃分結果分析 202
13.3　道路擁堵模式聚類 204
13.3.1　數據介紹 204
13.3.2　數據預處理 205
13.3.3　特征構建 206
13.3.4　擁堵模式挖掘 207
13.4　本章小結 210

序：