集成學習：基礎與算法 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

3/26 新書到！ 3/19 新書到！ 3/14 新書到！ 12/12 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

集成學習：基礎與算法
( 簡體字)

作者：李楠類別：1. -> 程式設計 -> 演算法

譯者：

出版社：電子工業出版社 3dWoo書號： 53101
詢問書籍請說出此書號！
【缺書】
NT售價： 445 元

出版日：7/1/2020

頁數：224

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787121390777

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：
推薦序
最近十年，機器學習領域取得了長足的進步，尤其是深度學習，在語音、機器翻譯和計算機視覺等人工智能應用中均獲得巨大成功。這可能會令人覺得經典機器學習方法不再有效——對于現在眾多對經典機器學習方法知之甚少的學生來說，情況是這樣的。事實上，盡管確實有不少經典的機器學習方法不如深度學習方法有效，但是集成學習在深度學習領域中仍然發揮著巨大作用。目前，在深度學習方法之上引入集成學習仍然是許多深度學習專家用來提升效果的重要手段。
簡而言之，集成學習從數據中顯式或隱式地學習多個模型，并將它們有效結合以獲得更可靠和更準確的預測。因此，集成學習的關鍵是（a）如何從數據中學習多樣且準確的模型，以及（b）如何有效地結合它們以獲得更好的結果。
集成學習與其他機器學習方法（如深度學習和核學習）的核心區別在于：它專注于偏差-方差權衡（Bias-Variance Tradeoff）問題——這是所有機器學習方法，無論是深度學習，還是經典機器學習方法——與生俱來的根本問題。正是這個獨特的研究視角，使集成學習對包括深度學習在內的所有機器學習方法都很有價值。
在本書中，作者充分闡述了偏差-方差權衡問題的背景知識，足以使對統計學不太了解的讀者也能很好地理解該問題。此外，作者在闡述集成學習的廣度(集成學習的全貌) 和深度（單個算法的實現）上做了很好的平衡，結構合理，使得本書能真正惠及廣大讀者。
——金榕，阿里巴巴集團副總裁、達摩院副院長
作者序
集成學習是機器學習的一個分支領域，研究如何通過構建并結合多個學習器來完成學習任務。該領域產生的技術已在人工智能實踐中被廣泛使用，如在許多應用任務中性能優異的隨機森林、XGBoost 等。KDD Cup 歷屆冠軍幾乎都用到集成學習技術，Kaggle 競賽高分榜上集成學習技術亦為常客。
筆者在集成學習領域修學多年，Chapman ＆ Hall 出版社2008 年邀約出版專著。該社曾出版隨機森林發明人Leo Breiman 的Classification and Regression Trees、自助采樣發明人Bradley Efron 的An Introduction to the Bootstrap 等名著，于是筆者應邀于2012 年出版了Ensemble Methods: Foundations and Algorithms 一書。拙著問世后，不少朋友提議出中文版，然而筆者懵懂間中文版權已不在手，且彼時開始構思“西瓜書”，精力所限難以兼濟，于是作罷。2017年偶見日本近代科學社之日文版，雜感交集。
欣聞電子工業出版社購得原著中文版權并邀得李楠博士擔任譯者。李楠青年才俊，師從于吾，主攻集成學習，勤于鉆研、碩果累累；曾獲首屆百度獎學金、入選IBM 博士生英才計劃等。2015 年博士畢業后就職于阿里iDST、達摩院，近期加入微軟，繁忙工作之余撥冗譯著，甚為不易。李楠博士曾兼任蘇州大學數學科學學院計算數學系主任，經驗豐富，佳譯可待。
筆者學識粗陋，譯本或因原著庸薄而致佶聱，敬請讀者諸君不吝賜正。
——周志華
2020年5月

譯者序
近年來，機器學習技術的快速發展推動了語音、自然語言處理、機器視覺等多個領域獲得巨大進步，也帶動了人工智能相關產業的蓬勃發展。回顧機器學習最近30 年的發展歷程，各種學習方法“你方唱罷我登場”——從多層感知機到決策樹，從支持向量機再到深度神經網絡，推陳出新、不斷演進。但是，在此歷程中，通過構建并結合多個學習器來完成學習任務的集成學習方法，始終是提升學習效果的重要手段，成為機器學習領域的“常青樹”，受到學術界和產業界的廣泛關注。
譯者是在南京大學讀研期間開始接觸集成學習的，當時在導師周志華教授指導下從事選擇性集成和集成多樣性方面的研究工作。回首來看，這段研究經歷從兩個方面對我影響頗深。第一，譯者最初曾認為集成學習是一系列具有“三個臭皮匠頂個諸葛亮”樸素想法的啟發式方法，缺乏理論基礎，但后來對偏差-方差分解、Boosting 間隔理論、集成多樣性等課題的學習和研究，使我徹底拋棄了這種想法；更重要的是，這段研究經歷所積累的理論知識為我后來快速學習掌握其他機器學習方法提供了莫大的幫助，至今仍受益良多。第二，機器學習是面向實踐的學科，集成學習在實踐中的優異效果讓人印象深刻。正是這段對集成學習的研究經歷，使我掌握了多種構建高效集成的方法和技巧，為后來的實踐夯實了基礎。
譯者2015 年博士畢業后進入產業界，先后在阿里巴巴iDST、達摩院和微軟從事搜索、推薦、廣告等領域的工作。在此過程中，譯者親身經歷并見證了集成學習在產業界的巨大成功。例如，對搜索、推薦、廣告的核心任務——點擊率預估而言，GBDT（Gradient Boosting Decision Trees）因其穩定、優異的效果一直是事實上的工業標準；在語音識別領域，基于集成深度學習的聲學模型極大提升了識別效果；在異常檢測上，iForest 因其極高的檢測效率在實踐中備受關注。工作期間，多有同事問及集成學習方向的專業書籍，無奈當時國內并
無相關專著，而本書原著在國內很難買到，只能作罷。后來，欣聞電子工業出版社購得原著中文版權，并邀請我翻譯，便欣然應允。
感謝導師周志華教授在我讀碩讀博期間給予的悉心指導：這段寶貴的學習經歷不僅極大地開闊了我的視野，也為我此后的研究和實踐工作奠定了基礎。如果沒有這些積累，我將難以完成翻譯。同時，感謝東南大學張敏靈教授、南京航空航天大學黃圣君教授通讀此譯本并提出很有見地的建議和意見；感謝胡鵬、梁晨、吳西竹、楊子旭、趙鵬、周宇航等同學提供幫助和建設性意見；感謝家人付克紅女士、李佳智、李佳慧的支持和鼓勵。電子工業出版社劉皎編輯及同事為本書的翻譯出版做了大量工作，在此深表謝意。
受譯者水平和能力所限，譯文的表述可能不如原著流暢，原著思想的一些精微之處可能未能精確傳達，懇請讀者批評指正。
——李楠
2020年6月于蘇州
前言
集成學習方法是一類先進的機器學習方法，這類方法會訓練多個學習器并將它們結合起來解決一個問題，其中的典型代表是Bagging 和Boosting。通常，一個結合了多個學習器的集成會比單個學習器更加精確，集成學習方法在很多的實際任務中獲得了巨大成功。由于使用多個模型解決問題的基本想法在人類社會中有著悠久的歷史，我們難以對集成學習方法的歷史進行溯源。但是，很明顯，自從20 世紀90 年代以來，集成學習方法就成為一個熱門的研究課題，吸引了來自機器學習、模式識別、數據挖掘、神經網絡和統計等領域的眾多研究人員。
本書面向研究人員、學生和實踐者介紹集成學習方法。全書共8章，分為三部分。
第一部分即第1 章。雖然本書的主要受眾是具有一定機器學習和模式識別基礎知識的讀者，但是為了使對相關內容不了解的讀者也能夠讀懂本書的主要內容，我們在第1 章介紹了集成學習的背景知識。由于不可能在一章內窮盡所有背景知識，本章主要作為對進一步了解相關內容的指引。另外，為了避免混淆相關領域術語，本章還約定了本書使用的相關術語。
第二部分由第2 到5 章構成，介紹集成學習方法的核心知識。第2章和第3章分別介紹了Boosting 和Bagging。由于經典的Boosting 是針對二分類問題設計的，且對噪聲比較敏感，因此第2 章除介紹Boosting 的相關算法和理論外，還介紹了其多類擴展和容噪擴展。由于Bagging 天然支持多分類場景且對噪聲具有一定的魯棒性，第3 章就沒有再介紹相關內容，而是介紹了隨機森林（Random Forests）和其他的隨機決策樹集成方法，這類方法都可以看成Bagging的變種。第4章介紹了結合方法，除各種平均和投票方法外，本章還介紹了Stacking 方法及一些相關方法，如混合專家模型等。第5 章專門介紹了集成多樣性。在介紹“誤差-分歧分解”和“偏差-方差-協方差分解”后，本章介紹了多樣性度量指標，并且闡述了近年在信息論多樣性和多樣性增強方法方面的進展。第三部分由第6到8章構成，介紹集成學習方法的進階議題。第6章介紹集成修剪，即如何通過縮減一個訓練好的集成以達到更好的效果。第7 章介紹聚類集成，即如何通過結合多個聚類結果獲取更好的聚類。第8 章介紹集成學
習方法在半監督學習、主動學習、代價敏感學習、類別不平衡學習，以及提升可理解性方面的一些進展。
本書的目的不是覆蓋集成學習方法的所有知識。有興趣的讀者可以從每章的“拓展閱讀”部分獲取進一步的信息。
在本書之前，已有兩本集成學習方面的專著[Kuncheva，2004；Rokach，2010]。為了反映本領域的快速發展，本人曾嘗試做一個更新的深入回顧。但在成書過程中發現，這是一項比預想要困難得多的任務。盡管在集成學習方法方面有大量研究工作，但業界對一些核心要素還缺乏深入理解，對相關技術的實驗研究也并不充分。因此，書中的有些章節僅介紹了一些相關算法，甚至在一些討論理論問題的章節中，還存在一些重要但不清楚的問題。一方面，這種情
況反映了集成學習領域還在快速發展中；另一方面，也為進一步研究提供了好的機遇。
本書如果沒有大家的幫助則難以成稿。在此，衷心感謝Tom Dietterich 教授通讀此書并且給出了非常有見地的建議和意見；感謝陳松燦、李楠、劉胥影、Fabio Roli、吳建鑫、俞揚和張敏靈提供有建設性的意見。同時，感謝RandiCohen 女士和Chapman ＆ Hall/CRC 出版社的同事所提供的協助。
最后，感謝我的家人、朋友和學生的耐心、支持和鼓勵！
——周志華
中國，南京

內容簡介：
集成學習方法是一類先進的機器學習方法，這類方法訓練多個學習器并將它們結合起來解決一個問題，在實踐中獲得了巨大成功。全書分為三部分。第一部分主要介紹集成學習的背景知識；第二部分主要介紹集成學習方法的核心知識，包括Boosting、Bagging、Random Forests等經典算法，平均、投票和Stacking等模型和方法、相關理論分析工作，以及多樣性度量和增強方面的進展。第三部分介紹集成學習方法的進階議題，包括集成修剪、聚類集成和集成學習方法在半監督學習、主動學習、代價敏感學習、類別不平衡學習，以及提升可理解性方面的進展。此外，本書還在每章中的“拓展閱讀”部分提供了相關的進階內容。本書適合對集成學習方法感興趣的研究人員、學生和實踐者閱讀。

目錄：
第1章緒論 1
1.1 基本概念 1
1.2 常用學習算法 3
1.2.1 線性判別分析 3
1.2.2 決策樹 4
1.2.3 神經網絡 6
1.2.4 樸素貝葉斯 8
1.2.5 k-近鄰 9
1.2.6 支持向量機和核方法 9
1.3 評估和對比 12
1.4 集成學習方法 14
1.5 集成學習方法的應用 16
1.6 拓展閱讀 19

第2章Boosting 21
2.1 Boosting 過程 21
2.2 AdaBoost 算法 22
2.3 說明性舉例 26
2.4 理論探討 29
2.4.1 基本分析 29
2.4.2 間隔解釋 30
2.4.3 統計視角 32
2.5 多分類問題 35
2.6 容噪能力 37
2.7 拓展閱讀 40

第3章Bagging 43
3.1 兩種集成范式 43
3.2 Bagging 算法 44
3.3 說明性舉例 45
3.4 理論探討 48
3.5 隨機樹集成 52
3.5.1 隨機森林 52
3.5.2 隨機化譜 55
3.5.3 隨機森林用于密度估計 56
3.5.4 隨機森林用于異常檢測 58
3.6 拓展閱讀 60

第4章結合方法 61
4.1 結合帶來的益處 61
4.2 均值法 62
4.2.1 簡單平均法 62
4.2.2 加權平均法 63
4.3 投票法 65
4.3.1 絕對多數投票法 65
4.3.2 相對多數投票法 66
4.3.3 加權投票法 67
4.3.4 軟投票法 68
4.3.5 理論探討 70
4.4 學習結合法 76
4.4.1 Stacking 76
4.4.2 無限集成 78
4.5 其他結合方法 79
4.5.1 代數法 80
4.5.2 行為知識空間法 81
4.5.3 決策模板法 81
4.6 相關方法 82
4.6.1 糾錯輸出編碼法 82
4.6.2 動態分類器選擇法 85
4.6.3 混合專家模型 86
4.7 拓展閱讀 87

第5章多樣性 91
5.1 集成多樣性 91
5.2 誤差分解 92
5.2.1 誤差-分歧分解 92
5.2.2 偏差-方差-協方差分解 94
5.3 多樣性度量 96
5.3.1 成對度量 96
5.3.2 非成對度量 97
5.3.3 小結和可視化 100
5.3.4 多樣性度量的局限 101
5.4 信息論多樣性 102
5.4.1 信息論和集成 102
5.4.2 交互信息多樣性 103
5.4.3 多信息多樣性 104
5.4.4 估計方法 105
5.5 多樣性增強 106
5.6 拓展閱讀 108

第6章集成修剪 109
6.1 何謂集成修剪 109
6.2 多比全好 110
6.3 修剪方法分類 113
6.4 基于排序的修剪 114
6.5 基于聚類的修剪 117
6.6 基于優化的修剪 117
6.6.1 啟發式優化修剪 118
6.6.2 數學規劃修剪 118
6.6.3 概率修剪 121
6.7 拓展閱讀 122

第7章聚類集成 125
7.1 聚類 125
7.1.1 聚類方法 125
7.1.2 聚類評估 127
7.1.3 為什么要做聚類集成 129
7.2 聚類集成方法分類 130
7.3 基于相似度的方法 132
7.4 基于圖的方法 133
7.5 基于重標記的方法 136
7.6 基于變換的方法 140
7.7 拓展閱讀 143

第8章進階議題 145
8.1 半監督學習 145
8.1.1 未標記數據的效用 145
8.1.2 半監督學習的集成學習方法 146
8.2 主動學習 151
8.2.1 人為介入的效用 151
8.2.2 基于集成的主動學習 152
8.3 代價敏感學習 153
8.3.1 不均等代價下的學習 153
8.3.2 代價敏感學習的集成方法 154
8.4 類別不平衡學習 158
8.4.1 類別不平衡 158
8.4.2 類別不平衡學習的性能評估 160
8.4.3 類別不平衡學習的集成方法 163
8.5 提升可解釋性 166
8.5.1 集成約簡 166
8.5.2 規則抽取 167
8.5.3 可視化 168
8.6 未來的研究方向 169
8.7 拓展閱讀 171
參考文獻 173
索引 203

序：