-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python數據科學入門

( 簡體 字)
作者:[美]約翰·保羅·穆勒(John Paul Mueller) (意)盧卡·馬薩羅(Luca Massaron)類別:1. -> 程式設計 -> Python
譯者:
出版社:人民郵電出版社Python數據科學入門 3dWoo書號: 49028
詢問書籍請說出此書號!

缺書
NT售價: 345

出版日:5/1/2018
頁數:372
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787115479624
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

本書的目標是介紹如何使用Python 語言及其工具,解決和數據科學所關聯的復雜任務。
全書共6 個部分,分22 章,涵蓋了Python 數據科學基礎知識,數據的采集、整理、整形、應用,數據的可視化,數據分析和處理,數據學習,以及和數據科學相關的10 個話題等。本書將重點放在使用正確的工具上,教讀者如何使用Anaconda、atPlotLib、NumPy、pandas、Scikit-learn 等常用的工具來解決數據科學的相關問題。
本書適合對數據科學的知識和應用方法感興趣的讀者閱讀,特別適合有志于學習Python 數據分析和處理的讀者學習參考。
目錄:

第 1 部分 開啟Python 數據科學之門 1
第 1 章 探索數據科學與Python之間的匹配度 3
1.1 定義21 世紀最誘人的工作 5
1.1.1 思考數據科學的出現 5
1.1.2 概述數據科學家的核心競爭力 6
1.1.3 連接數據科學和大數據 7
1.1.4 理解編程的角色 7
1.2 創建數據科學管道 8
1.2.1 準備數據 8
1.2.2 執行探索性的數據分析 8
1.2.3 從數據中學習 8
1.2.4 可視化 9
1.2.5 獲得洞察力和數據產品 9
1.3 理解Python 在數據科學中的角色 9
1.3.1 思考數據科學家的多面性 9
1.3.2 使用一門多用途、簡單而高效的語言來工作 10
1.4 快速學會使用Python 11
1.4.1 加載數據 11
1.4.2 訓練模型 12
1.4.3 顯示結果 13
第 2 章 介紹Python 的能力和奇跡 14
2.1 為什么是Python 15
2.1.1 抓住Python 的核心哲學 16
2.1.2 探索現在和未來的開發目標 16
2.2 使用Python 工作 17
2.2.1 品味語言 17
2.2.2 理解縮進的需求 17
2.2.3 用命令行或者IDE 工作 18
2.3 運行快速原型和實驗 22
2.4 考慮執行速度 23
2.5 可視化能力 24
2.6 為數據科學使用Python生態系統 26
2.6.1 使用SciPy 來訪問用于科學的工具 26
2.6.2 使用NumPy 執行基礎的科學計算 26
2.6.3 使用pandas 來執行數據分析 26
2.6.4 使用Scikit-learn 實現機器學習 27
2.6.5 使用matplotlib 來標繪數據 27
2.6.6 使用Beautiful Soup來解析HTML 文檔 27
第3 章 為數據科學設置Python 29
3.1 考慮現成的跨平臺的用于科學的分發包 30
3.1.1 獲取Continuum AnalyticsAnaconda 31
3.1.2 獲取Enthought CanopyExpress 32
3.1.3 獲取pythonxy 32
3.1.4 獲取WinPython 33
3.2 在Windows 上安裝Anaconda 33
3.3 在Linux 上安裝Anaconda 36
3.4 在Mac OS X 上安裝Anaconda 37
3.5 下載數據集和示例代碼 38
3.5.1 使用IPython Notebook 39
3.5.2 定義代碼倉庫 40
3.5.3 理解本書中所使用的數據集 45
第4 章 復習Python 基礎 47
4.1 使用數字和邏輯來工作 49
4.1.1 執行變量賦值 50
4.1.2 做算術運算 50
4.1.3 使用布爾表達式來比較數據 52
4.2 創建和使用字符串 54
4.3 與日期交互 55
4.4 創建并使用函數 56
4.4.1 創建可復用函數 56
4.4.2 以各種不同的方式調用函數 58
4.5 使用條件和循環語句 61
4.5.1 使用if 語句做決策 61
4.5.2 使用嵌套決策在多個選項間做出選擇 62
4.5.3 使用for 執行重復任務 63
4.5.4 使用while 語句 64
4.6 使用Sets、Lists 和Tuples來存儲數據 64
4.6.1 在set 上執行操作 65
4.6.2 使用list 來工作 66
4.6.3 創建和使用Tuple 67
4.7 定義有用的迭代器 69
4.8 使用Dictionaries 來索引數據 70
第 2 部分 開始著手于數據 71
第5 章 使用真實數據工作 73
5.1 上傳、流化并采樣數據 74
5.1.1 把少量數據上傳至內存 75
5.1.2 把大量數據流化放入內存 76
5.1.3 采樣數據 77
5.2 以結構化的平面文件形式來訪問數據 78
5.2.1 從文本文件中讀取 79
5.2.2 讀取CSV 定界的格式 80
5.2.3 讀取Excel 和其他的微軟辦公文件 82
5.3 以非結構化文件的形式來發送數據 83
5.4 管理來自關系型數據庫中的數據 86
5.5 與來自NoSQL 數據庫中的數據進行交互 87
5.6 訪問來自Web 的數據 88
第6 章 整理你的數據 92
6.1 兼顧NumPy 和pandas 93
6.1.1 知道什么時候使用NumPy 93
6.1.2 知道什么時候使用pandas 93
6.2 驗證你的數據 95
6.2.1 了解你的數據中有什么 95
6.2.2 去重 96
6.2.3 創建數據地圖和數據規劃 97
6.3 處理分類變量 99
6.3.1 創建分類變量 100
6.3.2 重命名層級 102
6.3.3 組合層級 102
6.4 處理你數據中的日期 104
6.4.1 格式化日期和時間值 104
6.4.2 使用正確的時間轉換 105
6.5 處理丟失值 106
6.5.1 尋找丟失的數據 106
6.5.2 為丟失項編碼 107
6.5.3 為丟失數據估值 108
6.6 交叉分析:過濾并選取數據 109
6.6.1 切分行 109
6.6.2 切分列 110
6.6.3 切塊 110
6.7 連接和變換 111
6.7.1 增加新的實例和變量 112
6.7.2 移除數據 113
6.7.3 排序和攪亂 114
6.8 在任何層次聚合數據 115
第7 章 數據整形 117
7.1 使用HTML 頁面來工作 118
7.1.1 解析XML 和HTML 118
7.1.2 使用XPath 來抽取數據 119
7.2 使用原始文本來工作 120
7.2.1 處理Unicode 碼 120
7.2.2 詞干提取和停止詞移除 122
7.2.3 介紹正則表達式 124
7.3 使用并超越詞袋模型 126
7.3.1 理解詞袋模型 127
7.3.2 用n 元文法模型(n-grams)工作 128
7.3.3 實現TF-IDF 變換 130
7.4 使用圖數據來工作 131
7.4.1 理解鄰接矩陣 131
7.4.2 使用NetworkX 基礎 132
第8 章 將你所知的付諸于實踐 134
8.1 將問題和數據置于上下文中去理解 135
8.1.1 評估數據科學問題 136
8.1.2 研究方案 136
8.1.3 構想出假設 137
8.1.4 準備數據 138
8.2 思考創建特征的藝術 138
8.2.1 定義特征創建 138
8.2.2 組合變量 139
8.2.3 理解分級和離散化 140
8.2.4 使用指示變量 140
8.2.5 變換分布 140
8.3 在數組上執行運算 141
8.3.1 使用向量化 141
8.3.2 在向量和矩陣上執行簡單的算法 142
8.3.3 執行矩陣向量乘法 142
8.3.4 執行矩陣乘法 143
第3 部分 把不可見的東西可視化 145
第9 章 獲得MatPlotLib 的速成課程 147
9.1 開始使用圖表 148
9.1.1 定義標圖 148
9.1.2 畫多線條和多標圖 149
9.1.3 保存你的工作 149
9.2 設置軸、刻度和網格 150
9.2.1 得到軸 151
9.2.2 格式化軸 151
9.2.3 添加網格 152
9.3 定義線條外觀 153
9.3.1 使用線條樣式工作 153
9.3.2 使用顏色 155
9.3.3 添加標記 155
9.4 使用標簽、注釋和圖例 157
9.4.1 添加標簽 158
9.4.2 注釋圖表 158
9.4.3 創建圖例 159
第 10 章 將數據可視化 161
10.1 選擇合適的圖表 162
10.1.1 用餅圖展示整體的局部組成 162
10.1.2 用柱狀圖來創建比較 163
10.1.3 用直方圖來展示分布 164
10.1.4 使用箱線圖來描繪組 166
10.1.5 使用散點圖看數據模式 167
10.2 創建高級的散點圖 168
10.2.1 描繪組群 168
10.2.2 展示關聯 169
10.3 標繪時間序列 171
10.3.1 在軸上表示時間 171
10.3.2 標繪隨時間的趨勢 172
10.4 標繪地理數據 174
10.5 把圖做可視化 176
10.5.1 開發無向圖 176
10.5.2 開發有向圖 177
第 11 章 理解工具 180
11.1 使用IPython 控制臺 181
11.1.1 與屏幕文本交互 181
11.1.2 改變窗口外觀 182
11.1.3 獲取Python 幫助 184
11.1.4 獲取IPython 幫助 185
11.1.5 使用魔法函數 186
11.1.6 探索對象 187
11.2 使用IPython Notebook 188
11.2.1 使用樣式來工作 189
11.2.2 重啟內核 190
11.2.3 恢復檢查點 191
11.3 執行多媒體和圖像整合 192
11.3.1 嵌入標圖和其他圖片 192
11.3.2 從在線網站上加載例子 193
11.3.3 獲取在線圖像和多媒體 193
第4 部分 處理數據 195
第 12 章 拓展Python 的能力 197
12.1 玩轉Scikit-learn 198
12.1.1 理解Scikit-learn 中的類 198
12.1.2 為數據科學定義應用 199
12.2 執行散列法 202
12.2.1 使用散列函數 202
12.2.2 演示散列法 203
12.2.3 使用確定性選擇來工作 205
12.3 考慮計時和性能 206
12.3.1 用timeit 來做基線檢測 207
12.3.2 使用內存剖析器來工作 209
12.4 并行運行 210
12.4.1 執行多核并行化 211
12.4.2 演示多核處理 212
第 13 章 探索數據分析 214
13.1 EDA 方法 215
13.2 為Numeric 數據定義描述性的統計量 216
13.2.1 度量集中化趨勢 217
13.2.2 測量方差和區間 217
13.2.3 使用分位數來工作 218
13.2.4 定義正態化度量 219
13.3 為分類型數據計數 220
13.3.1 理解頻率 220
13.3.2 創建列聯表 221
13.4 為EDA 創建應用可視化 222
13.4.1 檢查箱線圖 222
13.4.2 在箱線圖之后執行t檢驗 223
13.4.3 觀察平行坐標 224
13.4.4 為分布作圖 225
13.4.5 標繪散點圖 226
13.5 理解相關性 228
13.5.1 使用協方差和關聯性 228
13.5.2 使用非參數相關性 230
13.5.3 考慮表格的卡方檢驗 230
13.6 修改數據分布 231
13.6.1 使用正態分布 232
13.6.2 創建Z 評分標準化 232
13.6.3 轉換其他的著名分布 232
第 14 章 降維 234
14.1 理解SVD 235
14.1.1 尋求降維 236
14.1.2 使用SVD 來測量不可見的信息 237
14.2 執行因子和主成分分析 238
14.2.1 考慮心理測量模型 239
14.2.2 尋找隱因子 239
14.2.3 使用成分,而不是因子 240
14.2.4 達成降維 240
14.3 理解一些應用 241
14.3.1 用PCA 來識別人臉 241
14.3.2 用NMF 來提取主題 244
14.3.3 推薦電影 246
第 15 章 聚類 249
15.1 用K-means 聚類 251
15.1.1 理解基于質心的算法 251
15.1.2 創建使用圖像數據的例子 253
15.1.3 尋找優化解決方案 254
15.1.4 大數據聚類 257
15.2 執行層次聚類 258
15.3 超越圓形簇:DBScan 261
第 16 章 檢測數據中的異常點 265
16.1 考慮異常檢測 266
16.1.1 找出更多可能出錯的地方 267
16.1.2 理解異常數據和新奇的數據 268
16.2 檢驗簡單的單變量法 268
16.2.1 利用高斯分布 270
16.2.2 做出假設并檢驗 270
16.3 開發多變量方法 271
16.3.1 使用主成分分析 272
16.3.2 使用聚類分析 273
16.3.3 使用SVM 將異常檢測自動化 274
第5 部分 從數據中學習 275
第 17 章 探索4 個簡單又有效的算法 277
17.1 猜測數字:線性回歸 277
17.1.1 定義線性模型家族 278
17.1.2 使用更多變量 279
17.1.3 理解限制和問題 280
17.2 轉移到邏輯回歸 281
17.2.1 應用邏輯回歸 281
17.2.2 考慮有更多類的時候 282
17.3 讓事情像樸素貝葉斯(Na veBayes)一樣簡單 283
17.3.1 發現樸素貝葉斯并不是那么樸素 285
17.3.2 預測文本分類 286
17.4 使用最近鄰來延遲學習 287
17.4.1 觀察鄰居之后做預測 288
17.4.2 明智地選擇k 參數 290
第 18 章 執行交叉驗證、選擇和優化 291
18.1 關于擬合模型問題的思考 292
18.1.1 理解偏差和方差 293
18.1.2 定義挑選模型的策略 294
18.1.3 劃分訓練集和測試集 296
18.2 交叉驗證 299
18.2.1 使用k 折交叉驗證 299
18.2.2 復雜數據的分層采樣 300
18.3 像專業人士那樣選擇變量 302
18.3.1 通過單變量度量來選擇 302
18.3.2 使用貪婪搜索 303
18.4 提升你的超參數 304
18.4.1 實現網格搜索 305
18.4.2 嘗試隨機化搜索 309
第 19 章 用線性和非線性技巧增加復雜性 311
19.1 使用非線性變換 312
19.1.1 執行變量變換 312
19.1.2 創建變量間的相互作用 314
19.2 正則化線性模型 317
19.2.1 依靠Ridge 回歸(L2) 318
19.2.2 使用Lasso(L1) 319
19.2.3 利用規范化 319
19.2.4 組合L1 和L2:Elasticnet 320
19.3 逐塊與大數據戰斗 320
19.3.1 當數據過多時來做決定 321
19.3.2 實現隨機梯度下降 321
19.4 理解支持向量機 323
19.4.1 依靠一種計算方法 324
19.4.2 修正很多新參數 327
19.4.3 用SVC 分類 328
19.4.4 走向非線性是簡單的 333
19.4.5 用SVR 來執行回歸 334
19.4.6 用SVM 創建隨機(stochastic)解決方案 336
第 20 章 理解多數的力量 340
20.1 以樸素的決策樹開始 341
20.1.1 理解決策樹 341
20.1.2 創建分類和回歸樹 343
20.2 讓機器學習得以應用 346
20.2.1 使用隨機森林分類器來工作 348
20.2.2 使用隨機森林回歸器來工作 349
20.2.3 優化隨機森林 349
20.3 Boosting 預測 351
20.3.1 了解多個弱預測器將勝出 351
20.3.2 創建梯度推進分類器 352
20.3.3 創建梯度推進回歸器 353
20.3.4 使用GBM 超參數 353
第6 部分 十大系列專題 355
第 21 章 10 個必不可少的數據科學資源集 357
21.1 用數據科學周刊獲得深入了解 358
21.2 在U Climb Higher 上獲取資源列表 358
21.3 用KDnuggets 來獲得一個良好的起點 359
21.4 訪問數據科學中心上的巨型資源列表 359
21.5 從專家處獲得開源數據科學情報 360
21.6 用Quora 來定位到免費的學習資源 360
21.7 在Conductrics 上接收高級主題的幫助 361
21.8 從立志數據科學家中學習新技巧 361
21.9 在AnalyticBridge 上尋找數據智能和分析資源 362
21.10 專注于Jonathan Bower的開發者資源 362
第 22 章 10 個你應該接受的挑戰 364
22.1 迎接數據科學倫敦+Scikit-learn 的挑戰 365
22.2 預測泰坦尼克號上的幸存者 366
22.3 尋找滿足你需求的Kaggle競賽 366
22.4 磨練你的過擬合策略 367
22.5 涉獵MovieLens 數據集 367
22.6 清除垃圾郵件 368
22.7 使用手寫信息工作 369
22.8 使用圖片工作 370
22.9 分析Amazon.com 審查 371
22.10 與巨圖交互 371
序: