數據預處理從入門到實戰 基于SQL、R、Python ( 簡體 字) |
作者:[日]本橋智光 | 類別:1. -> 資料庫 -> SQL語言 2. -> 程式設計 -> R語言 3. -> 程式設計 -> Python |
譯者: |
出版社:人民郵電出版社 | 3dWoo書號: 54006 詢問書籍請說出此書號!【缺書】 NT售價: 445 元 |
出版日:2/1/2021 |
頁數:253 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787115552327 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介:在大數據、人工智能時代,數據分析必不可少。本書以數據分析中至關重要的數據預處理為主題,通過54道例題具體介紹了基于SQL、R、Python的處理方法和相關技巧。全書共4個部分:第1部分介紹預處理的基礎知識;第2部分介紹以數據結構為對象的預處理,包括數據提取、數據聚合、數據連接、數據拆分、數據生成和數據擴展;第3部分介紹以數據內容為對象的預處理,涉及數值型、分類型、日期時間型、字符型和位置信息型;第4部分為預處理實戰,介紹與實際業務相同的預處理流程。 本書適合新手數據科學家、系統工程師、具備編程及數理基礎的技術人才,以及對數據挖掘和數據分析等感興趣的人閱讀。 |
目錄:第 1部分 預處理入門 1 第 1章 什么是預處理 2 1-1 數據 2 記錄數據 2 數據類型 3 1-2 預處理的作用 3 機器學習 4 無監督學習和有監督學習 4 用于數據分析的3種預處理 5 1-3 預處理的流程 6 對數據結構的預處理 7 對數據內容的預處理 7 預處理的步驟 7 1-4 3種編程語言 9 正確使用編程語言 9 1-5 包和庫 10 用于數據分析的包和庫 10 1-6 數據集 11 酒店預訂記錄 12 工廠產品記錄 13 月度指標記錄 14 文本數據集 14 1-7 讀取數據 14 第 2部分 對數據結構的預處理 19 第 2章 數據提取 20 2-1 提取指定的列 20 Q 提取列 21 2-2 按指定條件提取 26 Q 按條件提取數據行 28 Q 間接利用索引提取數據行 33 2-3 不基于數據值的采樣 35 Q 隨機采樣 35 2-4 基于聚合ID的采樣 38 Q 按ID采樣 39 第3章 數據聚合 43 3-1 計算數據條數和類型數 43 Q 計數和唯一值計數 44 3-2 計算合計值 48 Q 合計值 48 3-3 計算最值、代表值 50 Q 代表值 51 3-4 計算離散程度 54 Q 方差和標準差 54 3-5 計算眾數 57 Q 眾數 58 3-6 排序 61 排序函數 61 Q 為時序數據添加編號 62 Q 排序 66 第4章 數據連接 69 4-1 主表的連接 69 Q 主表的連接 70 4-2 切換按條件連接的表 77 Q 切換按條件連接的主表 77 4-3 連接歷史數據 84 Q 獲取往前數第n條記錄的數據 85 Q 前n條記錄的合計值 88 Q 前n條記錄的平均值 92 Q 過去n天的合計值 95 4-4 交叉連接 99 Q 交叉連接處理 99 第5章 數據拆分 105 5-1 記錄數據中模型驗證數據的拆分 105 Q 交叉驗證 107 5-2 時序數據中模型驗證數據的拆分 111 Q 準備時序數據中的訓練數據和驗證數據 113 第6章 數據生成 117 6-1 通過欠采樣調整不平衡數據 118 6-2 通過過采樣調整不平衡數據 119 Q 過采樣 120 第7章 數據擴展 124 7-1 轉換為橫向顯示 124 Q 轉換為橫向顯示 125 7-2 轉換為稀疏矩陣 128 Q 稀疏矩陣 128 第3部分 對數據內容的預處理 131 第8章 數值型 132 8-1 轉換為數值型 132 Q 各種數據類型的轉換 132 8-2 通過對數化實現非線性變換 135 Q 對數化 137 8-3 通過分類化實現非線性變換 139 Q 數值型的分類化 140 8-4 歸一化 142 Q 歸一化 143 8-5 刪除異常值 146 Q 根據標準差刪除異常值 146 8-6 用主成分分析實現降維 148 Q 用主成分分析實現降維 149 8-7 數值填充 152 Q 刪除缺失記錄 153 Q 用常數填充 155 Q 均值填充 157 Q 用PMM實現多重插補 160 第9章 分類型 164 9-1 轉換為分類型 164 Q 分類型的轉換 165 9-2 啞變量化 168 Q 啞變量化 169 9-3 分類值的聚合 171 Q 分類值的聚合 172 9-4 分類值的組合 175 Q 分類值的組合 175 9-5 分類型的數值化 177 Q 分類型的數值化 178 9-6 分類型的填充 181 Q 用KNN填充 182 第 10章 日期時間型 185 10-1 轉換為日期時間型、日期型 185 Q 日期時間型、日期型的轉換 185 10-2 轉換為年、月、日、時、分、秒、星期 189 Q 獲取各日期時間元素 190 10-3 轉換為日期時間差 194 Q 計算日期時間差 195 10-4 日期時間型的增減 200 Q 日期時間的增減處理 200 10-5 轉換為季節 203 Q 轉換為季節 204 10-6 轉換為時間段 208 10-7 轉換為工作日、休息日 209 Q 添加休息日標志 209 第 11章 字符型 212 11-1 通過形態分析進行分解 213 Q 提取名詞和動詞 213 11-2 轉換為單詞的集合數據 215 Q 創建詞袋 216 11-3 用TF-IDF調整單詞權重 220 Q 創建使用TF-IDF的詞袋 221 第 12章 位置信息型 224 12-1 從日本坐標系到世界坐標系的轉換以及從度、分、秒到度的轉換 224 Q 從日本坐標系轉換為世界坐標系 224 12-2 兩點間距離、方向的計算 228 Q 計算距離 228 第4部分 預處理實戰 233 第 13章 實戰練習 234 13-1 聚合分析的預處理 234 Q 聚合分析的準備工作 234 13-2 用于推薦的預處理 238 Q 生成推薦矩陣 238 13-3 預測建模的預處理 243 Q 用于預測建模的預處理 243 結語 254 參考文獻 255 |
序: |