-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

文本數據挖掘——基于R語言

( 簡體 字)
作者:黃天元類別:1. -> 程式設計 -> R語言
譯者:
出版社:機械工業出版社文本數據挖掘——基于R語言 3dWoo書號: 54500
詢問書籍請說出此書號!

缺書
NT售價: 445

出版日:4/1/2021
頁數:181
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111677505
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

文本是一種特殊的非結構化數據,在當今的大數據時代,其價值日趨凸顯。本書利用開源而強大的R軟件,對文本數據挖掘的概念、技術及技巧進行了系統的介紹。本書共11章,內容包括:走進文本數據挖掘,R語言快速入門,字符串的基本處理,用好正則表達式,導入各類文本數據,對各類文本數據進行預處理,文本特征提取的4種方法,基于機器學習的文本分類方法,文本情感分析,文本可視化,文本數據挖掘項目實踐。本書還提供了豐富的應用案例和程序源代碼引導讀者高效學習。

本書適合對文本數據挖掘感興趣的學生、科研人員和數據科學從業者閱讀。同時,本書還可以作為工具書,為需要經常進行文本數據挖掘的讀者提供快速檢索。
目錄:

第1章 走進文本數據挖掘1
1.1 什么是文本數據挖掘1
1.2 為什么要做文本數據挖掘2
1.3 如何進行文本數據挖掘2
1.3.1 文本數據挖掘的流程2
1.3.2 文本數據挖掘的基本任務及方法4
1.4 文本數據挖掘軟件工具概覽5
第2章 文本數據挖掘利器—R語言7
2.1 開發環境配置7
2.1.1 下載并安裝R軟件7
2.1.2 包的管理8
2.1.3 版本升級9
2.1.4 集成開發環境10
2.2 R的基本數據類型11
2.2.1 數值型12
2.2.2 邏輯型12
2.2.3 字符型12
2.2.4 因子型13
2.3 R的常用數據結構13
2.3.1 向量13
2.3.2 矩陣14
2.3.3 列表14
2.3.4 數據框15
2.4 R的基礎編程知識15
2.4.1 賦值15
2.4.2 函數16
2.4.3 強制類型轉換16
2.4.4 條件判斷17
2.4.5 循環操作17
2.5 數據操作入門19
2.5.1 文件讀寫19
2.5.2 數據框的檢視25
2.5.3 單表操作28
2.5.4 多表操作37
2.5.5 缺失值處理42
2.5.6 長寬數據轉換46
第3章 從基礎做起1—字符串的基本處理51
3.1 字符串的構造51
3.2 字符串的辨識、計數與定位52
3.3 字符串的提取53
3.4 字符串的定制化輸出54
3.5 字符串的替換與刪除56
3.6 字符串的拼接與拆分57
3.7 字符串的排序57
第4章 從基礎做起2—用好正則表達式59
4.1 通配符解析59
4.1.1 點運算符(“.”)60
4.1.2 字符集(“[]”)60
4.1.3 否定字符集(“[^ ]”)61
4.1.4 出現0次或更多(“*”)61
4.1.5 出現1次或更多(“+”)62
4.1.6 出現0次或1次(“?”)62
4.1.7 出現次數范圍限制(“{}”)62
4.1.8 特征標群(“(...)”)62
4.1.9 或運算符(“|”)63
4.1.10 轉義字符(“\\”)63
4.1.11 匹配開頭部分(“^”)63
4.1.12 匹配結尾部分(“$”)64
4.2 反向引用64
4.3 簡寫字符集65
4.4 貪婪匹配與惰性匹配66
4.5 零寬斷言67
4.5.1 正先行斷言(“?=...”)67
4.5.2 負先行斷言(“?!...”)68
4.5.3 正后發斷言(“?<= ...”)68
4.5.4 負后發斷言(“?4.5.5 提取括號中的內容68
第5章 步入正題—導入各類文本數據70
5.1 readtext包簡介70
5.2 不同格式文本文件的導入70
5.2.1 讀取txt文件71
5.2.2 讀取csv/tsv文件72
5.2.3 讀取json文件74
5.2.4 讀取pdf文件74
5.2.5 讀取Word文件75
5.2.6 讀取html文件75
5.2.7 讀取壓縮包75
5.3 讀入不同編碼格式的文檔76
5.4 文件數據結構的轉化77
第6章 更進一步—對各類文本數據進行預處理79
6.1 拼寫糾錯79
6.2 文本切分80
6.2.1 段落切分81
6.2.2 句子切分82
6.2.3 詞語切分82
6.2.4 n元切分85
6.2.5 字符切分85
6.3 去除標點86
6.4 去除停用詞86
6.5 擴展縮寫87
6.6 詞干提取87
6.7 詞形還原與詞性標注88
6.8 批量文檔預處理90
第7章 上手文本數據挖掘—文本特征提取的4種方法92
7.1 基本特征提取92
7.2 基于TF-IDF的特征提取94
7.3 詞嵌入96
7.3.1 基于BOW96
7.3.2 基于word2vec98
7.3.3 基于GloVe100
7.3.4 基于fastText101
7.4 文檔向量化:doc2vec102

第8章 文本分類—基于機器學習的方法105
8.1 無監督分類105
8.1.1 基于文本相似度的聚類105
8.1.2 基于網絡集群識別的自動化聚類120
8.1.3 基于主題模型的分類125
8.2 有監督分類129
8.2.1 二分類129
8.2.2 多分類136
第9章 深入理解文本內涵—文本情感分析142
9.1 英文情感分析142
9.1.1 RSentiment143
9.1.2 sentimentr144
9.1.3 SentimentAnalysis145
9.1.4 meanr147
9.1.5 sentometrics148
9.2 中文情感分析151
9.2.1 環境與數據準備151
9.2.2 情感詞典準備151
9.2.3 中文分詞152
9.2.4 分值計算152
9.2.5 小結152
第10章 文本數據的直觀表達—文本可視化153
10.1 條形圖153
10.2 克利夫蘭點圖155
10.3 矩形樹狀圖156
10.4 詞云157
10.5 詞匯位置分布圖159
10.6 網絡圖164
10.7 雙文檔對比可視化167
第11章 舉一反三—文本數據挖掘項目實踐170
11.1 情感分析案例:量化中文新聞報道中的情感走勢170
11.2 文本分類案例:基于詞袋模型對英文期刊摘要來源進行分類176
11.3 關鍵詞提取案例:根據CRAN的介紹文本提取R包關鍵字181
序: