-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

數據分析技術(第2版) 使用SQL和Excel工具

( 簡體 字)
作者:[美]Gordon S. Linoff 著 陶佰明 譯類別:1. -> 資料庫 -> SQL語言
   2. -> Office -> OFFICE -> EXCEL
譯者:
出版社:清華大學出版社數據分析技術(第2版) 使用SQL和Excel工具 3dWoo書號: 46363
詢問書籍請說出此書號!

缺書
NT售價: 490

出版日:3/1/2017
頁數:604
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302461395
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

本書的第1版使用我們熟悉的工具SQL和Excel,從實用的角度解釋數據分析。這本書的指導原則是從問題出發,同時從業務角度和技術角度提供解決方案,以指導讀者。這個方法被證明是非常成功的。
從第1版到現在已經過去了10年,這期間已經發生了很多變化,工具本身也發生了很多變化。例如,當年的Excel還沒有功能區,而且在當時的數據庫中,窗口函數也非常罕見。一些工具,如Python和R,以及NoSQL數據庫變得越來越常見,它們改變了分析師賴以生存的工具世界。然而,隨著技術延伸到大大小小的各項業務中,關系型數據庫在今天仍然被廣泛使用,而且SQL也變得更加至關重要。對于很多商務人士,Excel工具仍然是做報表和展示的理想之選。大數據不再是未知的領域,它是我們每天都會面臨的問題、挑戰和機遇。
根據底層軟件的變化,在第2版中對本書的內容做了調整和更新,同時包含了更多的示例和技術,以及增加了關于數據庫性能的一整章新內容。同時,我一直在努力保持本書第1版的優勢。本書仍然圍繞著數據、分析和展示的原則—— 少見地將三個功能放在一起處理。示例圍繞著所提出的問題,同時討論了這些問題的業務相關性和技術實現。示例使用的是真實的代碼。數據、代碼以及Excel示例都可以在配套網站上找到。
撰寫這本書的最初動機來源于我的一個同事—— Nick Drake,他是受過培訓的統計學家。曾經,他一直在尋找一本書,關于介紹如何使用SQL編寫可用于數據分析的復雜查詢。當時,基于SQL的書籍,要么介紹SQL的基礎查詢結構,要么介紹數據庫的工作原理。嚴格地講,沒有從分析數據的角度介紹SQL的書籍,也沒有基于回答數據問題的書籍。在統計學的眾多書籍中,沒有一本書能夠面對這樣一個事實提出解決方案:統計學所用的數據,多數都存儲于關系型數據庫中,而本書則填補了這一空白。
筆者與Michael Berry一起撰寫的其他關于數據挖掘的書籍,側重于高級算法和案例學習。相比之下,本書側重于“操作方式”。首先描述了存儲在數據庫中的數據,然后繼續完成準備數據和生成結果集的過程。書中穿插的內容,是我在這個領域多年經驗的結晶,解釋了結果集被應用的可能方式,以及為什么有些事情有效果,而有些事情無效。書中示例非常具有實踐性,它們所使用的數據都在本書的配套網站上(www.wiley.com/go/dataanaly- sisusingsqlandexcel2e)。
關于數據倉庫和分析數據庫的一個老生常談的話題是它們實際上沒有做任何事。是的,它們存儲數據,能夠將不同來源的數據匯集在一起,并整理數據使數據變得清晰。是的,它們定義業務維度,存儲關于客戶的事務,還可能總結重要的數據(是的,所有這些都非常重要!)然而,數據庫中的數據存儲在旋轉的硬盤上,而且數據在計算機內存中的數據結構非常復雜。對于如此多的數據,信息卻很少。
我們如何探索這些數據(特別是描述客戶的數據)?很多關于統計學建模和數據挖掘的華麗算法都有一條簡單的規則:“無用輸入,無用輸出”。即使是最復雜的技術,也只有當數據是好數據時,結果才是好的。數據是理解客戶、產品以及市場的中心。
本書中的章節覆蓋了數據的不同方面,同時包含了SQL和Excel支持的重要的數據分析技術。這些數據分析技術的范圍涵蓋了很多內容,從最初的探索性數據分析到生存分析,從超市購物車分析到樸素貝葉斯模型,從簡單的動畫到線性回歸。當然,本書不可能涵蓋所有的數據分析技術。本書所介紹的方法歷經時間的考驗,被認為是有用的且適用于很多不同的領域。
最后,只有數據和分析還不夠,還必須將結果展示給正確的觀眾。為完整地探索數據值,需要將數據轉化為故事和情景、圖表、數據指標和透視圖。
本書內容和技術綜述
本書側重于三個關鍵的技術領域,這些技術用于將數據轉化為可操作的信息:
● 關系型數據庫存儲數據。獲取數據的最基本的語言是SQL(注意,變種的SQL也用于NoSQL數據庫)。
● Excel工作表是展示數據的最常見工具。或許,Excel最強大的功能是繪圖,它能夠將包含數字的列轉換為圖片。
● 統計學是數據分析的基礎。
這三種技術一并介紹,是因為它們是彼此相關的。SQL回答“我們如何訪問數據?”統計學回答:“數據是如何相關的?”而使用Excel可以方便地向人們展示和證明我們所發現的結論。
關于數據處理的描述圍繞著SQL語言。在實際業務中,Oracle、PostgresSQL、MySQL、IBM DB2,以及微軟的SQL Server等都是常見的數據庫,它們存儲海量的業務數據事務信息。好消息是所有的關系型數據庫都支持SQL作為查詢語言。然而,正如英國和美國被稱為是“擁有共同語言的兩個國家”一樣,每種數據庫支持一些與眾不同的SQL方言。附錄列出了如何使用不同的SQL方言實現一些常見的功能。
相似地,也有其他華麗的展示工具和專業的制圖包。然而,對于一臺用于工作的電腦,安裝Excel或類似的電子表格工具是再常見不過的事情了。
統計學和數據挖掘技術通常并不需要高級工具。其中一些非常重要的技術,可以使用SQL和Excel輕易地實現,包括生存分析、相似模型、樸素貝葉斯模型和關聯規則。事實上,本書中介紹的方法通常比這些工具中的方法更強大,因為書中的方法更接近數據,因此它們更精準,而且容易定制。對這些技術的介紹涵蓋了基礎思想和深度擴展,這是在其他工具中所沒有的內容。
本書章節描述了不同的技術,在熟悉工具和數據的前提下,為數據建模和數據探索提供扎實的知識介紹。本書同時強調,當簡單工具遇到瓶頸時,高級工具是非常有用的。
內容結構
本書的14章可以分為4部分。前3章介紹SQL、Excel和統計學的核心概念。中間7章討論特別適合使用SQL和Excel的數據探索和數據分析技術。在后續的3章中,從統計學和數據挖掘的角度,介紹了關于建模的更正式的思想。最后,新增的第14章討論編寫SQL查詢時的性能問題。
每一章都通過不同的視角,介紹使用SQL和Excel做數據分析的方方面面,包括:
● 使用數據分析的基礎示例
● 分析師需要回答的問題
● 詳解數據分析技術的工作原理
● 實現技術的SQL語法
● 以表格或圖表展示結果,以及如何在Excel中創建它們
SQL是一門精準的語言,以至于有時難以讀懂。數據流程圖通常有助于理解SQL的工作原理。這些數據流程圖是SQL引擎實際處理數據的合理預測,當然,實際上的數據處理細節由數據庫引擎決定。
結果以表格或圖表的形式展現,分布在本書的所有章節中。此外,本書強調了Excel的一些重要特征,介紹了Excel圖表的一些有趣用法。每一章都有技術專欄,通常講述某項技術的重要方面或與正文內容相關的一些有趣歷史背景。
章節引導
第1章“數據挖掘者眼中的SQL”從數據分析的角度介紹SQL,這是SQL語言的查詢部分,使用SELECT查詢從數據庫中獲取數據。
第1章介紹了描述數據結構的實體-關系圖——表、列,以及它們彼此間的關系。該章同時介紹了用于描述查詢處理過程的數據流程圖;通過數據流程圖,能夠可視化地理解數據的處理過程。本章介紹了全書中使用到的一些重要功能——例如聯接、聚合和窗口函數。
此外,第1章還描述了全書示例所使用的數據集(該數據集也可以從網站自行下載)。數據包括存儲零售數據的表,存儲手機客戶數據的表,以及其他描述郵政編碼和日歷的引用表。
第2章“表中有什么?開始數據探索”介紹使用Excel做數據探索和結果展現。在Excel的眾多功能中,或許最有用的功能就是繪圖了。正如一句古老的中國諺語所說,“百聞不如一見”。Excel的繪圖依據是數據。這樣的圖表不僅美觀有用,同時在Word文檔、PPT展示、電子郵件、網站中也非常實用。
圖表并非終點,它們只是探索數據分析的一個方面。此外,本章還介紹了在表格中匯總列,以及使用Excel生成SQL查詢的有趣想法。
第3章“不同之處是如何不同”介紹了一些描述性統計學的核心概念,例如平均值、P值和卡方檢測。本章的目的是展示如何將這些技術應用于數據表中的數據上。至于這些統計學內容和統計學測試方法的選擇,是由它們的實用性決定的。同時,本章側重介紹這些知識的使用方法,而不是它們的理論內容。多數的統計學測試方法都可以使用Excel(甚至SQL)來實現。
SQL技術
一些技術非常適合使用SQL和Excel。
第4章“發生的地點在何處?”介紹了地理數據以及如何將地理信息納入數據分析中。地理信息首先是位置,以經度和緯度描述。位置也可以用不同等級的地理信息描述,例如人口普查區、郵政編碼區域,以及其他我們熟悉的國家和省份,這些數據都可從人口統計局(或是其他相似的政府機構)獲取。這一章也討論了如何使用不同地理等級比較結果集。最后,不包含地圖的地理信息是不完整的。使用基礎的Excel功能,可以創建非常初級的地圖。
第5章“關于時間”討論了客戶行為的另一個關鍵特征:什么時候發生。該章描述了如何訪問數據庫中的日期和時間,以及如何使用這些信息來幫助理解客戶。該章包含的示例,可以用于準確地比較不同年份的數據,并從歷史上計算每天的活躍客戶數量。該章最后介紹Excel中的一個簡單的動畫——也是本書中唯一一處使用Visual Basic的地方。
第6章和第7章介紹了用于理解客戶隨時間變化的最重要的數據分析技術。在傳統的統計學中,生存分析根深蒂固,而且它也很適合處理與客戶相關的問題。
第6章“客戶的持續時間有多久?使用生存分析理解客戶和他們的價值”介紹了風險率和生存率的基本思想,解釋了如何使用SQL和Excel簡單地計算它們。或許令人感到驚訝的是,在使用生存分析時,并不需要復雜的統計學工具。第6章后續介紹了生存分析應用在實際業務中的重要性,例如平均客戶生命周期。然后講解如何將這些片段拼接在一起,形成對客戶值計算的預測。
第7章“影響生存率的因素:客戶任期”擴展討論三個不同的領域。第一,它解決了在以客戶為中心的數據庫中的重要問題:左截斷(left-truncation)。第二,它介紹了生存分析領域中的一個非常有趣的思想:競爭風險。這個思想考慮了一個事實,即客戶是因不同原因而離開的。第三,將生存分析應用在分析前和分析后。即當客戶在其生命周期內發生一些事情時,我們如何量化所發生的事情,例如量化客戶加入忠誠計劃之后的影響,或量化一次失敗的主要計費方法。
第8章至第10章使用SQL和Excel介紹如何理解客戶正在購買的內容。
第8章“多次購買以及其他重復事件”介紹了關于購買事件的所有事——什么時候發生,在哪里發生,發生頻率——除了購買的東西。該章介紹了RFM,一種理解客戶購買行為的傳統技術。同時介紹了隨時間推移,在識別客戶時的種種問題。即使是在我們查看詳細的購買信息之前,我們也能發現很多關于購買的信息。
在第9章“購物車里有什么?購物車分析”中,產品成了焦點。該章介紹了隨時間推移,針對購買行為的探索性分析。該章包括了如何識別驅動客戶行為的產品,同時介紹了Excel中一些有趣的可視化方法。
第10章“關聯規則”轉移到對關聯規則的正式討論。關聯規則是指被同時購買或按序購買的產品組合。在SQL中建立關聯規則是相當復雜的。本章討論的方法擴展了傳統的關聯規則分析,介紹更有效的替換指標,并展示如何生成不同事物的組合。例如,單擊會導致一次購買行為(使用網站的一個實例)。在本章中解釋的關聯規則技術,比數據挖掘工具中的技術更強大,因為這里的技術是可以擴展的,并使用支持度、置信度和提升度之外的指標。
建模技術
接下來的3章討論統計學和數據挖掘的建模技術和方法。
第11章“SQL數據挖掘模型”介紹了數據挖掘的建模思想,以及建模相關的名詞。同時討論了一些重要的模型類型,這些模型適用于處理業務問題和SQL環境。相似性模型找到與給定示例相似的事物。查找模型使用查找表返回模型評分。
該章同時介紹了一種更復雜的建模技術,即樸素貝葉斯模型。這門技術可以總結不同業務維度的信息來估算未知的數值。
第12章“最佳擬合線:線性回歸模型”介紹了一種更傳統的統計學技術:線性回歸。該章介紹了不同種類的線性回歸,包括多項式回歸、加權回歸、多維回歸和指數回歸。這些內容以Excel圖表的形式介紹,同時包含R2值,用于衡量模型與數據的擬合度。
對回歸的介紹同時用到了Excel和SQL。雖然Excel中有幾種內置的功能可以處理回歸問題,但Solver比這些內置功能更強大。本章從線性回歸的角度介紹了Solver(Solver是可與Excel綁定的免費加載項)。
第13章“為進一步分析數據創建客戶簽名”介紹了客戶簽名。客戶簽名是一個數據結構,它總結了客戶在某個特定的時間點的數據。客戶簽名在建模時非常強大。
在介紹該章時認識到雖然SQL和Excel都非常強大,但有時還需要一些更復雜的工具。很多情況下,客戶簽名是總結客戶信息的正確方法,而且SQL是完成這類總結的強大工具。
性能
編寫SQL查詢的一個原因是性能——通過至少完成一些分析工作,可以將已有的硬件資源分配給關系型數據庫。編寫一本關于通用SQL而非指定數據庫的書籍,其缺點就是缺少關于特定數據庫的一些技巧和提示。
令人欣慰的是,很多關于編寫SQL的最佳實踐能夠普遍提升查詢在不同數據庫中的執行速度。第14章“性能問題:高效使用SQL”致力于這個話題。其中特別討論了索引和如何利用索引,同時還介紹了編寫查詢的不同方法?——以及為什么有些方法的性能更好。
本書讀者對象
本書面向不同技術等級的各類讀者。
技術方面不足的管理者,特別是那些負責理解客戶或業務單元的管理者。通常情況下,這樣的人精通Excel,然而,他們所需要的數據存儲于關系型數據庫中。為了幫助他們,本書中的示例提供了有用的結果集。這些示例十分詳盡,不僅展示了業務問題,同時展示了技術方法和結果。
另一部分讀者,他們的工作是理解數據和客戶,通常他們的職位描述中包含“分析師”字樣。這些人通常使用Excel和其他工具,有時直接訪問數據倉庫或一些以客戶為中心的數據庫。本書能幫助他們提高SQL查詢技巧,展示好的圖表示例,以及介紹生存分析和關聯規則,以便他們理解客戶和業務。
一部分重要的讀者是數據科學家,他們精通諸如R或Python這樣的工具,但是他們發現需要學習其他的工具。在業務世界中,以編程為中心的工具可能并不足以解決問題,分析師可能會發現他們不得不直接處理關系型數據庫中的數據,并以Excel形式展現給用戶。
技術等級更高的是統計學家,他們通常使用有特殊功能的工具,例如SAS、SPSS、R和S-plus。然而,數據存儲于數據庫中。本書可以在SQL技術方面為他們提供幫助,并提供數據分析示例以幫助他們解決業務問題。
此外,數據庫管理員、數據庫設計者和架構師應該會發現本書是非常有趣的。在不同章節中展示的查詢,說明了人們對數據的使用方式和方法。這些查詢應該可以促進數據庫管理員和設計者創建更適合使用的高效數據庫。
建議所有的讀者,即使是技術專家,閱讀或至少瀏覽前3章內容。這些章節全部從分析海量數據的視角,介紹SQL、Excel和統計學知識。這個視角與平常所讀書籍的視角不同。在這些章節中,有相當一部分的內容和想法貫穿全書,例如樣本數據、數據流、SQL語法和格式轉換、出色的圖標繪制。
需要的工具
本書是獨立的——讀者應該可以直接通過書中的內容閱讀并學習。
本書中的所有SQL語句都經過測試(在微軟SQL Server數據庫上,少量查詢在其他數據庫(PostgresSQL)上測試)。
本書中,多數示例是與數據庫供應商無關的,因此,它們(或稍作修改后)應該可以在所有的關系型數據庫中執行。這里不建議使用Microsoft Access或MySQL,因為它們缺少窗口函數——窗口函數是分析性查詢的關鍵功能。
如果沒有數據庫,可以下載一些程序包;數據庫供應商通常會提供一些免費的單機版本。
● 引用表。共有3個引用表,其中兩張表包含人口統計信息(來自于人口統計局2000年的統計數據),另一張表包含關于日期的日歷信息。
● Subscribers數據集,用于描述移動電話公司的客戶子集。
● Purchases數據集,用于描述客戶購買模式的數據集。
下載這些數據的同時,還可以下載將數據導入SQL Server和其他數據庫的使用說明。
此外,配套網站的其他頁面包含更多的信息。例如,將數據導入常見數據庫中的腳本,包含SQL查詢的工作表,以及本書中使用Excel生成的所有表格和圖表。
總 結
本書起源于一個同事的問題,他詢問是否有一本關于使用SQL做數據分析的參考書。然而,所需要的并不是簡單的關于SQL的參考書,即使它側重介紹使用SQL做數據查詢的實際使用。
對于數據分析,不能憑空學習SQL。一個SQL查詢,不管它編寫的多么精妙,通常不是一個業務問題的完整解決方案。業務問題,需要被轉換為可以使用查詢回答的問題。然后需要將結果展示出來,通常以表格或Excel圖表的形式。
筆者想要擴展這個觀點。在現實世界中,也不能憑空學習統計學知識。曾經,收集數據不僅花費時間且難以操作。現在,數據量非常足夠。例如,本書的配套網站,只需要輕點幾下,就能上傳幾GB的數據。數據分析的問題不再局限于幾個統計學方法,同時包括管理和抽取數據。
本書將三個核心概念融入到解決問題這一條線中。在筆者的數據挖掘生涯中,筆者發現SQL、Excel和統計學是分析數據的關鍵性工具,比某些特殊的技術更加重要。希望本書可以幫助讀者改進他們的技術,并為他們理解客戶和理解業務提供新思路。
內容簡介:

SQL是數據查詢的基本語言,Excel是數據分析和展示的最常見工具。兩者結合,可以組成一個強大且易于理解的業務數據分析工具。很多類重要的數據分析并不需要復雜且昂貴的數據挖掘工具。答案就在你的電腦桌上。
  這是一本實用指南,作者Gordon S. Linoff是數據挖掘領域的權威專家。書中介紹了如何使用SQL和Excel來設計并完成復雜的數據分析。本書的第1版被廣泛認可,第2版涵蓋了對SQL和Excel新功能的介紹,同時包括新的技術和實際業務示例。第2版介紹了業務經理和數據分析人員所需掌握的最新信息。
  本書首先介紹數據挖掘所用的SQL基礎知識,如何使用Excel展示結果,以及用于理解數據的簡單的統計學概念。熟悉執行SQL和操作Excel后,本書介紹了核心分析技術。本書內容逐步從基礎查詢擴展到復雜的應用,使讀者能夠學習到某種數據分析的使用原因和時機,如何設計和實現,以及展示數據分析結果的強大方法。每一步都詳細解釋了業務環境、技術方法以及在所熟悉工具中的具體實現。
  隨著對本書的閱讀,你會發現很多知識點,包括地理信息的重要性,圖表中的數據隨時間的變化方式,如何使用生存分析理解客戶任期和變動,以及影響生存率的因素。同時,還會探索到一些方法,包括分析客戶的購買模式、分析購物車以及計算關聯規則。此外,本書還包含重要的SQL數據挖掘模型(線性回歸模型、樸素貝葉斯模型等)、建立客戶簽名所需的信息、用于分析結果集的模型、包含累積增量圖表和ROC圖表、使用SQL的最佳實踐、提高查詢性能的方法等。
目錄:

第1章數據挖掘者眼中的SQL1

1.1數據庫、SQL和大數據2

1.1.1什么是大數據?2

1.1.2關系型數據庫3

1.1.3Hadoop和Hive3

1.1.4NoSQL和其他類型的數據庫3

1.1.5SQL4

1.2繪制數據結構4

1.2.1什么是數據模型?5

1.2.2什么是表?5

1.2.3什么是實體-關系圖表?8

1.2.4郵政編碼表9

1.2.5訂閱數據集10

1.2.6訂單數據集11

1.2.7關于命名的提示12

1.3使用數據流描述數據分析12

1.3.1什么是數據流?13

1.3.2數據流、SQL和關系代數16

1.4SQL查詢16

1.4.1做什么,而不是怎么去做16

1.4.2SELECT語句17

1.4.3一個基礎的SQL查詢17

1.4.4一個基本的SQL求和查詢19

1.4.5聯接表的意義20

1.4.6SQL的其他重要功能26

1.5子查詢和公用表表達式29

1.5.1用于命名變量的子查詢29

1.5.2處理統計信息的子查詢32

1.5.3子查詢和IN33

1.5.4用于UNIONALL的子查詢37

1.6小結38

第2章表中有什么?開始數據探索39

2.1什么是數據探索?40

2.2Excel中的繪圖40

2.2.1基礎圖表:柱形圖41

2.2.2單元格中的條形圖45

2.2.3柱形圖的有用變化形式47

2.2.4其他類型的圖表50

2.3迷你圖53

2.4列中包含的值55

2.4.1直方圖55

2.4.2計數的直方圖58

2.4.3計數的累積直方圖60

2.4.4數字值的直方圖(頻率)60

2.5探索更多的值——最小值、最大

值和模式64

2.5.1最小值和最大值64

2.5.2最常見的值(模式)65

2.6探索字符串值66

2.6.1長度的直方圖66

2.6.2起始或結尾包含空白字符

的字符串66

2.6.3處理大小寫問題67

2.6.4字符串中存儲的字符是

什么?67

2.7探索兩個列中的值69

2.7.1每個州的平均銷售額

是多少?70

2.7.2在一個單獨的訂單中,產品重復

出現的頻率是多少?70

2.7.3哪個州的AmericanExpress

用戶最多?73

2.8由一個列的數據擴展到所有列

的數據匯總73

2.8.1針對單列的匯總74

2.8.2返回表中所有列的查詢76

2.8.3使用SQL生成匯總編碼76

2.9小結78

第3章不同之處是如何不同?79

3.1基本的統計學概念80

3.1.1虛擬假設80

3.1.2可信度和概率81

3.1.3正態分布82

3.2平均值的區別有多大?85

3.2.1方法85

3.2.2子集平均值的標準差85

3.2.3三個方法87

3.3對表做抽樣89

3.3.1隨機抽樣89

3.3.2可重復的隨機樣本90

3.3.3分層比例抽樣91

3.3.4平衡的樣本92

3.4計數的可能性93

3.4.1有多少男性成員?96

3.4.2有多少加利福尼亞人?98

3.4.3虛擬假設和可信度99

3.4.4有多少客戶仍然是活躍

客戶?100

3.4.5比率或數字?103

3.5概率和它們的統計104

3.5.1概率的標準差104

3.5.2概率的置信區間105

3.5.3概率的不同106

3.5.4保守的下限值107

3.6卡方檢驗107

3.6.1期望值108

3.6.2卡方計算108

3.6.3卡方分布109

3.6.4SQL中的卡方檢驗111

3.6.5州和產品之間的特殊關系112

3.7月份和支付類型與不同產品

類型的特殊關系114

3.7.1多維卡方114

3.7.2使用SQL查詢115

3.7.3結果115

3.8小結116

第4章發生的地點在何處?119

4.1緯度和經度120

4.1.1緯度和經度的定義120

4.1.2度數、分鐘和秒121

4.1.3兩個位置之間的距離122

4.1.4包含郵政編碼的圖片128

4.2人口統計131

4.2.1極端情況:最富有的和最貧

窮的人132

4.2.2分別在使用訂單和不使用訂

單的情況下比較郵政編碼137

4.3地理等級142

4.3.1州中最富有的郵政編碼142

4.3.2州中擁有最多訂單的郵政

編碼143

4.3.3地理數據中有趣的層級

結構145

4.3.4計算郡的財富148

4.3.5財富值的分布150

4.3.6在郡中,哪個郵政編碼是相對

最富有的?151

4.3.7擁有最高的相對訂單占有

份額的郡152

4.4在Excel中繪制地圖155

4.4.1為什么繪制地圖?155

4.4.2不能繪圖156

4.4.3網絡地圖156

4.4.4郵政編碼散點圖之上的州

邊界157

4.5小結159

第5章關于時間161

5.1數據庫中的日期和時間162

5.2開始調研日期166

5.2.1確認日期中沒有時間166

5.2.2根據日期比較計數167

5.2.3訂單數和訂單大小172

5.2.4星期175

5.3兩個日期之間有多長?178

5.3.1以天為單位的持續時間178

5.3.2以星期為單位的持續時間180

5.3.3以月為單位的持續時間180

5.3.4有多少個星期一?181

5.3.5下一個周年紀念日(或生日)

是什么時候?184

5.4跨年比較188

5.4.1以天為單位比較188

5.4.2以星期為單位比較189

5.4.3以月為單位比較190

5.5以天計算活躍客戶數量196

5.5.1某天的活躍客戶數量196

5.5.2每天的活躍客戶數量196

5.5.3有多少不同類型的客戶?198

5.5.4不同任期時段的客戶數量198

5.5.5只使用SQL計算活躍客戶201

5.6Excel中的簡單圖表動畫203

5.6.1從訂單生成日期到運貨

日期203

5.6.2訂單延時在每年中的變化205

5.7小結208

第6章客戶的持續時間有多久?使用

生存分析理解客戶和他們的

價值209

6.1生存分析210

6.1.1平均壽命211

6.1.2醫學研究212

6.1.3關于風險率的示例212

6.2風險計算213

6.2.1數據調研214

6.2.2風險率216

6.2.3客戶可視化:時間與任期217

6.2.4截尾219

6.3生存率和保留率220

6.3.1生存率的點的估計220

6.3.2計算任意任期的生存率221

6.3.3在SQL中計算生存率222

6.3.4簡單的客戶保留率計算225

6.3.5保留率和生存率的區別226

6.3.6風險率和生存率的簡單

示例227

6.4對比不同的客戶分組230

6.4.1市場總結230

6.4.2市場分層231

6.4.3生存率比例234

6.4.4條件生存率234

6.5隨時間變化的生存率236

6.5.1特定風險率隨時間的變化236

6.5.2按照起始年份分類的客戶

生存率238

6.5.3之前的生存率什么樣?239

6.6由生存率衍生出來的重要

指標241

6.6.1估算生存點241

6.6.2客戶任期的中間值242

6.6.3客戶生命周期的中間值242

6.6.4風險率的置信度243

6.7使用生存率計算客戶價值245

6.7.1估算收入246

6.7.2對個體的未來收入的估算247

6.7.3當前客戶分組的收入估算249

6.7.4所有客戶未來收入的估算251

6.8預測253

6.8.1對已有客戶的預測254

6.8.2對新開始者的預測258

6.9小結259

第7章影響生存率的因素:客戶

任期261

7.1哪些因素是重要的,何時

重要?262

7.1.1方法說明262

7.1.2使用平均值比較數字因素264

7.1.3風險比例268

7.2左截斷271

7.2.1認識左截斷271

7.2.2左截斷的影響273

7.2.3如何從理論上解決左截斷

問題274

7.2.4估算一個任期的風險率275

7.2.5估算所有任期的風險率276

7.2.6在SQL中計算277

7.3時間窗278

7.3.1一個商業問題278

7.3.2時間窗=左截斷+右截尾278

7.4競爭風險283

7.4.1競爭風險的示例283

7.4.2競爭風險的“風險率”284

7.4.3競爭風險的“生存率”286

7.4.4隨著時間的變化,客戶身上

發生了什么?287

7.5事件前后291

7.5.1三種情況291

7.5.2使用生存率預測來理解一次

性事件293

7.5.3比較前后風險率294

7.5.4基于對列的方法294

7.5.5基于對列的方法:完全隊列295

7.5.6事件影響的直接估計297

7.6小結301

第8章多次購買以及其他重復事件303

8.1標識客戶304

8.1.1誰是那個客戶?304

8.1.2其他客戶信息313

8.1.3每一年出現多少新客戶?316

8.2RFM分析325

8.2.1維度325

8.2.2計算RFM單元格329

8.2.3RFM的有用程度330

8.3隨著時間的變化,哪些家庭的

購買金額在增長?334

8.3.1最早值和最晚值的比較334

8.3.2第一年和最后一年的值的

比較341

8.3.3最佳擬合線的趨勢343

8.4距離下一次事件的時間344

8.4.1計算背后的想法344

8.4.2使用SQL計算下一次購買

日期345

8.4.3從下一次購買日期到時間至

事件的分析346

8.4.4時間到事件分析的分層347

8.5小結347

第9章購物車里有什么?購物車

分析349

9.1探索產品349

9.1.1產品的散點圖350

9.1.2產品組的運輸年份351

9.1.3訂單中的重復產品353

9.1.4單位數量的直方圖358

9.1.5在一個訂單中,哪個產品可能

出現多次購買的情況?359

9.1.6改變價格361

9.2產品和客戶價值362

9.2.1訂單大小的一致性362

9.2.2與一次性客戶關聯的產品365

9.2.3與最好的客戶相關的產品368

9.2.4剩余價值370

9.3產品的地理分布372

9.3.1每一個州中最常見的產品372

9.3.2哪些產品廣受歡迎,哪些產品

只在本地受歡迎?373

9.4哪些客戶購買了指定產品?375

9.4.1哪些客戶擁有最受歡迎的

產品?375

9.4.2客戶擁有哪個產品?376

9.4.3哪些客戶有3個特定的

產品?381

9.4.4普遍的嵌套集合的查詢384

9.5小結385

第10章關聯規則387

10.1項集388

10.1.1兩個產品的組合388

10.1.2更常見的項集391

10.1.3家庭,而不是訂單396

10.2最簡單的關聯規則399

10.2.1關聯和規則400

10.2.2零項關聯規則400

10.2.3概率的分布情況401

10.2.4零項關聯告訴了我們

什么?402

10.3單項關聯規則402

10.3.1單項關聯規則的價值402

10.3.2生成所有的單項規則404

10.3.3包含評估信息的單項

規則405

10.3.4基于產品組的單項規則406

10.4雙項關聯407

10.4.1計算雙項關聯408

10.4.2使用卡方找到最佳規則409

10.4.3異質相關413

10.5擴展關聯規則416

10.5.1多項關聯416

10.5.2一個查詢中的多項關聯418

10.5.3使用產品屬性的規則418

10.5.4左右兩側項集內容不同

的規則419

10.5.5之前和之后:有序關聯

規則419

10.6小結422

第11章SQL數據挖掘模型423

11.1定向數據挖掘介紹424

11.1.1定向模型424

11.1.2建模中的數據425

11.1.3建模應用示例427

11.1.4模型評估429

11.2相似性模型429

11.2.1模型是什么?430

11.2.2最好的郵政編碼是

哪個?430

11.2.3基礎的相似性模型431

11.2.4使用Z分數計算相似性

模型433

11.2.5鄰近模型示例434

11.3最受歡迎產品的查找模型435

11.3.1最受歡迎的產品435

11.3.2計算最受歡迎的產品組436

11.3.3評估查找模型437

11.3.4使用調試查找模型做

預測437

11.3.5使用二元分類439

11.4用于訂單大小的查找模型440

11.4.1最基本的模型:無維度

模型440

11.4.2添加一個維度441

11.4.3添加額外的維度443

11.4.4檢查不穩定性443

11.4.5使用平均值圖表評估

模型444

11.5用于響應率的查找模型445

11.5.1將整體概率作為一個

模型445

11.5.2探索不同的維度446

11.5.3模型的精準度447

11.5.4ROC圖表和AUC450

11.5.5加入更多的維度453

11.6樸素貝葉斯模型(證據模型)455

11.6.1概率的一些概念455

11.6.2計算樸素貝葉斯模型457

11.6.3樸素貝葉斯模型:評分和

提升度463

11.6.4樸素貝葉斯模型和查找

模型的比較465

11.7小結466

第12章最佳擬合線:線性回歸

模型467

12.1最佳擬合線468

12.1.1任期和支付金額468

12.1.2最佳擬合線的屬性469

12.1.3小心數據473

12.1.4圖表中的趨勢線474

12.1.5使用LINEST()函數的

最佳擬合479

12.2使用R2衡量擬合程度483

12.2.1R2值483

12.2.2R2的局限性484

12.2.3R2的含義484

12.3直接計算最佳擬合線系數485

12.3.1計算系數485

12.3.2在SQL中計算最佳

擬合線486

12.3.3價格彈性487

12.4加權的線性回歸492

12.4.1在第一年停止的客戶492

12.4.2加權的最佳擬合493

12.4.3圖表中的加權最佳

擬合線494

12.4.4SQL中的加權最佳

擬合線495

12.4.5使用Solver的加權最佳

擬合線496

12.5多個輸入498

12.5.1Excel中的多維回歸498

12.5.2建立包含三個變量的

模型500

12.5.3使用Solver處理多維

回歸501

12.5.4逐個選擇輸入變量501

12.5.5SQL中的多維回歸502

12.6小結503

第13章為進一步分析數據創建客戶

簽名505

13.1什么是客戶簽名?506

13.1.1什么是客戶?506

13.1.2客戶簽名的源數據507

13.1.3使用客戶簽名510

13.2設計客戶簽名511

13.2.1調試和預測511

13.2.2字段的角色511

13.2.3時間段512

13.3建立客戶簽名的操作515

13.3.1驅動表515

13.3.2查找數據518

13.3.3最初的交易520

13.3.4旋轉521

13.3.5總結528

13.4抽取特征530

13.4.1地理位置信息530

13.4.2日期時間列531

13.4.3字符串中的模式532

13.5總結客戶行為534

13.5.1計算時間序列的斜率534

13.5.2周末消費者537

13.5.3下降的使用行為540

13.6小結541

第14章性能問題:高效使用SQL543

14.1查詢引擎和性能544

14.1.1用于理解性能的時間

復雜度544

14.1.2一個簡單的示例545

14.1.3與性能相關的思考547

14.1.4性能的含義和測量549

14.1.5性能提升入門549

14.2高效使用索引553

14.2.1什么是索引?553

14.2.2索引的簡單示例557

14.2.3索引的限制560

14.2.4高效使用復合索引562

14.3何時使用OR是低效的?566

14.3.1有時UNIONALL比OR

更好566

14.3.2有時LEFTOUTERJOIN比

OR更高效567

14.3.3有時多個條件表達式

更好568

14.4贊成和反對:表達一件事情的

不同方法569

14.4.1在Orders表中,哪些州

沒有被識別?569

14.4.2一個關于GROUPBY的

難題571

14.4.3小心COUNT(*)=0573

14.5窗口函數576

14.5.1窗口函數適用于什么

地方?576

14.5.2窗口函數的靈活使用576

14.6小結582

附錄數據庫之間的等價結構583

序: