-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

大數據:規劃、實施、運維

( 簡體 字)
作者:謝朝陽類別:1. -> 程式設計 -> 大數據
譯者:
出版社:電子工業出版社大數據:規劃、實施、運維 3dWoo書號: 49229
詢問書籍請說出此書號!

有庫存
NT售價: 490

出版日:5/1/2018
頁數:552
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121339523
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

你是不是有這樣的困惑:“讀了不少關于大數據的書,發現這大數據既可以用于競選美國總統,又能夠預測禽流感,還能賣啤酒和尿不濕,又是圍棋高手……大數據好像什么都能干耶!可是咋整呀?大數據多大為大呀?大數據能賺錢不?……唉,怎么還是一頭霧水。”
當你拿到這本書就對了。大數據,大數據,多大算大呢?當所要處理的數據量超過了現有的計算環境的數據處理能力時,就是大數據了。它可以是ZB、EB、PB、TB級的,也可以是GB級的。當然,如果你的資金足夠充裕,可以買得起TB級的內存、上百個處理器插槽以及海量的存儲設備,那對別人來說是大數據,對你而言可能就只是小數據了。
大數據本身就是人類求知的過程,從數字,到數據,到信息,到知識,再到知識的運用,而后,優劣有別的運用結果又反饋到數據中,周而復始。其實,大數據所面臨的場景只有兩種:已知和未知。在已知的場景下需要累積大量的樣本,或者,在有公認規則的前提下—如棋藝類,按照規則自己生成樣本,AlphaZero就屬于這一類。而未知的場景就只能是做預測了。預測究竟能有多準?或許“Most likely”是最保險的答案。大數據既沒有預測到美國總統特朗普的當選,也沒有準確預測到埃博拉,沃爾瑪也從未把啤酒和尿不濕放在一起。預測不準是常態,預測準是概率事件。
國內的IT熱潮一波接著一波,儼然就像一場場運動。先是云計算,接著又是大數據。各路玩家都想追一下這些時髦熱詞的風潮,生怕趕不上,紛紛試著尋找將大數據整合到自身IT系統中的可能性。而原本的IT公司和從業者更是絞盡腦汁地想要在大數據業務中開拓新的市場。媒體對大數據產業未來幾年的發展更是持有過熱的描述,甚至對2020年的大數據產業規模給出了5萬億元的驚人估值,充滿了Big Data = IT的味道。
在此背景下,一大批冠以大數據標題的書籍上架。就當前每年出版的大數據書籍的性質與數量來看,多數都屬于通俗類、科普類以及吸引眼球的讀物范疇。有些大數據著作中充滿著“正確的廢話”,而在真正意義上具有實踐價值的內容少而又少。然而,其中并不乏受到熱捧的作品。
這也在一定程度上反映出讀者的求知心理:希望只需遵循一定的閱讀捷徑,就能消化掌握相關的技術,成為高手。然而,在閱讀完眾多所謂的技術類書籍后,讀者卻并不能收獲到預期的效果。要么只模模糊糊地“見森林見不到樹木”,要么又好像“摸到了樹木見不到森林”,越來越迷茫。
究其原因,這類書籍并未本著科學的理念來傳播可用于實踐的知識與技術,更多的是為了迎合熱點話題,以一種美化的甚至扭曲的形式來對新技術做介紹,缺乏嚴謹性和實用性,缺乏將技術以“科學知識”的高度進行傳授的態度,更少了如何將技術落地到實處的關鍵內容,甚至很多書是作者為了提升職稱和賺取稿酬等目的而拼湊的。當然,寫書也是一門營生,追逐熱潮沒有錯,可是過熱的“泡沫來,泡沫往”卻并不可取。對新技術的學習應該落到實處,切不可以訛傳訛,Be careful with what you read,就是這個意思。
事實上,大數據的應用實情或許并不像許多例子中所描述的那樣可以用來當興奮劑。現階段對大數據,從概念到應用,連認識都不清晰,更談不上數據挖掘的深度。此時如果不對大數據有一個嚴謹客觀的傳授,可能會使讀者在理解上產生謬誤、從路線上走偏,甚至當前已經出現了不少對大數據認識的誤區。可以發現,眾多談大數據的書籍中反復引用著幾個所謂“經典”的例子,其實只不過是作者們的想象,經不起推敲。甚至一些例子所談論的情況與大數據這個詞匯一點關系都沒有,譬如廉價機票、啤酒和尿不濕等。
今天再談大數據,應該先摒棄盲目樂觀以及炒作的成分。如果還是停留在反復談論具有吸引眼球效果的數字和示例(如谷歌預測流感、奧巴馬競選總統等)上,談論便失去了意義。
大數據或大數據技術就是工具。要讓工具用得好,首先得用對地方,其次要會正確地使用。
基于以上認識,身為一線的數據從業者,作者深感為大數據從業者提供系統的正確的知識與觀念正當其時。本書即是在此背景下編寫的,旨在根據作者個人多年的從業經驗和心得,從科學知識的高度出發,一步步幫助讀者將大數據變成看得見摸得著的東西,使之有效實施,真正落地成為有用的工具。
除技術層面的內容外,本書立足于大數據的實踐和商業價值,從規劃、實施到運維來進行闡述。本書在構想與撰寫時,遵循了以下原則。
在對象方面,本書兼顧專業化與大眾化,且遵循著可以將本書作為研究生課程教材的撰寫原則,在知識的深度和廣度上,一方面與高校專業教育水準相符合,另一方面也進階到大數據專業從業者水準。此外,大數據作為當前的IT技術熱點,也是大眾非常想了解的領域。為適應大眾讀者的需要,也為了使大數據技術可以獲得更廣泛的推廣,本書力求要使普通讀者也能夠理解吸收。因此在取材與撰寫時,除在文字上深入淺出外,在用例方面也盡量運用合適的例子把事情說清說透。事實上,本書的大部分內容曾用在作者為華中師范大學和上海交通大學碩士、博士研究生開設的大數據科學應用課程中,收到了良好的反饋。
在內容方面,本書采用將學術性與實用性相結合且更突出實用性的原則。大數據技術可以算作一種理論性的學科技術,需要重視對其所包含理論的探討。在大數據范疇內,涉及包括統計學、人工智能等在內的各類專業知識,就連大數據這個詞本身也是一個含義紛呈、范圍甚廣、概念抽象的名詞。而在大數據技術的另一個層面上,它又是與實踐緊密聯系的,多數讀者希望通過學習大數據書籍來解決最實際的大數據軟硬件平臺及應用的建設問題,而且大數據這一概念本身也是從實際的數據行業需求中產生出來的。因此,本書在內容上,力求結合理論與實際,既探討必要的理論知識,給予讀者正確的概念,又重視實踐的各個環節。
在架構方面,本書采用專門性與普遍性均衡原則。就知識范圍而言,大數據技術是多種技術的組合,從單一的需求出發點可以分化到涉及大數據規劃、實施、運維全生命周期的各個不同的細分技術環節。本書內容注重大數據技術中的普通知識與深入的專業技術之間的均衡,以指引有志從事大數據行業的讀者,在普通知識之外,找到自己感興趣的方向。為達到這一目標,本書的編排涉及大數據的各個環節,并對每個環節的各細分方向都做了由淺入深的專題介紹。
所謂God creates the numbers, men do the rest。自從有人類文明以來就有了數字,進而有了數據,甚至可以說就有了大數據。為什么今天把大數據提到如此的高度呢?這和數據的產生量以及相應的處理能力(軟的、硬的)是分不開的。中國的智能手機用戶數量居全球第一,企業的數量也居全球第一,隨著IT業的推進和滲透,每時每刻都有海量的數據產生和被保存,這也正是大數據在中國發展的基礎。利用好大數據技術,了解數據、管理數據、共享數據、使用數據,可方便人們的日常生活,有助于企業打破信息孤島,有效地融合各方面的信息,從而為合作伙伴的選擇、供應鏈的管理、目標市場的鎖定等提供定量的決策依據。
除論述大數據是什么、能做什么外,更側重的是怎么做。本書以“用戶關系管理(Customer Relationship Management,CRM)”這一企業級應用場景為例,這也是目前大數據應用為數不多的成功案例,深入、細致、完整地展示大數據的各個環節。緊扣如何利用大數據來實現以用戶行為來指導銷售推送以及生產決策的過程,也就是“推薦系統”,力求使讀者能真正將大數據落地于實踐。
本書立足于作者所處企業的案例和產品,結合流行的開源軟件(Hadoop、Spark等),實打實地談大數據,并給出了一手的市場情況以及真實的數據。全書從規劃到實施再到運維,系統、全面地幫助讀者把握大數據落地的各個環節,了解大數據的全貌。大數據的實踐是與業務密切關聯的,本書以一個實際的大數據項目為專題,將書中講述的規劃、實施、運維穿針引線,Put it all together,向讀者完整展示大數據實踐過程,拉近讀者與大數據的距離,讓大數據理念切實與讀者的工作相結合。
在市場環境下,任何技術都要圍繞商戰的“三匹老馬”(價格、質量、服務)以及經濟社會的三個主要環節(生產、流通、消費)來發展。對于各個企業的大數據活動而言,其目的是尋找一條利用大數據來提高自身業務運作效率、維系現有客戶、擴大新客戶群的路線,從而達到以大數據促進產業鏈并實現精準客戶管理的效果,做到向數據要效益。直白地說,就是怎樣通過多渠道、多維度獲取有用的用戶消費行為數據,對其進行建模分析,從而做出決策來服務現有的用戶,通過給用戶推薦其感興趣的相關產品以達到精準營銷,挖掘已有客戶的價值。而大數據的高級階段則是—設計出新的產品。
本書在撰寫中秉持以下觀點。
1)大數據的定義應該是多層次的。狹義的大數據停留在技術處理的層面;而廣義的大數據則包含了大數據產業鏈的各個環節所提供的產品和服務;泛義的大數據擴展到每個細分的行業大數據中,成為“數據+”;偽義大數據則以營銷為目的,雖不可避免地包含了一部分炒作的成分,但也確確實實起到了一定的推廣效用,是一股不可低估的市場力量。
2)做好大數據和做成任何一件事情一樣,只有三種方法:Work hard,Work smart,Getting help。Work hard體現在對處理單元性能的提升上,Work smart則是對算法的改進,Getting help是指借助多個處理單元以集群的思維來解決對超大規模數據集的處理。
3)大數據的處理過程可形成一個持續提升的迭代閉環。由原始的數據開始,大數據先將其處理為信息,進而利用算法抽取出其中所蘊含的知識,知識的正確運用可以幫助決策,最終知識的集成和梳理就可以晉升為智慧和文化。而在開展決策實踐的過程中,還會產生新的數據,即,數字—數據—信息—知識—應用—數據。因此,上述過程又會進入新的一輪,并不斷提升,也就是所謂的波浪式前進、螺旋式上升。
4)大數據并非一次技術的跳躍式飛升。多數IT技術領域在相當長的一段時間內并未出現劃時代的本質變化,其技術增強點大都集中在計算能力(算力)上,而這種計算能力或者說數據處理能力的增強則又集中體現到了大數據上。因此,如何將大數據的這種數據處理能力結合到具體的業務中,探尋合適的商業模式,是我們討論大數據時特別值得關注的問題。對于提供的產品和服務,誰買的單、客戶是誰、用戶是誰、現金流從哪里來到哪里去都不清楚,空談大數據產業是沒有意義的。
5)要認清什么是偽義大數據。透過大數據的炒作層面,理解其對具有海量高速、多樣可變特征的多維數據集進行深度挖掘的本質。并且,該本質尚處在發展的早期,對于其中涉及的認知計算、深度學習、人工智能、統計相關性等背后的因果機理,甚至大數據預測中的“測不準”現象都還需要長期研究。因此,當前不應對大數據盲目地崇拜和信任,而要提醒讀者保持清醒的頭腦。要認識到,大數據只有服務于具體行業,進行融合應用并作為行業驅動,才能獲得真正的產值,才是回歸到談論大數據的正途。大數據這一跨界學科,也是多個學科的基礎,譬如認知計算、人工智能等,如果不涉及這些方面,大數據的闡述層次是不夠的。本書將適當涉及這些內容。
6)要真正體現大數據的4個數據特征:Volume(體量大)、Variety(模態多)、Velocity(變化快)、Value(價值高)),并且確保大數據的應用不會造成安全隱患,就要時刻理清和把控數據的來源和去向。從統計學的角度看,大數據意味著樣本集變得更大了。大數據下的數據來源不再是傳統的企業內部單一來源,而應當整合包括商業對手在內的各種數據來源渠道。還可以基于搜索引擎來獲取與題目相關的數據,或者來自線下。如果離開了這些數據源的相對的全覆蓋、多格式和多維度,大數據很可能就成了數據前面加“個大”而已。
7)當前,IT對于企業及行業的服務廣度和深度正發生著變化,工業4.0、智能制造、現代服務業等無不體現著IT正進入新的時代。如果將傳統的IT視為IT的1.0版,那么云計算所引領的對IT資源的復用,使得用戶的IT基礎設施的成本大幅降低,這可以算作IT的2.0版。在基礎設施不再成為障礙的前提下,更進一步地,大數據及數據挖掘等技術的發展用以解決數據和業務之間的結合問題,人工智能的研究用以實現機器的自學習問題等,可以說已經將IT帶入了現代服務業的3.0版。當然,這種劃分并非絕對。
總的來說,本書的宗旨是幫助大數據從業者從大數據產業鏈入手,正確地認識該產業的業態,明確自身的定位和價值點,解惑從業者們共同關心的問題,使其建立起理性的預期與合理的規劃。并通過深入剖析大數據落地的規劃、實施、運維這三部曲,針對可能遇到的困惑和問題,給出特別需要注意的事項及指導原則,幫助讀者在較短的時間內推出成本可控且能滿足需求的大數據產品與服務,最終產生經濟效益。
本書共分為6篇。
第1篇(第1∼2章)為大數據導論。簡要介紹大數據的基本概念、建設目標和意義,以及與大數據產業鏈相關的生態圈。另外,隨著大數據概念持續被炒熱,在對其的認識和理解上存在著各種偏頗,本篇也會對大數據認識上的誤區進行討論。
第2篇(第3∼4章)為規劃篇。大數據技術應當為滿足企業業務的發展需求而服務,因此,企業在開展大數據建設前,應結合自身的信息化現狀,分析現有業務系統和IT服務的類型與特征,正確判斷在當前情況下自己的應用是否需要大數據技術,進而確定企業中的哪些業務系統或IT服務適合實施大數據,以及如何統籌資源來科學合理地開展大數據建設,并確定相關的計劃和評價標準。企業做大數據轉型,需要評估大數據技術能夠給自身帶來多大的價值和戰略意義,合理平衡Scope-Schedule-Cost鐵三角,做好風險管控,采取各種方式規避和解決可能遇到的問題。通過規劃篇,讀者首先要了解自己,了解自己所處的位置,根據自身的實際情況,來應對大數據,而不是為做大數據而做大數據。
第3篇(第5∼8章)為實施篇。將大數據規劃落地,需要選擇具體的技術路徑,此時主要受Function-Performance-Cost鐵三角的制約。大數據的實施具有相當的復雜性,本篇將分析在大數據實施過程中所應遵循的一般方法和特別之處,就大數據實施中的關鍵技術點依次展開。由于大數據具有多技術交織的特征,因此本篇更偏重于介紹與大數據直接相關的技術,其中包括:以MapReduce為代表的大數據并行計算框架,以大數據生態圈中最具活力的Hadoop為代表的分布式處理系統,大數據存儲系統,以及相關的機器學習與人工智能技術等。
第4篇(第9∼13章)為運維篇。大數據項目實施完成后運維就開始了。運維是一個持續的過程,包括升級、優化、擴容等。企業需要維護業務運營的持續性,需要采取必要的技術手段和人力資源來保證運維。大數據的運維主要包括4個方面。第一,網絡暢通。大數據的海量數據處理與分布式業務流量模型對現有數據中心網絡架構提出新的挑戰,保障大數據業務網絡暢通與穩定需要從SDN等新興網絡技術中尋求解決方案。第二,數據安全。大數據核心價值在于數據分析與利用,在數據采集、存儲、挖掘和發布等階段都需要采取相應的安全技術以保證數據的安全性,大數據平臺的安全機制也至關重要。第三,大數據集群一定是會出故障的,數據備份與恢復這個“古老”的看家本領是必不可少的。大數據分布式存儲特性使得大數據備份和恢復具有自身特性。第四,高效運維管理。本篇從大數據集群配置管理、集群監控、日志分析等方面展示如何進行大數據環境的運維管理,并從運維服務、運維流程模型、運維人員、自動化與智能運維(AIOps)多方面討論如何有效進行大數據運維日常工作。
第5篇(第14∼16章)為實例篇。本篇以一個類似于Netflix(奈飛)的公司為例,展示其如何建立和運營大數據業務,并通過挖掘客戶的行為數據來實現推送營銷。這一篇將前面幾個篇章的內容綜合起來用于實踐,從發展思路、產品與服務到贏利模式展現給讀者。本篇將圍繞著迷你的Netflix—Oracle MoviePlex案例來闡述傳統關系數據庫怎樣與大數據技術緊密結合,數據怎樣通過關系數據庫或其他方式加載、提取、轉換至大數據環境,在大數據環境中,業務部門怎樣在數據池中分析和挖掘大數據的價值。本篇也可用于單獨閱讀。
第6篇(第17∼18章)介紹明天的大數據。預見大數據的明天會怎樣是一件“危險”的事情。在本篇中,作者對大數據未來發展的基本共識做了一些梳理總結和展望。就當前的實情和趨勢,分析大數據所面對的挑戰,探討該領域的發展和技術演進方向。隨著時間的推移,就像云計算一樣,人們已經把它視為常態,“云”字就會消失,大數據中的“大”字也會消失,而成為新常態。
本書末尾是三個附錄。
附錄A詳細介紹了如何安裝一套可運行的Hadoop平臺軟件,以Cloudera發布的開源版本CDH作為例子,幫助讀者順利跨出大數據實踐的第一步。
附錄B利用MATLAB對美國21年航空公司到達和起飛時間的記錄數據,展示了大數據的數據處理過程,以使讀者更直觀地理解MapReduce的過程。
附錄C則從DeepMind的AlphaGo Zero論文和最新的AlphaZero入手,解讀人工智能由最初的大量收集棋譜比對,到按照人工輸入的簡單規則“自己和自己對弈”生產棋譜的過程,并和讀者分享一些想法。不要夸張(Make no mistake),一定是規則在先才能自造樣本。人工智能,一定是人工在先,才能智能。
作者長期在美國從事IT前沿工作,在美期間親身參與了數次IT行業重要的發展和變遷,其中包括開放系統(Open System)、互聯網、云計算等。并且,作者在IT行業中所任職的美國海關總署、北美索尼、美國Intel等政府和世界500強企業對IT系統的要求是非常苛刻和現代的。作者作為2011年中組部“千人計劃”特聘專家回國,同年成功組建了首個運營商云計算專業公司,算是在運營商中實現了IT 1.0到IT 2.0的范式變化,此后,繼續投身到了大數據領域。因此,作者非常希望在書中對國內外與大數據相關的數據科學與信息技術,以及工程實踐進行全面的論述和比較,為國內政策制定者、企業的CIO和IT工作者、創業者、投資人在大數據業務開展方面提供務實的、系統化的考量角度和評估方法。并希望能通過本書為政府和企業合理又經濟地發展大數據提供有價值的建議,避免低水平或過度的建設。
最后,本書保留了作者在《云計算:規劃、實施、運維》(電子工業出版社, 2015)中為讀者所喜愛的“單刀直入、直奔主題”的風格。所以這本《大數據:規劃、實施、運維》可以視為該書的姊妹篇。
從初步構想到最后出版,對本書品質的方方面面,一切都希望能做到盡職盡責。唯成書倉促,難免有諸多缺失甚至偏頗,祈業內先進賜教,以匡正之。
作者要感謝的人很多。
作者首先感謝倪光南院士在百忙之中撥冗為本書作序。感謝中國電信科學技術委員會主任韋樂平先生,我的師長。沒有韋先生的指導和幫助,作者回國后會需要更長的時間來適應國內的工作環境。鄔賀銓院士、李德毅院士在為《云計算:規劃、實施、運維》一書寫了推薦評語后,又在百忙之中再次欣然為本書寫了推薦評語,對作者的努力給予了很大的鼓勵與肯定,在此作者表示誠摯的謝意。還要感謝國家數字化學習工程技術研究中心主任楊宗凱(西安電子科技大學校長)和同仁們對本書所提出的寶貴建議。同時在本書的寫作過程中,電子工業出版社的冉哲編輯提供了全程幫助,特別是面對我的英式中文,耐心、細致不厭其煩地為我修改,沒有冉編輯的幫助,本書難以與讀者見面。作者特別感謝以下幾位:陳劭力按照作者的思路和錄音整理出了最初文稿;陳琪和鄭芳交叉校閱了實施篇和運維篇;張彬幫助準備了Oracle MoviePlex案例;李昊溟幫助準備了附錄;徐小飛和夏晴進行了最后的文字整理。當然,書中的任何瑕疵完全是作者的責任。最后,也是最重要的,作者感謝家人們的支持與付出。
謝朝陽
2018年
內容簡介:

你是不是有這樣的困惑:“讀了不少關于大數據的書,發現這大數據既可以用于競選美國總統,又能夠預測禽流感,還能賣啤酒和尿不濕,又是圍棋高手……大數據好像什么都能干耶!可是咋整呀?大數據多大為大呀?大數據能賺錢不?……唉,怎么還是一頭霧水。”本書將為你答疑解惑。本書將展現作者在國內外大數據第一線的實戰經驗,面向不同行業的共性訴求來指導讀者大數據該怎么做,并闡明大數據發展的誤區。本書對大數據,從經濟價值、商業模式、框架搭建、數據挖掘、網絡布置、安全防護、人員能力和后續運維管理多個維度,以及基礎設施、中間件、重點應用等多個層面進行系統闡述。幫助決策者將大數據概念落地,建立起理性的預期、合理的規劃,并最終收獲滿意的經濟效益。企業正面臨從傳統IT轉入大數據環境這一不可避免的范式變化,恰好為我國追趕發達國家信息化建設帶來了契機。本書以企業共同關注的客戶關系管理(CRM)為實例談大數據落地,利用大數據采集、分析、決策以達到客戶維系拓展、精準營銷和創新產品的目的,提出一整套從規劃到實施再到后續運維的技術路線和策略。并用一個已上線的實例將各部分內容串起來綜合展示,以解決大數據熱潮中的“老虎吃天,無處下爪”的窘境。這對于大數據的正確理解,企業信息系統的建立,以及相應的商業模式改變都具有實際指導意義。

目錄:

第1篇 大數據導論 1
第1章 初識大數據 5
1.1 大數據概念談 7
1.1.1 大數據的定義 7
1.1.2 大數據發展現狀 10
1.1.3 大數據建設需求分析 10
1.1.4 大數據建設目標 11
1.1.5 機器學習與人工智能 11
1.2 大數據的科學性 12
1.3 客戶關系管理 18
1.4 大數據的理解誤區 21
1.5 小結 29
第2章 大數據產業鏈初探 30
2.1 現金流與產業模式 31
2.2 國外IT企業 33
2.3 國內IT企業 35
2.4 開源軟件 36
2.5 小微企業 39
2.6 政策制定者 41
2.7 小結 43
第2篇 規劃篇 44
第3章 大數據體系規劃 47
3.1 大數據技術體系 48
3.1.1 大數據采集與預處理 49
3.1.2 大數據存儲 52
3.1.3 大數據計算 56
3.1.4 大數據分析 58
3.1.5 大數據治理 64
3.1.6 大數據安全保障 68
3.1.7 大數據應用支撐 73
3.2 大數據共性技術重點課題 76
3.2.1 開放域數據采集與共享 76
3.2.2 多源異構數據分析技術 78
3.2.3 異構計算模式集成技術 82
3.2.4 數據安全與隱私保護 86
3.3 大數據風險管控 90
3.3.1 企業大數據建設風險分析 90
3.3.2 大數據安全標準體系框架 90
3.3.3 大數據安全標準規劃 91
3.4 小結 94
第4章 大數據技術要求 95
4.1 大數據總體架構 98
4.1.1 背景概述 98
4.1.2 現狀分析 98
4.1.3 總體目標 99
4.1.4 技術架構 100
4.1.5 實施指引 102
4.2 采集要求 104
4.2.1 功能架構 104
4.2.2 技術架構 105
4.2.3 處理技術 106
4.2.4 場景應用 111
4.2.5 接口協議 113
4.2.6 接口約定 113
4.2.7 性能指標 116
4.3 基礎能力要求 117
4.3.1 總體概述 117
4.3.2 基礎框架 119
4.3.3 能力開放 135
4.3.4 性能指標 141
4.4 核心處理能力要求 142
4.4.1 總體概述 142
4.4.2 數據模型 149
4.4.3 數據處理 152
4.4.4 數據質量 155
4.4.5 系統性能 158
4.5 需求與項目管理 160
4.6 小結 161
第3篇 實施篇 163
第5章 大數據并行計算框架 166
5.1 并行計算技術 167
5.1.1 基本命題 167
5.1.2 設計模式分類 170
5.1.3 關鍵技術點 173
5.2 MapReduce計算技術 177
5.2.1 處理模型設計原則 177
5.2.2 主要功能與技術設計 178
5.3 Hadoop MapReduce設計與工作模式 181
5.3.1 程序執行模式 181
5.3.2 作業調度模式 183
5.3.3 執行框架及流程設計 186
5.4 Hadoop MapReduce組件接口 187
5.4.1 InputFormat 187
5.4.2 InputSplit 188
5.4.3 RecordReader 189
5.4.4 Mapper 190
5.4.5 Combiner 192
5.4.6 Partitioner 193
5.5 小結 193
第6章 大數據分布式處理系統 194
6.1 Hadoop系統平臺 195
6.1.1 分布式結構設計 195
6.1.2 Hadoop生態系統 196
6.2 HDFS分布式文件系統 200
6.2.1 系統架構 200
6.2.2 可靠性設計 203
6.2.3 文件存儲組織 205
6.2.4 數據讀寫過程 207
6.2.5 文件系統操作 209
6.3 HBase分布式數據庫 211
6.3.1 技術特點 211
6.3.2 系統結構設計 212
6.3.3 數據存儲模型 213
6.3.4 查詢模式 215
6.3.5 數據表設計 217
6.3.6 RegionServer配置 218
6.4 小結 222
第7章 大數據存儲 223
7.1 磁盤陣列技術 224
7.2 數據存儲接口 225
7.2.1 對象存儲 225
7.2.2 裸設備存儲 226
7.2.3 塊存儲 227
7.3 存儲集群架構 228
7.3.1 共享與非共享型 228
7.3.2 對稱與非對稱式 229
7.3.3 自助式與服務式 230
7.3.4 SPI與SFI 231
7.3.5 串行方式與并行方式 232
7.4 數據存儲技術本質 233
7.4.1 三網統一理論 234
7.4.2 并行概念理解 236
7.4.3 集群分層架構 238
7.5 數據分級存儲探討 238
7.5.1 超融合 238
7.5.2 冷數據 239
7.5.3 平臺架構 241
7.5.4 應用場景 248
7.6 小結 249
第8章 機器學習與人工智能 250
8.1 數據挖掘 251
8.1.1 數據分類采集 253
8.1.2 模式類型設計 258
8.1.3 模式價值分析 261
8.1.4 系統關鍵技術 262
8.2 機器學習 264
8.2.1 算法分類 265
8.2.2 合適算法選擇 265
8.2.3 程序開發設計 266
8.3 人工智能 267
8.3.1 模式定義 268
8.3.2 人工智能舉例 269
8.4 小結 276
第4篇 運維篇 277
第9章 大數據集群網絡架構 280
9.1 現有數據中心網絡架構 281
9.1.1 架構分析 281
9.1.2 存在弊端 281
9.2 大數據網絡設計要點 283
9.2.1 大數據業務分析 283
9.2.2 大數據網絡流量模型 284
9.2.3 大數據網絡新需求 286
9.3 新興網絡技術 287
9.3.1 SDN 287
9.3.2 NFV 291
9.3.3 VXLAN 292
9.3.4 InfiniBand 295
9.4 小結 297
第10章 大數據安全 298
10.1 大數據安全挑戰 299
10.2 基礎設施安全 300
10.2.1 存在威脅 300
10.2.2 虛擬化安全 301
10.3 數據安全 302
10.3.1 數據采集安全技術 302
10.3.2 數據存儲安全技術 303
10.3.3 數據挖掘安全技術 307
10.3.4 數據發布安全技術 309
10.4 大數據平臺Hadoop安全 311
10.4.1 Hadoop安全問題概述 311
10.4.2 Kerberos概述 313
10.4.3 Kerberos認證過程 313
10.4.4 Hadoop安全機制 314
10.4.5 Kerberos的優缺點 316
10.5 小結 317
第11章 大數據備份與恢復 318
11.1 數據備份與恢復 319
11.1.1 數據備份 319
11.1.2 數據恢復 323
11.2 分布式存儲系統備份與恢復 324
11.2.1 概述 324
11.2.2 HDFS數據備份策略 328
11.3 小結 330
第12章 大數據環境的監管 331
12.1 概述 332
12.2 大數據集群配置管理 333
12.3 大數據集群監控 337
12.3.1 大數據監控特點 337
12.3.2 監控系統 338
12.3.3 監控系統建立途徑 341
12.3.4 商業監控軟件 342
12.3.5 開源監控軟件 343
12.3.6 傳統網絡管理軟件:NetEagle 352
12.3.7 統一管理平臺:UMP 354
12.4 大數據日志分析 356
12.5 小結 359
第13章 大數據的運維方法 361
13.1 運維服務 362
13.2 運維流程模型 363
13.2.1 故障排查 363
13.2.2 緊急事故管理 366
13.2.3 處理連鎖故障 368
13.3 運維人員 371
13.3.1 需要具備的能力 371
13.3.2 任務內容 372
13.4 自動化運維 374
13.4.1 自動化運維價值 374
13.4.2 自動化運維工具 376
13.5 小結 379
第5篇 實例篇 380
第14章 Oracle MoviePlex 大數據規劃 383
14.1 案例概述 384
14.1.1 案例背景 386
14.1.2 架構規劃 387
14.2 大數據組件介紹 395
14.2.1 Cloudera的CDH 396
14.2.2 Cloudera管理器 397
14.2.3 Oracle大數據連接器 398
14.2.4 Oracle大數據加載器 398
14.2.5 Oracle大數據整合器 400
14.2.6 Oracle R語言連接器 400
14.2.7 Oracle NoSQL數據庫 401
14.3 小結 402
第15章 Oracle MoviePlex大數據實施 404
15.1 環境準備 405
15.1.1 MoviePlex環境部署 405
15.1.2 MoviePlex環境初始化 409
15.2 案例演示 413
15.2.1 配置Oracle Big Data SQL 413
15.2.2 建立存放在HDFS日志表 414
15.2.3 HIVE訪問HDFS和NoSQL 416
15.2.4 Oracle Big Data SQL新功能 418
15.2.5 Oracle Big Data安全策略 420
15.2.6 Oracle分析SQL 422
15.2.7 Oracle SQL模式匹配 423
15.2.8 創建匯總數據集 425
15.2.9 Oracle 12c SQL解析特點 426
15.3 推薦系統 428
15.3.1 百萬美元大獎賽 428
15.3.2 技術細節 429
15.4 小結 433
第16章 Oracle MoviePlex大數據運維 434
16.1 集群 436
16.1.1 Hadoop 436
16.1.2 ZooKeeper 439
16.2 文件系統和非關系數據庫 442
16.2.1 HDFS 443
16.2.2 HBase 444
16.2.3 NoSQL 446
16.2.4 Kafka 449
16.3 中間件 451
16.3.1 WebLogic 451
16.3.2 HUE 454
16.3.3 Solr 456
16.4 數據轉換 458
16.4.1 Hive 458
16.4.2 Impala 460
16.4.3 Sqoop2 462
16.5 資源整合調度 463
16.5.1 Oozie 463
16.5.2 YARN 464
16.6 小結 467
第6篇 明天的大數據 468
第17章 大數據面臨的挑戰 470
17.1 可靠性挑戰 472
17.2 可擴展性挑戰 473
17.3 系統安全挑戰 473
17.4 節能降耗 475
17.5 算法挑戰 477
17.6 測不準原理 477
17.7 小結 478
第18章 大數據應用 479
18.1 客戶關系與供求管理 480
18.2 科學研究 483
18.3 教育大數據應用 485
18.4 區塊鏈與加密貨幣 490
18.5 小結 493
結束語 494
附錄A 安裝Cloudera Apache Hadoop 502
A.1 環境準備 504
A.1.1 Cloudera Manager架構 504
A.1.2 服務器環境準備 504
A.1.3 安裝介質下載 505
A.1.4 本地yum源搭建 505
A.2 安裝Cloudera Manager Server 506
A.3 部署Hadoop集群 507
A.4 安裝結果 508
附錄B 在Matlab中應用 MapReduce 509
B.1 datastore簡介 510
B.2 搜尋需要的項 511
B.3 MapReduce簡介 512
B.4 如何運用MapReduce進行運算 512
B.5 MapReduce中對于鍵的使用 514
B.6 使用mapreduce計算分組指標 514
B.7 輸出結果可視化 516
附錄C 從AlphaGo到 AlphaZero 518
參考文獻 526
序: