3dwoo大學簡體電腦書店
Storm實戰:構建大數據實時計算
( 簡體 字)
作者:阿里巴巴集團數據平臺事業部商家數據業務部類別:1. -> 程式設計 -> 大數據
出版社:電子工業出版社Storm實戰:構建大數據實時計算 3dWoo書號: 39191
詢問書籍請說出此書號!
有庫存
NT售價: 295
出版日:8/1/2014
頁數:184
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787121226496 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
第1章 Storm基礎 1
1.1 Storm能做什么 2
1.2 Storm特性 3
1.3 其他流計算系統 8
1.4 應用模式 13
第2章 Storm初體驗 17
2.1 本地環境搭建 18
2.2 Storm集群 25
第3章 構建Topology 41
3.1 Storm基本概念 42
3.2 構建Topology 53
3.3 小結 61
第4章 Topology的并行度 62
4.1 并行元素 63
4.2 配置并行度 65
4.3 一個運行中Topology的例子 68
4.4 如何更新運行中的Topology的并行度 71
第5章 消息的可靠處理 73
5.1 簡介 74
5.2 理解消息被完整處理 74
5.3 消息的生命周期 76
5.4 可靠相關的API 79
5.5 高效地實現tuple tree 84
5.6 選擇合適的可靠性級別 87
5.7 集群的各級容錯 89
5.8 小結 91
第6章 一致性事務 92
6.1 簡單設計一:強順序流 93
6.2 簡單設計二:強順序batch流 95
6.3 CoordinateBolt的原理 96
6.4 Transactional Topology 98
第7章 DRPC 105
7.1 Storm DRPC 106
7.2 總體概述 106
7.3 LinearDRPCTopologyBuilder 108
7.4 本地模式DRPC 110
7.5 遠程模式DRPC 111
7.6 一個復雜的例子 113
7.7 非線性DRPC拓撲 117
7.8 LinearDRPCTopologyBuilder工作過程 117
7.9 高級進階 118
第8章 Trident的特性 119
8.1 理解Trident 120
8.2 結合多個Trident任務 124
8.3 消費和生產Field 126
8.4 State(狀態保存) 128
8.5 Trident Topology的執行過程 136
8.6 總結 137
第9章 Storm實例 138
9.1 一個簡單的實例 139
9.2 復雜一點的實例 150
9.3 其他 161

第10章 常見應用問題分析 162
10.1 性能問題排查與定位 163
10.2 系統中常見的問題與排查 167
10.3 業務問題的定位與排查 170
隨著大數據實時處理需求的強勁增長,Storm的出現填補了大數據處理生態系統的缺失,并被越來越多的公司所采用。阿里巴巴集團數據平臺事業部商家數據業務部正是最早使用Storm的技術團隊之一。
《Storm實戰:構建大數據實時計算》是一本系統并且具有實踐指導意義的Storm工具書和參考書,對Storm整個技術體系進行了全面的講解,不僅包括對基本概念、特性的介紹,也涵蓋了一些原理說明。
實戰性很強,各章節都提供了一些小案例,同時對于本地,以及集群環境的部署有詳細介紹,易于理解,操作性強。
《Storm實戰:構建大數據實時計算 》一共分為10章:第1章全面介紹了Storm的特性、能解決什么問題,以及和其他流計算系統的對比;第2章通過實際運行一個簡單的例子,以及介紹本地環境和集群環境的搭建,讓讀者對Storm有了直觀的認識;第3章深入講解了Storm的基本概念,同時實現一個Topology運行;第4章和第5章闡述了Storm的并發度、可靠處理的特性;第6章~第8章詳細而系統地講解了幾個高級特性:事務、DRPC和Trident;第9章以實例的方式講解了Storm在實際業務場景中的應用;第10章總結了幾個在大數據場景應用過程中遇到的經典問題,以及詳細的排查過程。

Storm被視為一個實時版本的Hadoop,填補了大數據處理生態系統的巨大缺失。隨著大規模數據實時處理需求的強勁增長,Storm的重要性益發凸現,并被越來越多的公司所采用。

非常高興聽到用戶對Storm贊譽有加:簡單,靈活,極其健壯。這正是Storm所追求的一些核心設計目標。
——Nathan Marz,Storm之父
Storm是一個開源的分布式實時計算系統。它簡單有趣,可以用任何編程語言來使用。
Storm可以適用于很多場景:實時分析,在線機器學習,持續計算,分布式RPC,ETL等等。
Storm速度驚人:每個結點每秒能處理超過百萬條tuples。擴展性強,容錯率高,能保證數據的及時處理,而且很容易構建和操作。
Storm集成了常用的隊列和數據庫技術。Storm的拓撲能夠以任意復雜的方式消費和處理數據流,也可以在計算的各個階段重新分流。
——Storm官網


前言

實時流計算

互聯網從誕生的一刻起,對世界的最大改變就是讓信息能夠實時交互,從而大大提高各個環節的效率。正因為大家對信息實時響應、實時交互的需求,軟件行業除了個人操作系統之外,數據庫(更精確地說是關系型數據庫)應該是軟件行業發展最快、收益最為豐厚的產品了。記得20世紀90年代,很多銀行別說實時轉賬,連實時查詢都做不到,但是數據庫和高速網絡改變了這個情況。
互聯網的進一步發展,從Portal信息瀏覽型到Search信息搜索型再到SNS關系交互傳遞型,以及電子商務、互聯網旅游生活產品等,將人們生活中的流通環節在線化。對效率的要求讓大家對實時性的要求進一步提升,而信息的交互和溝通正在從點對點向信息鏈甚至信息網的方向發展,這樣必然帶來數據在各個維度的交叉關聯,數據爆炸已不可避免。因此流式處理加NoSQL產品應運而生,分別解決實時處理框架和數據大規模存儲計算的問題。
早在2000年初,諸如UC伯克利、斯坦福等大學就開始了對流式數據處理的研究,但是由于更多地關注于金融行業的業務場景或者互聯網流量監控的業務場景,以及當時互聯網數據場景的限制,造成了研究多是基于對傳統數據庫處理的流式化,對流式框架本身的研究偏少。目前這樣的研究逐漸沒有了聲音,工業界將更多的精力轉向了實時數據庫。
2010年Yahoo!對S4的開源,2011年Twitter對Storm的開源,改變了這個現狀。以前互聯網的開發人員在做一個實時應用的時候,除了要關注應用邏輯計算處理本身,還要為數據的實時流轉、交互、分布大傷腦筋。現在的情況卻大為不同,以Storm為例,開發人員可以快速搭建一套健壯、易用的實時流處理框架,配合SQL產品或者NoSQL產品或者MapReduce計算平臺,就可以以低成本做出很多以前很難想象的實時產品,比如量子恒道品牌旗下的多個產品就是構建在Storm實時流處理平臺上的。
本書是一本對Storm的基礎介紹手冊,但是我們也希望它不僅僅是一本Storm的使用手冊,我們會在其中加入更多在實際數據生產過程中的經驗和應用架構,最終的目的是幫助所有愿意使用實時流處理框架的技術同仁,同時也默默地改變這個世界。
在本書即將出版之際,Storm已經成功發布了0.9.0版本,追加了一些新的特性,如使用Netty作為新的消息傳輸層、提供日志查看UI等,同時修復了大量跟穩定性相關的BUG。本次發布對茁壯成長的Storm來說是一次巨大的進步。新版本的Storm在系統結構及使用方式方面,并沒有太多變化,本書可以幫助你快速掌握應用Storm的知識和技能。
本書由團隊中多位同學先后參與合作完成,為體現阿里巴巴的文化,這里列出所有涉及同學的花名:張中、太奇、鳴世、曦軒、嗚珂、民瞻、九翎、淵虹、國相、晨炫、木晗、毅山、宋智、澄蒼,是大家的合作與努力才讓此書得以成行。同時感謝劉皎等編輯的辛苦工作,是你們把這本書呈獻給讀者,感謝你們!
同樣要感謝支持我們工作的同事們:冰夷、王賁,有你們的幫助和支持才讓我們有決心和毅力來完成這項工作。
pagetop