-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python 網絡爬蟲實戰

( 簡體 字)
作者:胡松濤類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> 網路爬蟲
譯者:
出版社:清華大學出版社Python 網絡爬蟲實戰 3dWoo書號: 45978
詢問書籍請說出此書號!

缺書
NT售價: 295

出版日:1/1/2017
頁數:294
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302457879
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

計算機技術飛速發展,人們對計算機使用技能的要求也越來越高。在編寫軟件時,大家既希望有超高的效率,又希望這門語言簡單易用。這種魚與熊掌皆得的要求的確很高,Python編程語言恰好符合這么苛刻的要求。
Python的執行效率僅比效率之王C略差一籌,在簡單易用方面Python也名列三甲。可以說Python在效率和簡單之間達到了平衡。另外,Python還是一門膠水語言,可以將其他編程語言的優點融合在一起,達到1+1>2的效果。這也是Python如今使用人數越來越多的原因。
Python語言發展迅速,在各行各業都發揮獨特的作用。在各大企業、學校、機關都運行著Python明星程序。但就個人而言,運用Python最多的還是網絡爬蟲(這里的爬蟲僅涉及從網頁提取數據,不涉及深度、廣度算法爬蟲搜索)。在網絡上經常更新的數據,無須每次都打開網頁瀏覽,使用爬蟲程序,一鍵獲取數據,下載保存后分析。考慮到Python爬蟲在網絡上的資料雖多,但大多都不成系統,難以提供系統有效的學習。因此筆者拋磚引玉,編寫了這本有關Python網絡爬蟲的書,以供讀者學習參考。
Python簡單易學,Python爬蟲也不復雜。只需要了解了Python的基本操作即可自行編寫。本書中介紹了幾種不同類型的Python爬蟲,可以針對不同情況的站點進行數據收集。
本書特色
? 附帶全部源代碼
為了便于讀者理解本書內容,作者已將全部的源代碼上傳到網絡,供讀者下載使用。讀者通過代碼學習開發思路,精簡優化代碼。
? 涵蓋了Linux&Windows上模塊的安裝配置
本書包含了Python模塊源的配置、模塊的安裝,以及常用IDE的使用。
? 實戰實例
通過常用的實例,詳細說明網絡爬蟲的編寫過程。
本書結構
本書共8章,前面4章簡單地介紹了Python的基本用法和簡單Python程序的編寫。第5章的Scrapy爬蟲框架主要針對一般無須登錄的網站,在爬取大量數據時使用Scrapy會很方便。第6章的Beautiful Soup爬蟲可以算作爬蟲的“個人版”。Beautiful Soup爬蟲主要針對一些爬取數據比較少的,結構簡單的網站。第7章的Mechanize模塊,主要功能是模擬瀏覽器。它的作用主要是針對那些需要登錄驗證的網站。第8章的Selenium模塊,主要功能也是模擬瀏覽器,它的作用主要是針對JavaScript返回數據的網站。
本書讀者與作者
? Python網絡爬蟲初學者
? 數據分析與挖掘技術初學者
? 高校和培訓學校相關專業的師生
本書由胡松濤主筆,其他參與編寫的有宋士偉、張倩、彭霽、楊旺功、鄒瑛、王鐵民、殷龍、李春城、張興瑜、劉祥淼、李柯泉、林龍、趙殿華、牛曉云。

編 者
2016年11月
內容簡介:

本書從Python的安裝開始,詳細講解了Python從簡單程序延伸到Python網絡爬蟲的全過程。本書從實戰出發,根據不同的需求選取不同的爬蟲,有針對性地講解了幾種Python網絡爬蟲。
本書共8章,涵蓋的內容有Python語言的基本語法、Python常用IDE的使用、Python第三方模塊的導入使用、Python爬蟲常用模塊、Scrapy爬蟲、Beautiful Soup爬蟲、Mechanize模擬瀏覽器和Selenium模擬瀏覽器。本書所有源代碼已上傳網盤供讀者下載。
本書內容豐富,實例典型,實用性強。適合Python網絡爬蟲初學者、數據分析與挖掘技術初學者,以及高校及培訓學校相關專業的師生閱讀。
目錄:

第1章Python環境配置1

1.1Python簡介1

1.1.1Python的歷史由來1

1.1.2Python的現狀2

1.1.3Python的應用2

1.2Python開發環境配置4

1.2.1Windows下安裝Python4

1.2.2Windows下安裝配置pip9

1.2.3Linux下安裝Python10

1.2.4Linux下安裝配置pip12

1.2.5永遠的開始:helloworld15

1.3本章小結20

第2章Python基礎21

2.1Python變量類型21

2.1.1數字21

2.1.2字符串24

2.1.3列表28

2.1.4元組34

2.1.5字典36

2.2Python語句40

2.2.1條件語句——ifelse40

2.2.2有限循環——for41

2.2.3無限循環——while43

2.2.4中斷循環——continue、break45

2.2.5異常處理——tryexcept47

2.2.6導入模塊——import49

2.3函數和類53

2.3.1函數53

2.3.2類59

2.4Python代碼格式65

2.4.1Python代碼縮進65

2.4.2Python命名規則66

2.4.3Python代碼注釋68

2.5Python調試70

2.5.1Windows下IDLE調試70

2.5.2Linux下pdb調試73

2.6本章小結77

第3章簡單的Python腳本78

3.1九九乘法表78

3.1.1Project分析78

3.1.2Project實施78

3.2斐波那契數列80

3.2.1Project分析80

3.2.2Project實施80

3.3概率計算81

3.3.1Project分析81

3.3.2Project實施82

3.4讀寫文件83

3.4.1Project分析83

3.4.2project實施84

3.5本章小結85

第4章Python爬蟲常用模塊86

4.1Python標準庫之urllib2模塊86

4.1.1urllib2請求返回網頁86

4.1.2urllib2使用代理訪問網頁88

4.1.3urllib2修改header91

4.2Python標準庫——logging模塊95

4.2.1簡述logging模塊95

4.2.2自定義模塊myLog99

4.3其他有用模塊102

4.3.1re模塊(正則表達式操作)102

4.3.2sys模塊(系統參數獲取)105

4.3.3time模塊(獲取時間信息)106

4.4本章小結110

第5章Scrapy爬蟲框架111

5.1安裝Scrapy111

5.1.1Windows下安裝Scrapy環境111

5.1.2Linux下安裝Scrapy112

5.1.3vim編輯器113

5.2Scrapy選擇器XPath和CSS114

5.2.1XPath選擇器114

5.2.2CSS選擇器117

5.2.3其他選擇器118

5.3Scrapy爬蟲實戰一:今日影視118

5.3.1創建Scrapy項目119

5.3.2Scrapy文件介紹120

5.3.3Scrapy爬蟲編寫123

5.4Scrapy爬蟲實戰二:天氣預報129

5.4.1項目準備130

5.4.2創建編輯Scrapy爬蟲131

5.4.3數據存儲到json138

5.4.4數據存儲到MySQL140

5.5Scrapy爬蟲實戰三:獲取代理146

5.5.1項目準備146

5.5.2創建編輯Scrapy爬蟲147

5.5.3多個Spider153

5.5.4處理Spider數據157

5.6Scrapy爬蟲實戰四:糗事百科159

5.6.1目標分析159

5.6.2創建編輯Scrapy爬蟲160

5.6.3Scrapy項目中間件——添加headers161

5.6.4Scrapy項目中間件——添加proxy165

5.7scrapy爬蟲實戰五:爬蟲攻防167

5.7.1創建一般爬蟲167

5.7.2封鎖間隔時間破解171

5.7.3封鎖Cookies破解171

5.7.4封鎖user-agent破解171

5.7.5封鎖IP破解174

5.8本章小結177

第6章BeautifulSoup爬蟲178

6.1安裝BeautifulSoup環境178

6.1.1Windows下安裝BeautifulSoup178

6.1.2Linux下安裝BeautifulSoup179

6.1.3最強大的IDE——Eclipse179

6.2BeautifulSoup解析器188

6.2.1bs4解析器選擇188

6.2.2lxml解析器安裝189

6.2.3使用bs4過濾器190

6.3bs4爬蟲實戰一:獲取百度貼吧內容196

6.3.1目標分析196

6.3.2項目實施197

6.3.3代碼分析205

6.3.4Eclipse調試206

6.4bs4爬蟲實戰二:獲取雙色球中獎信息207

6.4.1目標分析207

6.4.2項目實施210

6.4.3保存結果到Excel214

6.4.4代碼分析221

6.5bs4爬蟲實戰三:獲取起點小說信息221

6.5.1目標分析222

6.5.2項目實施223

6.5.3保存結果到MySQL226

6.5.4代碼分析230

6.6bs4爬蟲實戰四:獲取電影信息230

6.6.1目標分析230

6.6.2項目實施232

6.6.3bs4反爬蟲235

6.6.4代碼分析237

6.7bs4爬蟲實戰五:獲取音悅臺榜單238

6.7.1目標分析238

6.7.2項目實施239

6.7.3代碼分析244

6.8本章小結245

第7章Mechanize模擬瀏覽器246

7.1安裝Mechanize模塊246

7.1.1Windows下安裝Mechanize246

7.1.2Linux下安裝Mechanize247

7.2Mechanize測試248

7.2.1Mechanize百度248

7.2.2Mechanize光貓F460251

7.3Mechanize實站一:獲取Modem信息254

7.3.1獲取F460數據254

7.3.2代碼分析257

7.4Mechanize實戰二:獲取音悅臺公告258

7.4.1登錄原理258

7.4.2獲取Cookie的方法259

7.4.3獲取Cookie262

7.4.4使用Cookie登錄獲取數據266

7.5本章總結270

第8章Selenium模擬瀏覽器271

8.1安裝Selenium模塊271

8.1.1Windows下安裝Selenium模塊271

8.1.2Linux下安裝Selenium模塊272

8.2瀏覽器選擇272

8.2.1Webdriver支持列表272

8.2.2Windows下安裝PhantomJS273

8.2.3Linux下安裝PhantomJS276

8.3Selenium&PhantomJS抓取數據277

8.3.1獲取百度搜索結果277

8.3.2獲取搜索結果280

8.3.3獲取有效數據位置282

8.3.4從位置中獲取有效數據284

8.4Selenium&PhantomJS實戰一:獲取代理285

8.4.1準備環境285

8.4.2爬蟲代碼287

8.4.3代碼解釋289

8.5Selenium&PhantomJS實戰二:漫畫爬蟲289

8.5.1準備環境290

8.5.2爬蟲代碼291

8.5.3代碼解釋294

8.6本章總結294

序: