-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python網絡爬蟲實戰(第2版)

( 簡體 字)
作者:胡松濤類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> 網路爬蟲
譯者:
出版社:清華大學出版社Python網絡爬蟲實戰(第2版) 3dWoo書號: 49839
詢問書籍請說出此書號!

缺書
NT售價: 395

出版日:10/1/2018
頁數:380
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302510086
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

計算機技術飛速發展,人們對計算機使用技能的要求也越來越高。在編寫軟件時,大家既希望有超高的效率,又希望這門語言簡單易用。這種魚與熊掌皆得的要求的確很高,Python編程語言恰好符合這么苛刻的要求。
Python的執行效率僅比效率之王C略差一籌,在簡單易用方面Python也名列三甲。可以說Python在效率和簡單之間達到了平衡。另外,Python還是一門膠水語言,可以將其他編程語言的優點融合在一起,達到1+1>2的效果。這也是Python如今使用人數越來越多的原因。
Python語言發展迅速,在各行各業都發揮獨特的作用。在各大企業、學校、機關都運行著Python明星程序。但就個人而言,運用Python最多的還是網絡爬蟲(這里的爬蟲僅涉及從網頁提取數據,不涉及深度、廣度算法爬蟲搜索)。在網絡上經常更新的數據,無須每次都打開網頁瀏覽,使用爬蟲程序,一鍵獲取數據,下載保存后分析。考慮到Python爬蟲在網絡上的資料雖多,但大多都不成系統,難以提供系統有效的學習。因此筆者拋磚引玉,編寫了這本有關Python網絡爬蟲的書,以供讀者學習參考。
Python簡單易學,Python爬蟲也不復雜。只需要了解了Python的基本操作即可自行編寫。本書中介紹了幾種不同類型的Python爬蟲,可以針對不同情況的站點進行數據收集。
本書特色
? 附帶全部源代碼。為了便于讀者理解本書內容,作者已將全部的源代碼上傳到網絡,供讀者下載使用。讀者通過代碼學習開發思路,精簡優化代碼。
? 涵蓋了Linux&Windows上模塊的安裝配置。本書包含了Python模塊源的配置、模塊的安裝,以及常用IDE的使用。
? 實戰實例。通過常用的實例,詳細說明網絡爬蟲的編寫過程。
本書內容
本書共10章,前面4章簡單地介紹了Python 3.6的基本用法和簡單Python程序的編寫。第5章的Scrapy爬蟲框架主要針對一般無須登錄的網站,在爬取大量數據時使用Scrapy會很方便。第6章的Beautiful Soup爬蟲可以算作爬蟲的“個人版”。Beautiful Soup爬蟲主要針對一些爬取數據比較少的,結構簡單的網站。第7章的Mechanize模塊,主要功能是模擬瀏覽器。它的作用主要是針對那些需要登錄驗證的網站。第8章的Selenium模塊,主要功能也是模擬瀏覽器,它的作用主要是針對JavaScript返回數據的網站。第9章的Pyspider是由國人自產的爬蟲框架。Pyspider框架獨具一格的Web接口讓爬蟲的使用更加簡單。第10章簡單介紹了反爬蟲技術,使讀者編寫的爬蟲可以繞過簡單的反爬蟲技術更加靈活地獲取數據。
本書用于Python 3編程與Python 3網絡爬蟲快速入門。另外,為了讓讀者多了解幾個爬蟲框架,本書也介紹了Python 2.7下運行的Mechanize與Pyspider工具。
修訂說明
本書第1版使用了Python 2.7,由于Python 2未來不再被官方支持,今后Python將逐漸轉換到Python 3版本。Python 3基本上可以與Python 2兼容,但細節方面略有差異,比如某些模塊的名稱(Python2中的urllib2在Python 3中變成了urllib.request)。本次修訂將所有支持Python 3的爬蟲全部轉換成了Python 3的版本,更加符合主流。目前暫時不支持Python 3、只支持Python 2的爬蟲(Mechanize與Pyspider)也修訂了代碼,改正了一些因為目標網站改版而造成爬蟲不能使用的問題。
源代碼下載
本書源代碼下載地址請掃描右邊二維碼。如果下載有問題,或者對本書有
任何疑問與建議,請聯系,郵件主題為“Python網絡爬蟲”。
本書讀者與作者
? Python編程及Python網絡爬蟲初學者
? 數據分析與挖掘技術初學者
? 高等院校和培訓學校相關專業的師生
本書由胡松濤主筆,其他參與創作的還有王立平、劉祥淼、王啟明、樊愛宛、張倩、曹卉、林江閩、王鐵民、殷龍、李春城、趙東、李玉莉、李柯泉、李雷霆。


著 者
2018年8月
內容簡介:

本書從Python 3.6.4的安裝開始,詳細講解了Python從簡單程序延伸到Python網絡爬蟲的全過程。本書從實戰出發,根據不同的需求選取不同的爬蟲,有針對性地講解了幾種Python網絡爬蟲。
本書共10章,涵蓋的內容有Python3.6語言的基本語法、Python常用IDE的使用、Python第三方模塊的導入使用、Python爬蟲常用模塊、Scrapy爬蟲、Beautiful Soup爬蟲、Mechanize模擬瀏覽器和Selenium模擬瀏覽器、Pyspider爬蟲框架、爬蟲與反爬蟲。本書所有源代碼已上傳網盤供讀者下載。
本書內容豐富,實例典型,實用性強。適合Python網絡爬蟲初學者、Python數據分析與挖掘技術初學者,以及高等院校和培訓學校相關專業的師生閱讀。
目錄:

第1章Python環境配置1
1.1Python簡介1
1.1.1Python的歷史由來1
1.1.2Python的現狀2
1.1.3Python的應用2
1.2Python3.6.4開發環境配置4
1.2.1Windows下安裝Python4
1.2.2Windows下安裝配置pip9
1.2.3Linux下安裝Python10
1.2.4Linux下安裝配置pip13
1.2.5永遠的helloworld16
1.3本章小結21
第2章Python基礎22
2.1Python變量類型22
2.1.1數字22
2.1.2字符串25
2.1.3列表29
2.1.4元組34
2.1.5字典37
2.2Python語句41
2.2.1條件語句——ifelse41
2.2.2有限循環——for42
2.2.3無限循環——while44
2.2.4中斷循環——continue、break46
2.2.5異常處理——tryexcept48
2.2.6導入模塊——import52
2.3函數和類56
2.3.1函數56
2.3.2類62
2.4Python內置函數68
2.4.1常用內置函數68
2.4.2高級內置函數69
2.5Python代碼格式74
2.5.1Python代碼縮進74
2.5.2Python命名規則75
2.5.3Python代碼注釋76
2.6Python調試79
2.6.1Windows下IDLE調試79
2.6.2Linux下pdb調試82
2.7本章小結87
第3章簡單的Python腳本88
3.1九九乘法表88
3.1.1Project分析88
3.1.2Project實施88
3.2斐波那契數列90
3.2.1Project分析90
3.2.2Project實施90
3.3概率計算91
3.3.1Project分析91
3.3.2Project實施92
3.4讀寫文件93
3.4.1Project分析93
3.4.2Project實施94
3.5類的繼承與重載96
3.5.1Project1分析96
3.5.2Project1實施98
3.5.3Project2分析100
3.5.4Project2實施101
3.6多線程107
3.6.1Project1分析107
3.6.2Project1實施109
3.6.3Project2分析112
3.6.4Project2實施115
3.7本章小結117
第4章Python爬蟲常用模塊118
4.1網絡爬蟲技術核心118
4.1.1網絡爬蟲實現原理118
4.1.2爬行策略119
4.1.3身份識別119
4.2Python3標準庫之urllib.request模塊120
4.2.1urllib.request請求返回網頁120
4.2.2urllib.request使用代理訪問網頁122
4.2.3urllib.request修改header125
4.3Python3標準庫之logging模塊129
4.3.1簡述logging模塊129
4.3.2自定義模塊myLog133
4.4re模塊(正則表達式)135
4.4.1re模塊(正則表達式操作)136
4.4.2re模塊實戰137
4.5其他有用模塊139
4.5.1sys模塊(系統參數獲取)139
4.5.2time模塊(獲取時間信息)141
4.6本章小結144
第5章Scrapy爬蟲框架145
5.1安裝Scrapy145
5.1.1Windows下安裝Scrapy環境145
5.1.2Linux下安裝Scrapy146
5.1.3vim編輯器147
5.2Scrapy選擇器XPath和CSS148
5.2.1XPath選擇器148
5.2.2CSS選擇器151
5.2.3其他選擇器152
5.3Scrapy爬蟲實戰一:今日影視153
5.3.1創建Scrapy項目153
5.3.2Scrapy文件介紹155
5.3.3Scrapy爬蟲編寫157
5.4Scrapy爬蟲實戰二:天氣預報164
5.4.1項目準備165
5.4.2創建編輯Scrapy爬蟲166
5.4.3數據存儲到json173
5.4.4數據存儲到MySQL175
5.5Scrapy爬蟲實戰三:獲取代理182
5.5.1項目準備182
5.5.2創建編輯Scrapy爬蟲183
5.5.3多個Spider188
5.5.4處理Spider數據192
5.6Scrapy爬蟲實戰四:糗事百科194
5.6.1目標分析195
5.6.2創建編輯Scrapy爬蟲195
5.6.3Scrapy項目中間件——添加headers196
5.6.4Scrapy項目中間件——添加proxy200
5.7Scrapy爬蟲實戰五:爬蟲攻防202
5.7.1創建一般爬蟲202
5.7.2封鎖間隔時間破解206
5.7.3封鎖Cookies破解206
5.7.4封鎖User-Agent破解207
5.7.5封鎖IP破解212
5.8本章小結215
第6章BeautifulSoup爬蟲216
6.1安裝BeautifulSoup環境216
6.1.1Windows下安裝BeautifulSoup216
6.1.2Linux下安裝BeautifulSoup217
6.1.3最強大的IDE——Eclipse218
6.2BeautifulSoup解析器227
6.2.1bs4解析器選擇227
6.2.2lxml解析器安裝227
6.2.3使用bs4過濾器229
6.3bs4爬蟲實戰一:獲取百度貼吧內容234
6.3.1目標分析234
6.3.2項目實施236
6.3.3代碼分析243
6.3.4Eclipse調試244
6.4bs4爬蟲實戰二:獲取雙色球中獎信息245
6.4.1目標分析246
6.4.2項目實施248
6.4.3保存結果到Excel251
6.4.4代碼分析256
6.5bs4爬蟲實戰三:獲取起點小說信息257
6.5.1目標分析257
6.5.2項目實施259
6.5.3保存結果到MySQL261
6.5.4代碼分析265
6.6bs4爬蟲實戰四:獲取電影信息266
6.6.1目標分析266
6.6.2項目實施267
6.6.3bs4反爬蟲270
6.6.4代碼分析273
6.7bs4爬蟲實戰五:獲取音悅臺榜單273
6.7.1目標分析273
6.7.2項目實施274
6.7.3代碼分析279
6.8本章小結280
第7章Mechanize模擬瀏覽器281
7.1安裝Mechanize模塊281
7.1.1Windows下安裝Mechanize281
7.1.2Linux下安裝Mechanize282
7.2Mechanize測試283
7.2.1Mechanize百度283
7.2.2Mechanize光貓F460286
7.3Mechanize實站一:獲取Modem信息290
7.3.1獲取F460數據290
7.3.2代碼分析293
7.4Mechanize實戰二:獲取音悅臺公告293
7.4.1登錄原理293
7.4.2獲取Cookie的方法294
7.4.3獲取Cookie298
7.4.4使用Cookie登錄獲取數據302
7.5本章小結305
第8章Selenium模擬瀏覽器306
8.1安裝Selenium模塊306
8.1.1Windows下安裝Selenium模塊306
8.1.2Linux下安裝Selenium模塊307
8.2瀏覽器選擇307
8.2.1Webdriver支持列表307
8.2.2Windows下安裝PhantomJS308
8.2.3Linux下安裝PhantomJS310
8.3Selenium&PhantomJS抓取數據312
8.3.1獲取百度搜索結果312
8.3.2獲取搜索結果314
8.3.3獲取有效數據位置317
8.3.4從位置中獲取有效數據319
8.4Selenium&PhantomJS實戰一:獲取代理319
8.4.1準備環境320
8.4.2爬蟲代碼321
8.4.3代碼解釋324
8.5Selenium&PhantomJS實戰二:漫畫爬蟲324
8.5.1準備環境325
8.5.2爬蟲代碼326
8.5.3代碼解釋329
8.6本章小結329
第9章Pyspider爬蟲框架330
9.1安裝Pyspider330
9.1.1Windows下安裝Pyspider330
9.1.2Linux下安裝Pyspider331
9.1.3選擇器pyquery測試333
9.2Pyspider實戰一:Youku影視排行335
9.2.1創建項目336
9.2.2爬蟲編寫338
9.3Pyspider實戰二:電影下載346
9.3.1項目分析346
9.3.2爬蟲編寫349
9.3.3爬蟲運行、調試355
9.3.4刪除項目360
9.4Pyspider實戰三:音悅臺MusicTop363
9.4.1項目分析363
9.4.2爬蟲編寫364
9.5本章小結369
第10章爬蟲與反爬蟲370
10.1防止爬蟲IP被禁370
10.1.1反爬蟲在行動370
10.1.2爬蟲的應對373
10.2在爬蟲中使用Cookies377
10.2.1通過Cookies反爬蟲377
10.2.2帶Cookies的爬蟲378
10.2.3動態加載反爬蟲381
10.2.4使用瀏覽器獲取數據381
10.3本章小結381
序: