精通Python網絡爬蟲:核心技術、框架與項目實戰 ( 簡體 字) |
作者:韋瑋 | 類別:1. -> 程式設計 -> Python 2. -> 程式設計 -> 網路爬蟲 |
譯者: |
出版社:機械工業出版社 | 3dWoo書號: 46465 詢問書籍請說出此書號!【缺書】 NT售價: 345 元 |
出版日:3/1/2017 |
頁數:294 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787111562085 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介:這是一本實戰性的網絡爬蟲秘笈,不僅講解了如何編寫爬蟲,而且還講解了流行的網絡爬蟲的使用。全書分為4個部分:第壹部分對網絡爬蟲做了概要性的介紹,主要介紹了網絡爬蟲的常識和所涉及的技術概覽;第二部分是本書的重點之一,詳細講解了網絡爬蟲的核心技術,包括網絡爬蟲的實現原理與實現技術、Urllib庫和URLError庫的異常處理、正則表達式與Cookie的使用、Fiddler的使用、爬蟲的瀏覽器偽裝技術、爬蟲的定向抓取技術等;第三部分講解了流行的爬蟲框架Scrapy的使用、架構和高級應用,是目前關于Scrapy詳細的講解;第四部分是3個實戰案例,講解了博客爬蟲、圖片爬蟲和模擬登陸爬蟲的編寫方法。 |
目錄:前 言 第一篇 理論基礎篇 第1章 什么是網絡爬蟲 3 1.1 初識網絡爬蟲 3 1.2 為什么要學網絡爬蟲 4 1.3 網絡爬蟲的組成 5 1.4 網絡爬蟲的類型 6 1.5 爬蟲擴展——聚焦爬蟲 7 1.6 小結 8 第2章 網絡爬蟲技能總覽 9 2.1 網絡爬蟲技能總覽圖 9 2.2 搜索引擎核心 10 2.3 用戶爬蟲的那些事兒 11 2.4 小結 12 第二篇 核心技術篇 第3章 網絡爬蟲實現原理與實現技術 15 3.1 網絡爬蟲實現原理詳解 15 3.2 爬行策略 17 3.3 網頁更新策略 18 3.4 網頁分析算法 20 3.5 身份識別 21 3.6 網絡爬蟲實現技術 21 3.7 實例——metaseeker 22 3.8 小結 27 第4章 Urllib庫與URLError異常處理 29 4.1 什么是Urllib庫 29 4.2 快速使用Urllib爬取網頁 30 4.3 瀏覽器的模擬——Headers屬性 34 4.4 超時設置 37 4.5 HTTP協議請求實戰 39 4.6 代理服務器的設置 44 4.7 DebugLog實戰 45 4.8 異常處理神器——URLError實戰 46 4.9 小結 51 第5章 正則表達式與Cookie的使用 52 5.1 什么是正則表達式 52 5.2 正則表達式基礎知識 52 5.3 正則表達式常見函數 61 5.4 常見實例解析 64 5.5 什么是Cookie 66 5.6 Cookiejar實戰精析 66 5.7 小結 71 第6章 手寫Python爬蟲 73 6.1 圖片爬蟲實戰 73 6.2 鏈接爬蟲實戰 78 6.3 糗事百科爬蟲實戰 80 6.4 微信爬蟲實戰 82 6.5 什么是多線程爬蟲 89 6.6 多線程爬蟲實戰 90 6.7 小結 98 第7章 學會使用Fiddler 99 7.1 什么是Fiddler 99 7.2 爬蟲與Fiddler的關系 100 7.3 Fiddler的基本原理與基本界面 100 7.4 Fiddler捕獲會話功能 102 7.5 使用QuickExec命令行 104 7.6 Fiddler斷點功能 106 7.7 Fiddler會話查找功能 111 7.8 Fiddler的其他功能 111 7.9 小結 113 第8章 爬蟲的瀏覽器偽裝技術 114 8.1 什么是瀏覽器偽裝技術 114 8.2 瀏覽器偽裝技術準備工作 115 8.3 爬蟲的瀏覽器偽裝技術實戰 117 8.4 小結 121 第9章 爬蟲的定向爬取技術 122 9.1 什么是爬蟲的定向爬取技術 122 9.2 定向爬取的相關步驟與策略 123 9.3 定向爬取實戰 124 9.4 小結 130 第三篇 框架實現篇 第10章 了解Python爬蟲框架 133 10.1 什么是Python爬蟲框架 133 10.2 常見的Python爬蟲框架 133 10.3 認識Scrapy框架 134 10.4 認識Crawley框架 135 10.5 認識Portia框架 136 10.6 認識newspaper框架 138 10.7 認識Python-goose框架 139 10.8 小結 140 第11章 爬蟲利器——Scrapy安裝與配置 141 11.1 在Windows7下安裝及配置Scrapy實戰詳解 141 11.2 在Linux(Centos)下安裝及配置Scrapy實戰詳解 147 11.3 在MAC下安裝及配置Scrapy實戰詳解 158 11.4 小結 161 第12章 開啟Scrapy爬蟲項目之旅 162 12.1 認識Scrapy項目的目錄結構 162 12.2 用Scrapy進行爬蟲項目管理 163 12.3 常用工具命令 166 12.4 實戰:Items的編寫 181 12.5 實戰:Spider的編寫 183 12.6 XPath基礎 187 12.7 Spider類參數傳遞 188 12.8 用XMLFeedSpider來分析XML源 191 12.9 學會使用CSVFeedSpider 197 12.10 Scrapy爬蟲多開技能 200 12.11 避免被禁止 206 12.12 小結 212 第13章 Scrapy核心架構 214 13.1 初識Scrapy架構 214 13.2 常用的Scrapy組件詳解 215 13.3 Scrapy工作流 217 13.4 小結 219 第14章 Scrapy中文輸出與存儲 220 14.1 Scrapy的中文輸出 220 14.2 Scrapy的中文存儲 223 14.3 輸出中文到JSON文件 225 14.4 小結 230 第15章 編寫自動爬取網頁的爬蟲 231 15.1 實戰:items的編寫 231 15.2 實戰:pipelines的編寫 233 15.3 實戰:settings的編寫 234 15.4 自動爬蟲編寫實戰 234 15.5 調試與運行 239 15.6 小結 242 第16章 CrawlSpider 243 16.1 初識CrawlSpider 243 16.2 鏈接提取器 244 16.3 實戰:CrawlSpider實例 245 16.4 小結 249 第17章 Scrapy高級應用 250 17.1 如何在Python3中操作數據庫 250 17.2 爬取內容寫進MySQL 254 17.3 小結 259 第四篇 項目實戰篇 第18章 博客類爬蟲項目 263 18.1 博客類爬蟲項目功能分析 263 18.2 博客類爬蟲項目實現思路 264 18.3 博客類爬蟲項目編寫實戰 264 18.4 調試與運行 274 18.5 小結 275 第19章 圖片類爬蟲項目 276 19.1 圖片類爬蟲項目功能分析 276 19.2 圖片類爬蟲項目實現思路 277 19.3 圖片類爬蟲項目編寫實戰 277 19.4 調試與運行 281 19.5 小結 282 第20章 模擬登錄爬蟲項目 283 20.1 模擬登錄爬蟲項目功能分析 283 20.2 模擬登錄爬蟲項目實現思路 283 20.3 模擬登錄爬蟲項目編寫實戰 284 20.4 調試與運行 292 20.5 小結 294 |
序: |