-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

王者歸來:自己動手寫網路爬蟲--第2版

( 繁體 字)
作者:羅剛、王振東類別:1. -> 程式設計 -> Line
譯者:
出版社:佳魁資訊王者歸來:自己動手寫網路爬蟲--第2版 3dWoo書號: 44194
詢問書籍請說出此書號!

缺書
NT定價: 580
折扣價: 435

出版日:5/27/2016
頁數:
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 繁體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9789863793335
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

本書從基本的爬蟲原理開始講解,透過介紹優先順序佇列、寬度優先搜索等內容引領讀者入門;根據目前風起雲湧的雲端運算熱潮,重點講述雲端運算的相關內容及其在爬蟲中的應用,以及帶偏好的爬蟲、資訊抽取、連結分析等內容;最後三章還介紹有關爬蟲的資料採擷的內容。
改版新增第11章「使用Nokogiri剖析HTML」、「使用Mechanize自動化表單的輸入」等內容。
適合需要實際應用搜尋引擎的程式師使用,對於資訊檢索等相關研究人員也具有參考價值。

目錄:

改版說明
前言
PART 1 自己動手抓取資料
第1章 全面剖析網路爬蟲
1.1 抓取網頁
1.2 寬度優先爬蟲和帶偏好的爬蟲
1.3 設計爬蟲佇列
1.4 設計爬蟲架構
1.5 使用多執行緒技術提升爬蟲性能
1.6 本章小結
第2章 分散式爬蟲
2.1 設計分散式爬蟲
2.2 分散式儲存
2.3 Google的成功之道 —— GFS
2.4 Google網頁儲存秘訣 —— BigTable
2.5 Google的成功之道 —— MapReduce演算法
2.6 Nutch中的分散式
2.7 本章小結
第3章 爬蟲的 "方方面面"
3.1 爬蟲中的"黑洞"
3.2 限定爬蟲和主題爬蟲
3.3 有"道德"的爬蟲
3.4 本章小結
PART 2自己動手抽取Web 內容
第4章 "處理" HTML 頁面
4.1 征服正則運算式
4.2 抽取HTML正文
4.3 抽取正文
4.4 從JavaScript中抽取資訊
4.5 本章小結
第5章 非HTML正文抽取
5.1 抽取PDF檔案
5.2 抽取Office文件
5.3 抽取RTF
5.4 本章小結
第6章 多媒體抽取
6.1 抽取視訊
6.2 聲音抽取
6.3 本章小結
第7章 去掉網頁中的 "雜訊"
7.1 "雜訊"對網頁的影響
7.2 利用"統計學"消除"雜訊"
7.3 利用 "視覺" 消除 "雜訊"
7.4 本章小結
PART 3 自己動手挖掘Web資料
第8章 分析Web圖
8.1 儲存Web"圖"
8.2 利用 Web "圖" 分析連結
8.3 Google的秘密 —— PageRank
8.4 PageRank 的兄弟HITS
8.5 PageRank與HITS的比較
8.6 本章小結
第9章 去掉重複的 "文件"
9.1 何為 "重複" 的文件
9.2 去除 "重複" 文件 —— 排除重複
9.3 利用 "語義指紋" 排除重複
9.4 SimHash排除重複
9.5 分散式文件排除重複
9.6 本章小結
第10章 分類與聚類別的應用
10.1 網頁分類.
10.2 網頁聚類
10.3 本章小結
第11章 用 Ruby 寫一個小爬蟲
11.1 先用 wget 測試
11.2 爬蟲專用的 Nokigiri 及 Mechanize
11.3 使用維基百科來測試<
序: