-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

駕馭文本:文本的發現、組織和處理

( 簡體 字)
作者:王斌類別:1. -> 程式設計 -> 綜合
譯者:
出版社:電子工業出版社駕馭文本:文本的發現、組織和處理 3dWoo書號: 42010
詢問書籍請說出此書號!

缺書
NT售價: 395

出版日:7/1/2015
頁數:340
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121252303
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

譯者序
不知不覺,我進入信息內容處理這個領域已經有近20年了。這些年中,我的研究涉及機器翻譯、Web搜索、跨語言檢索、垃圾郵件過濾、問答、推薦、文本分類、聚類、情感分析等諸多技術或應用,也開發了多個原型以及實用系統。我十分高興能夠在這個有趣的領域不斷地學習新技術,了解并開發新應用。與此同時,我也親眼目睹很多優秀的技術書籍不斷涌現。完全出于個人興趣愛好以及與大家分享的個人追求,我先后翻譯了《信息檢索導論》、《大數據:互聯網大規模數據挖掘與分布式處理》、《機器學習實戰》、《Mahout實戰》等教材或技術書籍。現在,我又推薦大家手邊的這本《駕馭文本》。
文本處理是很多應用的基本技術,包括上面提到的搜索、推薦、問答應用都離不開文本處理。“駕馭”文本對于這些系統至關重要。然而,文本特別是自然語言文本本身的情況十分復雜,處理起來十分繁瑣,難度很大。如何利用已有開源工具高效地“駕馭”文本是本書的目標。很顯然,對于文本處理開發人員來說,這本書能夠提供支撐。當然,由于自然語言文本固有的歧義性,文本處理技術特別是深層“理解”技術還遠未成熟,研究人員還在不斷努力,全方面真正“駕馭”文本是所有文本處理工作人員的終極夢想。
本書介紹了文本搜索、模糊字符串匹配、命名實體識別、文本聚類分類標注等多種文本處理關鍵技術,并通過融合上述技術構建了一個簡單的事實型問答系統。所有的單項技術都有可供下載使用的數據集和相應的運行代碼,讀者可以下載這些代碼和數據進行嘗試,以便能夠更加深入地理解這些技術。
本書作者都是開源社區的重要貢獻者,他們在文本處理領域具有重要的開發經驗。這些經驗也都體現在本書的內容寫作中。
感謝出版社和編輯部的辛勤工作,感謝實驗室領導、同事以及譯者家人對翻譯本書的支持。
因本人各方面水平有限,現有譯文中肯定存在許多不足。希望讀者能夠和我進行聯系,以便能夠不斷改進。來信請聯系wbxjj2008@gmail.com。
王 斌
2015年3月15日于中關村


在高質量文本處理需求持續指數級增長的年代,很難想象某個部門或業務不依賴某種類型的文本信息。迅速發展的Web經濟也明顯迅速加大了這種依賴性。與此同時,對高水平技術專家的需求也迅速增加。《駕馭文本》這本書就是應這種環境而出版的一本優秀的實用性書籍,它能夠提供大量來自真實世界的經過實際驗證的指導案例。
Grant Ingersoll和Drew Farris是兩位優秀的高水平軟件工程師,和我一起工作過多年。而Tom Morton是在自然語言處理領域備受尊重的貢獻者。他們仨聯袂為我們奉獻了一本實際課程的教材,該課程可以指導其他有志加入文本處理高級人才行列的技術人員,這些文本處理人才稱為自然語言處理工程師。
本書采用學而致用的方法,為一個實際上十分復雜的過程褪去神秘的外衣。通過集中關注已有工具、可實現樣例和已驗證的代碼,幾位作者帶領讀者快速學習本來需要一學期的NLP課程。
作為軟件工程師,你已經具備基本能力能夠跟進這些樣例、代碼和書中提到的開源工具,從而能夠比預期更快地成為真正的專家,同時也能更快準備好面對來自實際世界的機會。
美國雪城大學信息研究學院院長 LIZ LIDDY
前.言
生活中充滿偶然瞬間,它們當中只有極少數會脫穎而出,就像那個確定我(Grant)職業生涯的瞬間一樣。那是上世紀90年代末,當時我是一個年輕的軟件開發人員,主要從事分布式電磁仿真的工作。有一天我看到一則廣告,在紐約雪城(Syracuse)的一家小公司TextWise招聘一個開發職位。看完職位描述之后,我都沒想過能獲得這份工作,但是當時決定試試運氣,就提交了一份簡歷。莫名其妙地,我獲得了這份工作,于是開始了我的搜索和自然語言處理生涯。沒想到這么多年以后,我仍然還在做搜索和自然語言處理,更沒想到還會寫一本這方面的書。
我那時候的第一個任務是開發一個跨語言信息檢索(CLIR)系統,要求輸入英語查詢能夠找到法語、西班牙語和日語文檔,并將它們自動翻譯成英語。回想起來,那個系統觸及了我開始喜歡文本處理工作的所有難題:搜索、分類、信息抽取、機器翻譯和所有那些奇怪的讓每個學習文法的學生都瘋狂的語言規則等等。第一個項目之后,我后來又參與了多個搜索和NLP系統的開發工作,范圍從基于規則的分類器到問答系統等等。后來在2004年,NLP中心的一份新工作讓我開始接觸Apache Lucene,這個時代的開源搜索庫(無論如何,至少目前還是)。后來我又參與開發一個CLIR系統,不過這次處理的是英語和阿拉伯語。因為需要一些Lucene功能來完成這項任務,我開始提交一些功能和錯誤的修正補丁。過了一段時間之后,我成為該社區的貢獻者。從那之后,開源的“閘門”被轟然打開。我在開源領域涉入更深,并與Isabel Drost和Karl Wettin開始了Apache Mahout機器學習項目,并共同創立了一家利用Apache Lucene和Solr進行搜索和文本分析的公司Lucid Imagination。
轉了一圈之后,我認為搜索和NLP屬于計算機科學的定義范圍,不論是數據結構還是算法都需要復雜的方法來解決問題。除此之外,還有處理用戶生成的大規模Web和社交內容的擴展性需求,這構成你的開發者之夢。這本書由工程師撰寫給工程師,特別關注于使用現有、久經考驗的開源庫來解決文本處理中的艱難問題。個人認為目前這方面的市場還處于空白。我希望本書能夠幫助解決當前工作中每天遇到的問題,也能激發你看到帶來大量學習機會的文本世界。
GRANT INGERSOLL
我(Tom)在高二時就開始對人工智能感興趣,本科畢業時選擇去讀自然語言處理方向的研究生。在賓夕法尼亞大學,我學習了大量文本處理、機器學習、算法和數據結構知識。我也有機會和自然語言處理領域最杰出的一些人共事并從他們身上學到很多東西。
在研究生階段的課程中,我參加了多個NLP系統的開發工作,并參加了大量DARPA資助的有關共指、摘要和問答的評測。在這些工作中,我熟悉了Lucene和更大的開源運動。我也注意到能夠提供高效端對端處理的開源文本處理軟件還有較大欠缺。于是在我碩士論文的基礎上,我為OpenNLP項目提供了大量貢獻代碼,并在后面美國教育測試服務中心(Educational Testing Services)開發自動作文和短答案評分系統時繼續學習NLP系統的一些知識。
在開源社區工作教會我很多與其他人一起工作的方法,也使我成為一名更優秀的軟件工程師。現在,我在Comcast Cororation工作,與多個軟件工程師團隊一起使用本書中介紹的工具和技術。我希望本書能夠在研究人員的艱難工作(這些工作就像我在研究生階段學到的那樣)與以使用文本處理來解決實際問題為目標的軟件工程師之間架起橋梁。
THOMAS MORTON
和Grant一樣,我是上世紀90年代中期由Elizabeth Liddy博士、Woojin Paik以及其他一些在TextWise進行研究的人員引入信息檢索和自然語言處理領域的。我在完成雪城大學信息研究學院的碩士工作時和這個團隊一起工作。那時,TextWise正處于從研究組轉型為創業公司的階段,主要基于文本處理研究的成果開發商業應用。我在那個公司待了很多年,其間不斷地學習和發現新的東西,并與一些優秀的同事一起共事,他們從各個角度來應對“教機器理解語言”這個挑戰。
個人而言,我一開始是從軟件開發人員的角度切入到文本分析這個主題的。我有機會同優秀的研究人員一起工作,將他們的思想從實驗轉化為功能原型及大規模可擴展的系統。在此過程中,我有機會從事大量現在被稱為“數據科學”的工作,發掘出對探索和理解大規模數據以及對它們進行學習的工具和技術的深深熱愛。
怎樣夸大開源軟件對我職業的巨大影響都毫不為過。作為研究的伴隨品,可用的開源代碼為學習文本分析的新技術和方法以及軟件開發提供了一條十分高效的途徑。在這里我對所有盡力將知識和經驗共享給那些有熱情參加學習者的人表示敬意。我特別要感謝Apache軟件基金會的那些好伙計們,他們為開源軟件、人、處理過程和支持的社區貢獻出一個不斷成長的生機勃勃的生態系統。
本書中的工具和技術深深扎根于開源軟件社區。Lucene、Solr、Mahout和OpenNLP都處于Apache這頂大傘之下。本書只介紹這些工具能實現的一些表面功能。我們的目標是提供對文本處理核心概念的理解,并為本領域的未來探索打下堅實的基礎。
祝大家編程愉快!
DREW FARRIS
致.謝
本書經歷很長時間完成,代表了很多人的心血,這里要對他們表示誠摯謝意。
感謝Apache Solr、Lucene、Mahout、OpenNLP和其他本書中工具的用戶和開發者
感謝Manning出版社,特別是和我們一直密切合作的Douglas Pundick、Karen Tegtmeyer和MarjanBace
感謝本書的開發編輯Jeff Bleiel,感謝他在我們瘋狂時間表的情況下仍然推進寫作過程,感謝他一直以來的優秀反饋,也感謝他將我們這些開發人員轉變為作者
感謝本書的評閱人,他們提出的問題、評論及批評提高了本書的質量。他們是:Adam Tacy、Amos Bannister、Clint Howarth、CostantinoCerbo、Dawid Weiss、Denis Kurilenko、Doug Warren、Frank Jania、Gann Bierner、James Hatheway、James Warren、Jason Rennie、Jeffrey Copeland、Josh Reed、Julien Nioche、Keith Kim、Manish Katyal、MargrietBruggeman、Massimo Perga、NikanderBruggeman、Philipp K. Janert、Rick Wagner、Robi Sen、SanchetDighe、SzymonChojnacki、Tim Potter、Vaijanath Rao和Jeff Goldschrafe
感謝在本書特定章節將專業知識貢獻給大家的其他作者,他們是:J. Neal Richter、Manish Katyal、Rob Zinkov、SzymonChojnacki、Tim Potter和Vaijanath Rao
感謝Steven Rower,感謝他對本書所進行的全面的技術性評閱,也感謝他在TextWise、CNLP和部分Lucene項目時和我們一起共同度過美好時光
感謝Liz Liddy博士,感謝他將Drew和Grant引入到文本分析這個領域,感謝他帶來的樂趣和機會,也感謝他為本書寫序
感謝所有的MEAP讀者,感謝他們的耐心和反饋
最重要的,要感謝我們的家人、朋友和同事,感謝他們的鼓勵、精神支持以及對我們將正常的生活時間投入到本書寫作的理解
Grant In
ersoll
感謝我在TextWise和CNLP的同事,他們教會了我太多文本分析的知識。感謝Urdahl讓數學那么有趣,感謝Raymond女士讓我成為一個更好的人和學生,感謝我的父母Floyd和Delores,感謝我的孩子Jackie和William,感謝我的妻子Robin,她忍受了我經常工作到深夜和寫作占去的周末時光——謝謝你一直在那里支持我!
Tom Morton
感謝合作者的辛勤工作和團隊合作,感謝我的妻子Thuy和女兒Chloe,感謝她們的耐心、支持和給予的自由時間;感謝我的家庭Mortons和Trans對我的鼓勵;感謝我在賓夕法尼亞大學和Comcast的同事的支持和合作,特別要感謝Na-Rae Han、Jason Baldridge、Gann Bierner和Martha Palmer;感謝J.rnKottmann為OpenNLP所付出的不懈努力。
Drew Farris
感謝Grant讓我參與本書撰寫和其他一些有趣的項目,感謝我過去和現在的同事,我從他們身上學到大量的東西并同他們共享文本分析、機器學習和開發優秀軟件的樂趣;感謝我的妻子Kristin和孩子們Phoebe、Audrey和Owen,感謝他們對我擠時間寫書和參與其他技術工作的耐心和支持;感謝我的大家庭,感謝他們的興趣和鼓勵,特別要感謝我的媽媽,雖然她已無法看到本書的完整版本。
關于本書
本書主要關注軟件應用的構建,這些應用使用和處理書面文字的文本內容并從中掘取核心價值。盡管本書有較大篇幅介紹了有關搜索、自然語言處理和機器學習的主題,但是它并非一本有關這些主題的理論著作。我們盡量避免術語和復雜的數學公式,而集中關注當今軟件工程師、架構師和從業人員為實現下一代智能文本處理應用時所需的一些概念和示例。本書也使用免費可用、高流行度的開源工具(如Apache Solr、Mahout和OpenNLP)來提供書中一些真實世界中的實例的概念。
本書閱讀對象
這書是否適合你?或許是。本書的目標讀者是那些完全沒有或沒有太多搜索、自然語言處理和機器學習背景的軟件從業人員。實際上,本書主要面對那些我們在很多公司看到的下面這種場景下的從業人員:某開發團隊需要在一個新應用或在已有應用上增加搜索和其他功能,但是大部分開發人員并沒有文本處理的經驗。他們需要一個很好的入門材料來理解這些概念,同時又不會陷入那些不必要的內容之中。
很多情況下,我們提供容易訪問的參考資源,比如維基百科和學術論文,因而本書可以作為讀者需要對本領域進行深入探索的初始平臺。此外,雖然本書大部分開源工具和樣例都是基于Java的,但是本書的概念和思路也很容易移植到其他編程語言,因此Ruby、Python和其他語言的愛好者同樣會對本書的內容滿意。
盡管本書對需要實現教科書和學術書籍中的概念的學生有所幫助,但是其目標讀者很顯然不是那些尋求相關系統中數學解釋的用戶和學術愛好者。
本書的目標讀者也不是那些已經在其職業生涯中構建過很多文本處理應用的經驗豐富的從業人員,盡管他們可能也會從本書開源包使用中發現一些有趣的片段。不止一個有經驗的從業人員告訴我們,本書可以加快本領域新人在文本處理應用開發中對思路和代碼的理解。
最后,我們希望本書是一本面向現代程序員的最新指導書籍,也希望它成為文本處理應用編程職業道路之初所需要的指導書籍。
本書內容組織
第1章解釋文本處理的重要性及其具有挑戰性的原因。本章將預覽一個基于事實的問答系統,以此來設定利用開源庫駕馭文本的一個場景。
第2章介紹文本處理中的一些模塊構建:切詞、組塊、分析及詞性標注。之后考察利用Apache Tika開源項目從常見文件格式中抽取文本的過程。
第3章探討搜索理論及向量空間模型的基本知識。我們介紹Apache Solr搜索服務器并給出利用它進行索引的方法。本章將學習如何對搜索性能(數量和質量)進行評估。
第4章考察基于前綴和n元組的模糊字符串匹配方法。我們考察兩個字符串重疊度的計算方法:Jaccard和Jaro-Winkler距離,并解釋如何利用Solr找到候選匹配并對它們進行排序。
第5章給出了命名實體識別背后的基本概念。我們將展示如何使用OpenNLP尋找命名實體并討論OpenNLP的性能問題。我們還將介紹如何對OpenNLP進行定制從而在新領域中識別命名實體。
第6章主要介紹文本聚類。這一章會學習到常見文本聚類算法背后的基本概念,并且看到聚類如何提升文本應用的例子。我們也會介紹如何使用Apache Mahout來對整個文檔集進行聚類,以及如何使用Carrot2對搜索結果進行聚類。
第7章討論了分類、歸類和標注背后的基本概念。我們會展示分類如何用于文本應用,并且介紹如何利用開源工具來構建、訓練和評估分類器。我們還會使用Mahout中的樸素貝葉斯實現來構建文檔分類器。
第8章綜合前面7章學到的知識構建一個示例QA系統。這個簡單的應用利用維基百科作為知識庫,并利用Solr作為基線系統。
第9章探討搜索和NLP的下一步發展方向及語義、篇章和語用的角色。我們將介紹跨多種語言的搜索、內容中的情感探測,以及新興的工具、應用和思想。
代碼約定及下載
本書包含大量代碼樣例,所有源代碼均采用等寬字體以區分普通文本。代碼中的方法名稱、類名稱和其他元素也采用等寬字體表示。
在很多清單中,代碼加以標注以指出重要概念,有時文本中也給出了項目編號來提供代碼的額外信息。
本書的源代碼樣例與在線樣例相當接近。但是為簡潔起見,書中源碼中去掉了像注釋一樣的內容,以保證代碼能夠方便地嵌入到文本中。
本書示例的源代碼可以從出版社網站www.manning.com/TamingText下載。
作者在線
購買本書的讀者能夠免費訪問Manning出版社管理的一個私有Web論壇,可以在這個論壇上發表對本書的評論、詢問技術問題并從作者或其他用戶那里得到幫助。你可以通過地址www.manning.com/TammingText訪問和訂閱該論壇。完成注冊后,你可以了解如何訪問論壇、該論壇所能提供的幫助及論壇的行為規范。
Manning出版社承諾為讀者和作者提供一個進行深入對話的場所,但不對作者的參與程度做任何要求,他們對于該論壇的貢獻出于自愿且沒有任何報酬。我們建議讀者盡量向作者提一些具有挑戰性的問題,這樣可以讓他們保持興趣!
本書在印期間,讀者均可訪問作者在線論壇,并查看之前的討論。

關于封面
封面插圖的標題是“Le Marchand”,是商人或店主的意思。該插圖取自法國出版的Sylvain Marechal的一個19世紀版本的四卷地域服飾習俗匯編。每幅圖都精心描畫、手工上色。豐富多樣的Marechal作品生動地告訴我們,200年前的文化差異是如何之大,它將世界上的城鎮和地域區分開來。人們彼此遠離,說著不同的鄉音和語言。不管是在街道或鄉村,人們很容易通過服飾就能區分他們居住的位置、交易或購置的物品。
從那之后,服飾的密碼逐漸改變,那時地域之間的豐富多樣性也逐漸消失。現在很難區分來自不同洲的居民,更別說來自不同城鎮或地區的人了。或許我們以文化多樣性為代價換來更多樣的個人生活,當然也是更豐富的快節奏的技術生活。
在一個很難分辨兩本計算機書籍的年代,Manning出版社通過Marechal的圖畫將我們帶回過去,封面取材于200年前生活的多樣性,借此頌揚計算機行業的創造力和首創精神。
內容簡介:

文本處理是目前互聯網內容應用(如搜索引擎、推薦引擎)的關鍵技術。本書涵蓋了文本處理概念和技術的多個方面,包括文本預處理、搜索、字符串匹配、信息抽取、命名實體識別、分類、聚類、標簽生成、摘要、問答等。本書的特點在于通過實例來理解文本處理的這些概念和技術,讀者利用現有的開源工具就可以自己實現這些實例。

目錄:

第1章 開始駕馭文本 .............1
1.1 駕馭文本重要的原因 .......2
1.2 預覽:一個基于事實的問答系統 .........4
1.2.1 嗨,弗蘭肯斯坦醫生 ......5
1.3 理解文本很困難 ....8
1.4 駕馭的文本 ..........11
1.5 文本及智能應用:搜索及其他 ...........13
1.5.1 搜索和匹配 .........13
1.5.2 抽取信息 .............14
1.5.3 對信息分組 .........15
1.5.4 一個智能應用 .....15
1.6 小結 ...........15
1.7 相關資源 ...16
第2章 駕馭文本的基礎 ........17
2.1 語言基礎知識 ......18
2.1.1 詞語及其類別 .....19
2.1.2 短語及子句 .........20
2.1.3 詞法 ..........21
2.2 文本處理常見工具 .........23
2.2.1 字符串處理工具 ............23
2.2.2 詞條及切詞 .........23
2.2.3 詞性標注 .............25
2.2.4 詞干還原 .............27
2.2.5 句子檢測 .............29
2.2.6 句法分析和文法 ............31
2.2.7 序列建模 .............33
2.3 從常見格式文件中抽取內容并做預處理 ......34
2.3.1 預處理的重要性 ............35
2.3.2 利用Apache Tika抽取內容 ......37
2.4 小結 ...........39
2.5 相關資源 ...40
第3章 搜索 ....41
3.1 搜索和多面示例:Amazon.com ..........42
3.2 搜索概念入門 ......44
3.2.1 索引內容 .............45
3.2.2 用戶輸入 .............47
3.2.3 利用向量空間模型對文檔排名 ..........51
3.2.4 結果展示 .............54
3.3 Apache Solr搜索服務器介紹 ....57
3.3.1 首次運行Solr ......58
3.3.2 理解Solr中的概念 .........59
3.4 利用Apache Solr對內容構建索引 .......63
3.4.1 使用XML構建索引 .......64
3.4.2 利用Solr和Apache Tika對內容進行抽取和索引 .....66
3.5 利用Apache Solr來搜索內容 ....69
3.5.1 Solr查詢輸入參數 .........71
3.5.2 抽取內容的多面展示 ....74
3.6 理解搜索性能因素 .........77
3.6.1 數量判定 .............77
3.6.2 判斷數量 .............81
3.7 提高搜索性能 ......82
3.7.1 硬件改進 .............82
3.7.2 分析的改進 .........83
3.7.3 提高查詢性能 .....85
3.7.4 其他評分模型 .....88
3.7.5 提升Solr性能的技術 .....89
3.8 其他搜索工具 ......91
3.9 小結 ...........93
3.10 相關資源 ............93
第4章 模糊字符串匹配 ........94
4.1 模糊字符串匹配方法 .....96
4.1.1 字符重合度度量方法 ....96
4.1.2 編輯距離 .............99
4.1.3 n元組編輯距離 ............102
4.2 尋找模糊匹配串 ...........105
4.2.1 在Solr中使用前綴來匹配 ......105
4.2.2 利用trie樹進行前綴匹配 .......106
4.2.3 使用n元組進行匹配 .....111
4.3 構建模糊串匹配應用 ...112
4.3.1 在搜索中加入提前輸入功能 ............113
4.3.2 搜索中的查詢拼寫校正 .........117
4.3.3 記錄匹配 ...........122
4.4 小結 .........127
4.5 相關資源 ............128
第5章 命名實體識別 .........129
5.1 命名實體的識別方法 ...131
5.1.1 基于規則的實體識別 .............131
5.1.2 基于統計分類器的實體識別 ............132
5.2 基于OpenNLP的基本實體識別 .........133
5.2.1 利用OpenNLP尋找人名 .........134
5.2.2 OpenNLP識別的實體解讀 .....136
5.2.3 基于概率過濾實體 ......137
5.3 利用OpenNLP進行深度命名實體識別 ........137
5.3.1 利用OpenNLP識別多種實體類型 ....138
5.3.2 OpenNLP識別實體的背后機理 ........141
5.4 OpenNLP的性能 ...........143
5.4.1 結果的質量 .......144
5.4.2 運行性能 ...........145
5.4.3 OpenNLP的內存使用 .............146
5.5 對新領域定制OpenNLP實體識別 .....147
5.5.1 訓練模型的原因和方法 .........147
5.5.2 訓練OpenNLP模型 ......148
5.5.3 改變建模輸入 ...150
5.5.4 對實體建模的新方法 .............152
5.6 小結 .........154
5.7 進一步閱讀材料 ...........155
第6章 文本聚類 .....156
6.1 Google News中的文檔聚類 ....157
6.2 聚類基礎 ............158
6.2.1 三種聚類的文本類型 .............158
6.2.2 選擇聚類算法 ...160
6.2.3 確定相似度 .......161
6.2.4 給聚類結果打標簽 ......162
6.2.5 聚類結果的評估 ..........163
6.3 搭建一個簡單的聚類應用 ......165
6.4 利用Carrot2對搜索結果聚類 .............166
6.4.1 使用Carrot2API ...........166
6.4.2 使用Carrot2對Solr的搜索結果聚類 ............168
6.5 利用Apache Mahout對文檔集聚類 ....171
6.5.1 對聚類的數據進行預處理 .....172
6.5.2 K-means聚類 ....175
6.6 利用Apache Mahout進行主題建模 ....180
6.7 考察聚類性能 ....183
6.7.1 特征選擇與特征約簡 .............183
6.7.2 Carrot2的性能和質量 .............186
6.7.3 Mahout基準聚類算法 ............187
6.8 致謝 .........192
6.9 小結 .........192
6.10 參考文獻 ..........193
第7章 分類及標注 .............195
7.1 分類及歸類概述 ...........197
7.2 分類過程 ............200
7.2.1 選擇分類機制 ...201
7.2.2 識別文本分類中的特征 .........202
7.2.3 訓練數據的重要性 ......203
7.2.4 評估分類器性能 ..........206
7.2.5 將分類器部署到生產環境 .....208
7.3 利用Apache Lucene構建文檔分類器 ...........209
7.3.1 利用Lucene對文本進行分類 ............210
7.3.2 為MoreLikeThis分類器準備訓練數據 ........212
7.3.3 訓練MoreLikeThis分類器 ......214
7.3.4 利用MoreLikeThis分類器對文檔進行分類 ...........217
7.3.5 測試MoreLikeThis分類器 ......220
7.3.6 將MoreLikeThis投入生產環境 .........223
7.4 利用Apache Mahout訓練樸素貝葉斯分類器 ..........223
7.4.1 利用樸素貝葉斯算法進行文本分類 ...........224
7.4.2 準備訓練數據 ...225
7.4.3 留存測試數據 ...229
7.4.4 訓練分類器 .......229
7.4.5 測試分類器 .......231
7.4.6 改進自舉過程 ...232
7.4.7 將Mahout貝葉斯分類器集成到Solr ............234
7.5 利用OpenNLP進行文檔分類 .............238
7.5.1 回歸模型及最大熵文檔分類 ............239
7.5.2 為最大熵文檔分類器準備訓練數據 ...........241
7.5.3 訓練最大熵文檔分類器 .........242
7.5.4 測試最大熵文檔分類器 .........248
7.5.5 生產環境下的最大熵文檔分類器 ....249
7.6 利用Apache Solr構建標簽推薦系統 ............250
7.6.1 為標簽推薦收集訓練數據 .....253
7.6.2 準備訓練數據 ...255
7.6.3 訓練Solr標簽推薦系統 ..........256
7.6.4 構建推薦標簽 ...258
7.6.5 對標簽推薦系統進行評估 .....261
7.7 小結 .........263
7.8 參考文獻 ............265
第8章 構建示例問答系統 .............266
8.1 問答系統基礎知識 .......268
8.2 安裝并運行QA代碼 .....270
8.3 一個示例問答系統的架構 ......271
8.4 理解問題并產生答案 ...274
8.4.1 訓練答案類型分類器 .............275
8.4.2 對查詢進行組塊分析 .............279
8.4.3 計算答案類型 ...280
8.4.4 生成查詢 ...........283
8.4.5 對候選段落排序 ..........285
8.5 改進系統的步驟 ...........287
8.6 本章小結 ............287
8.7 相關資源 ............288
第9章 未駕馭的文本:探索未來前沿 ......289
9.1 語義、篇章和語用:探索高級NLP .............290
9.1.1 語義 ........291
9.1.2 篇章 ........292
9.1.3 語用 ........294
9.2 文檔及文檔集自動摘要 ..........295
9.3 關系抽取 ............298
9.3.1 關系抽取方法綜述 ......299
9.3.2 評估 ........302
9.3.3 關系抽取工具 ...303
9.4 識別重要內容和人物 ...303
9.4.1 全局重要性及權威度 .............304
9.4.2 個人重要性 .......305
9.4.3 與重要性相關的資源及位置 ............306
9.5 通過情感分析來探測情感 ......306
9.5.1 歷史及綜述 .......307
9.5.2 工具及數據需求 ..........308
9.5.3 一個基本的極性算法 .............309
9.5.4 高級話題 ...........311
9.5.5 用于情感分析的開源庫 .........312
9.6 跨語言檢索 ........313
9.7 本章小結 ............315
9.8 相關資源 ............315
序: