NLTK基礎(chǔ)教程用NLTK和Python庫構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用.pdf
http://www.www.srpcoatings.com
2020年11月10日
![]() |
| 第1頁 |
![]() |
| 第10頁 |
![]() |
| 第20頁 |
![]() |
| 第25頁 |
![]() |
| 第31頁 |
![]() |
| 第160頁 |
參見附件(12837KB,172頁)。
NLTK基礎(chǔ)教程用NLTK和Python庫構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用主要介紹如何通過NLTK庫與一些Python庫的結(jié)合從而實(shí)現(xiàn)復(fù)雜的NLP任務(wù)和機(jī)器學(xué)習(xí)應(yīng)用。NLTK 庫是當(dāng)前自然語言處理(NLP)領(lǐng)域最為流行、使用最為廣泛的庫之一, 同時(shí)Python語言經(jīng)過一段時(shí)間的發(fā)展也已逐漸成為主流的編程語言之一

編輯推薦
自然語言處理(NLP)屬于人工智能與計(jì)算機(jī)語言學(xué)的交叉領(lǐng)域,處理的是計(jì)算機(jī)與人類語言之間的交互問題。隨著人機(jī)交互需求的日益增長,計(jì)算機(jī)具備處理當(dāng)前主要自然語言的能力已經(jīng)成為了一個(gè)必然趨勢(shì)。NLTK正是這一領(lǐng)域中一個(gè)強(qiáng)大而穩(wěn)健的工具包。
在這本書中,我們首先會(huì)介紹一些與NLP相關(guān)的知識(shí)。然后,我們會(huì)探討一些與數(shù)據(jù)科學(xué)相關(guān)的任務(wù),通過這些任務(wù)來學(xué)習(xí)如何從零開始構(gòu)建自定義的標(biāo)識(shí)器和解析器。在此過程中,我們將會(huì)深度探索NLP領(lǐng)域的基本概念,為這一領(lǐng)域各種開源的Python工具和庫提供具有實(shí)踐意義的見解。接下來,我們將會(huì)介紹如何分析社交媒體網(wǎng)站,發(fā)現(xiàn)熱門話題,進(jìn)行輿情分析。zui后,我們還會(huì)介紹一些用于處理大規(guī)模文本的工具。
在閱讀完本書之后,您將會(huì)對(duì)NLP與數(shù)據(jù)科學(xué)領(lǐng)域中的概念有一個(gè)充分的了解,并能將這些知識(shí)應(yīng)用到日常工作中。
如果您是NLP或機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域的愛好者,并有一些文本處理的經(jīng)驗(yàn),那么本書就是為你量身定做的。此外,這本書也是Python程序員快速學(xué)習(xí)NLTK庫的理想選擇。
通過本書,你將學(xué)會(huì)
了解自然語言的復(fù)雜性以及機(jī)器對(duì)它們的處理方式。
如何利用標(biāo)識(shí)化處理手段清理文本歧義,并利用分塊操作更好地處理數(shù)據(jù)。
探索不同標(biāo)簽類型的作用,并學(xué)習(xí)如何將句子標(biāo)簽化。
如何根據(jù)自己的需要來創(chuàng)建自定義的解析器和標(biāo)識(shí)器。
如何構(gòu)建出具有拼寫檢查、搜索、機(jī)器翻譯以及問答系統(tǒng)等功能的實(shí)用程序。
如何通過信息爬取與捕獲的手段對(duì)相關(guān)數(shù)據(jù)內(nèi)容進(jìn)行檢索。
如何通過特性的提取與選取,構(gòu)建出針對(duì)不同文本的分類系統(tǒng)。
如何使用各種第三方Python庫,如pandas、scikit-learn、matplotlib、gensim。
如何對(duì)社交媒體網(wǎng)站進(jìn)行分析,包括發(fā)掘熱門話題、輿情分析等。
內(nèi)容簡介
NLTK 庫是當(dāng)前自然語言處理(NLP)領(lǐng)域zui為流行、使用zui為廣泛的庫之一, 同時(shí)Python語言經(jīng)過一段時(shí)間的發(fā)展也已逐漸成為主流的編程語言之一。
本書主要介紹如何通過NLTK庫與一些Python庫的結(jié)合從而實(shí)現(xiàn)復(fù)雜的NLP任務(wù)和機(jī)器學(xué)習(xí)應(yīng)用。全書共分為10章。第1章對(duì)NLP進(jìn)行了簡單介紹。第2章、第3章和第4章主要介紹一些通用的預(yù)處理技術(shù)、專屬于NLP領(lǐng)域的預(yù)處理技術(shù)以及命名實(shí)體識(shí)別技術(shù)等。第5章之后的內(nèi)容側(cè)重于介紹如何構(gòu)建一些NLP應(yīng)用,涉及文本分類、數(shù)據(jù)科學(xué)和數(shù)據(jù)處理、社交媒體挖掘和大規(guī)模文本挖掘等方面。
本書適合 NLP 和機(jī)器學(xué)習(xí)領(lǐng)域的愛好者、對(duì)文本處理感興趣的讀者、想要快速學(xué)習(xí)NLTK的zishenPython程序員以及機(jī)器學(xué)習(xí)領(lǐng)域的研究人員閱讀。
作者簡介
Nitin Hardeniya 數(shù)據(jù)科學(xué)家,擁有4年以上從業(yè)經(jīng)驗(yàn),期間分別任職于Fidelity、Groupon和[24]7等公司,其業(yè)務(wù)橫跨各個(gè)不同的領(lǐng)域。此外,他還擁有IIIT-H的計(jì)算語言學(xué)碩士學(xué)位,并且是5項(xiàng)客戶體驗(yàn)專利的作者。
本書所涵蓋的內(nèi)容
第1章 自然語言處理簡介。這一章將會(huì)涉及一些NLP中的基本概念,并對(duì)NLTK和Python做一些介紹。這一章的重點(diǎn)是讓你快速了解NLTK,并介紹如何安裝所需要的庫,以便開始構(gòu)建一個(gè)非;镜膯卧~云實(shí)例。
第2章文本的岐義及其清理。這一章將會(huì)討論在任何文本挖掘和NIP任務(wù)中所需的所有預(yù)處理步驟,這一章將會(huì)具體討論斷詞處理、詞干處理、停用詞去除等技術(shù).并且,還會(huì)為你詳細(xì)介紹一些別的文本清理技術(shù),以及如何用NLTK來簡化它們的實(shí)現(xiàn).
第3章詞性標(biāo)注,這一章將重點(diǎn)對(duì)詞性標(biāo)注進(jìn)行概述.在這一章中,我們將會(huì)為你介紹如何將NLTK運(yùn)用到一些標(biāo)注器中,并討論NLTK中有哪些不同的NLP標(biāo)注器可用.
第4章文本結(jié)構(gòu)解析。這一章將會(huì)帶你繼續(xù)深入NLP,討論不同的語法解析方法,并介紹如何用NLTK來實(shí)現(xiàn)這些方法,在此過程中,我們會(huì)討論語法解析在NLP語境中的,以及一些常見的信息提取技術(shù)(如實(shí)體提取)中的重要性.
第5章NLP應(yīng)用。這一章將會(huì)談及各種不同的NLP應(yīng)用,我們將會(huì)帶領(lǐng)你利用一些當(dāng)前已掌握的知識(shí)來構(gòu)建出一個(gè)簡單的NLP應(yīng)用實(shí)例.
第6章文本分類。這一章將會(huì)介紹一些機(jī)器學(xué)習(xí)領(lǐng)域中常見的外類方法.討論重點(diǎn)將主要集中在文本語科庫,以及如何用NLTK和scikit來構(gòu)建管道,從而實(shí)現(xiàn)一個(gè)文本分類器.當(dāng)然,也會(huì)討論與文本聚類和主題模型相關(guān)的內(nèi)容.
第7章Web爬蟲。這一章將討論NL.P、數(shù)據(jù)科學(xué)和數(shù)據(jù)收集中其他方面的處理任務(wù),以及如何從最大的文本數(shù)據(jù)源之--Wb中獲取相關(guān)的數(shù)據(jù).在這里,我們將學(xué)習(xí)如何用Python庫、Scrapy來建立一只運(yùn)作良好的Web爬蟲(crawlar).
第8章NLTK與其他Python庫的搭配運(yùn)用,這一章將會(huì)談及一些骨干的Python庫,如NumPy和SciPy.另外,我們也會(huì)簡單地介紹一下用于數(shù)據(jù)處理的panda和用于可視化處理的matplotlib.
第9章 Python中的社交媒體挖掘.這一章將致力于數(shù)據(jù)采集相關(guān)的內(nèi)容.在這里,我們將會(huì)討論社交媒體,以及與社交媒體相關(guān)的其他問題。當(dāng)然,我們也會(huì)討論具體應(yīng)該如何收集、分析并可視化社交媒體中的數(shù)據(jù).
第10章大規(guī)模文本挖掘.這一章將討論如何擴(kuò)展NLTK,并配合一些別的Python庫,使其適應(yīng)大數(shù)據(jù)時(shí)代規(guī);瘓(zhí)行的需要。我們將會(huì)給出一個(gè)簡短的演示,以說明NLTK和scikit是如何與Hadoop搭配使用的.
NLTK基礎(chǔ)教程用NLTK和Python庫構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用截圖



您現(xiàn)在查看是摘要介紹頁, 詳見PDF附件(12837KB,172頁)。
教程用NLTK和Python庫構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用_1.jpg)
教程用NLTK和Python庫構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用_2.jpg)
教程用NLTK和Python庫構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用_3.jpg)
教程用NLTK和Python庫構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用_4.jpg)
教程用NLTK和Python庫構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用_5.jpg)
教程用NLTK和Python庫構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用_6.jpg)