機(jī)器學(xué)習(xí)與R語言原書第2版.pdf
http://www.www.srpcoatings.com
2020年11月18日
![]() |
| 第1頁(yè) |
![]() |
| 第7頁(yè) |
![]() |
| 第16頁(yè) |
![]() |
| 第27頁(yè) |
![]() |
| 第34頁(yè) |
參見附件(8749KB,43頁(yè))。
機(jī)器學(xué)習(xí)與R語言(原書第2版)介紹了多種重要的機(jī)器學(xué)習(xí)算法。在給出相應(yīng)的機(jī)器學(xué)習(xí)算法的核心理論之后,都給出了一個(gè)實(shí)際的案例,從對(duì)案例數(shù)據(jù)的探索、整理,到模型的建立和模型的評(píng)估,每一步都給出了詳盡的步驟和R代碼。

本書結(jié)構(gòu)
第1章介紹了用來定義和區(qū)分機(jī)器學(xué)習(xí)算法的術(shù)語和概念,并給出了將學(xué)習(xí)任務(wù)與適當(dāng)算法相匹配的方法。
第2章提供了一個(gè)在R中自己實(shí)際動(dòng)手操作數(shù)據(jù)的機(jī)會(huì),并討論了基本的數(shù)據(jù)結(jié)構(gòu)以及用于載入、探索和理解數(shù)據(jù)的程序。
第3章教你如何將一個(gè)簡(jiǎn)單且功能強(qiáng)大的學(xué)習(xí)算法應(yīng)用于你的第一個(gè)學(xué)習(xí)任務(wù):識(shí)別癌癥的惡性樣本。
第4章揭示了用于先進(jìn)的垃圾郵件過濾系統(tǒng)的概率的基本概念,并且在建立你自己的垃圾郵件過濾器的過程中,你將學(xué)習(xí)文本挖掘的基本知識(shí)。
第5章探索兩種學(xué)習(xí)算法,它們的預(yù)測(cè)不僅精確而且容易解釋。我們將把這兩種算法應(yīng)用于對(duì)透明度要求很高的任務(wù)中。
第6章介紹了用于數(shù)值預(yù)測(cè)的機(jī)器學(xué)習(xí)算法。由于這些技術(shù)在很大程度上來源于統(tǒng)計(jì)領(lǐng)域,所以你還將通過學(xué)習(xí)必要的基本指標(biāo)來理解數(shù)值之間的關(guān)系。
第7章包括兩個(gè)極其復(fù)雜但功能強(qiáng)大的機(jī)器學(xué)習(xí)算法。盡管數(shù)學(xué)可能會(huì)讓人望而生畏,但是我們將以簡(jiǎn)單的術(shù)語,結(jié)合實(shí)際例子來說明它們內(nèi)部的運(yùn)作原理。
第8章揭示了許多零售商使用的推薦系統(tǒng)的算法。如果你想知道零售商是如何比你自己更了解你的購(gòu)物習(xí)慣的,本章將揭示他們的秘密。
第9章介紹k均值聚類。該算法用來查找相關(guān)個(gè)體的聚類。我們將使用該算法來確定一個(gè)網(wǎng)絡(luò)社區(qū)內(nèi)的分布。
第10章提供了度量機(jī)器學(xué)習(xí)項(xiàng)目是否成功的信息,并提供了機(jī)器學(xué)習(xí)算法在未來數(shù)據(jù)上性能的可靠估計(jì)。
第11章揭示了在機(jī)器學(xué)習(xí)競(jìng)賽中排名最靠前的團(tuán)隊(duì)所采用的方法。如果你具有競(jìng)爭(zhēng)意識(shí),或者僅僅想獲取數(shù)據(jù)中盡可能多的信息,那么需要學(xué)習(xí)這些技術(shù)。
第12章探討了機(jī)器學(xué)習(xí)的前沿主題。從使用大數(shù)據(jù)到使R的運(yùn)行速度更快,涉及的這些主題將幫助你拓展使用R進(jìn)行數(shù)據(jù)挖掘的界限。
將機(jī)器學(xué)習(xí)應(yīng)用于數(shù)據(jù)中的步驟
任何機(jī)器學(xué)習(xí)任務(wù)都能分解成一系列更容易管理的步驟。本書組織的步驟如下:
1)收集數(shù)據(jù):無論數(shù)據(jù)是寫在紙上,記錄在文本文件、電子表格中或者存儲(chǔ)在SQL數(shù)據(jù)庫(kù)中,你都要把它轉(zhuǎn)為適合分析的電子格式。數(shù)據(jù)將作為機(jī)器學(xué)習(xí)算法的學(xué)習(xí)材料,從而產(chǎn)生可行動(dòng)的知識(shí)。
2)探索數(shù)據(jù)和準(zhǔn)備數(shù)據(jù):任何機(jī)器學(xué)習(xí)項(xiàng)目的質(zhì)量很大程度上取決于它使用的數(shù)據(jù)的質(zhì)量。機(jī)器學(xué)習(xí)過程的這個(gè)步驟一般需要大量的人工干預(yù)。一項(xiàng)常被引用的統(tǒng)計(jì)數(shù)據(jù)指出,機(jī)器學(xué)習(xí)中80%的努力花費(fèi)在數(shù)據(jù)上。這其中的大多數(shù)時(shí)間都花費(fèi)在一項(xiàng)稱為數(shù)據(jù)探索的實(shí)踐中,它要學(xué)習(xí)更多的數(shù)據(jù)信息和它們的細(xì)微差別。
3)基于數(shù)據(jù)訓(xùn)練模型:在已經(jīng)準(zhǔn)備好用于分析的數(shù)據(jù)時(shí),你很有可能已經(jīng)有了希望從數(shù)據(jù)中學(xué)習(xí)到什么的設(shè)想。具體的機(jī)器學(xué)習(xí)任務(wù)將會(huì)告知你選擇合適的算法,算法將會(huì)以模型的形式來表現(xiàn)數(shù)據(jù)。
4)評(píng)價(jià)模型的性能:由于每個(gè)機(jī)器模型將會(huì)產(chǎn)生一個(gè)學(xué)習(xí)問題的有偏差的解決方法所以評(píng)價(jià)算法從經(jīng)驗(yàn)中學(xué)習(xí)的優(yōu)劣是很重要的。根據(jù)使用模型的類型,你應(yīng)該能用一個(gè)測(cè)試數(shù)據(jù)集來評(píng)價(jià)模型的精確性,或者你可能需要針對(duì)目標(biāo)應(yīng)用設(shè)計(jì)模型性能的檢驗(yàn)標(biāo)準(zhǔn)。
5)改進(jìn)模型的性能:如果需要更好的性能,就需要利用更加高級(jí)的方法來提高模型的性能。有時(shí)候,需要完全更換為不同的模型。你可能需要補(bǔ)充另外的數(shù)據(jù),或者如這個(gè)過程的第二個(gè)步驟中所做的那樣,進(jìn)行一些額外的數(shù)據(jù)準(zhǔn)備工作。
在完成這些步驟以后,如果模型表現(xiàn)令人滿意,就能將它應(yīng)用到預(yù)期的任務(wù)中。根據(jù)具體的情況,為了預(yù)測(cè)(也可能是實(shí)時(shí)預(yù)測(cè))的目的,你可能需要模型給出預(yù)測(cè)分?jǐn)?shù)。例如預(yù)測(cè)財(cái)務(wù)數(shù)據(jù)、對(duì)市場(chǎng)或者研究給出有用的見解,或者使諸如郵件投遞或者飛機(jī)飛行之類的任務(wù)實(shí)現(xiàn)自動(dòng)化。部署的模型無論成功或者失敗,它們都可能為訓(xùn)練下一代的模型提供進(jìn)一步的數(shù)據(jù)。
R數(shù)據(jù)結(jié)構(gòu)
在程序語言中有很多種形式的數(shù)據(jù)結(jié)構(gòu),在應(yīng)用到特定的任務(wù)時(shí),它們各有優(yōu)勢(shì)和劣勢(shì)。因?yàn)镽是一個(gè)在統(tǒng)計(jì)數(shù)據(jù)分析中廣泛運(yùn)用的程序語言,所以R所用的數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)目的是使它易于處理這類任務(wù)的數(shù)據(jù)。在機(jī)器學(xué)習(xí)中經(jīng)常使用的R數(shù)據(jù)結(jié)構(gòu)是:向量、因子、列表、數(shù)組和數(shù)據(jù)框。每一種數(shù)據(jù)類型都針對(duì)一類具體的數(shù)據(jù)管理任務(wù),所以知道它們是如何與R項(xiàng)目相互交互是至關(guān)重要的。
機(jī)器學(xué)習(xí)與R語言原書第2版截圖



您現(xiàn)在查看是摘要介紹頁(yè), 詳見PDF附件(8749KB,43頁(yè))。
器學(xué)習(xí)與R語言原書第2版_1.jpg)
器學(xué)習(xí)與R語言原書第2版_2.jpg)
器學(xué)習(xí)與R語言原書第2版_3.jpg)
器學(xué)習(xí)與R語言原書第2版_4.jpg)
器學(xué)習(xí)與R語言原書第2版_5.jpg)