AI思維從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù).pdf
http://www.www.srpcoatings.com
2020年12月2日
![]() |
| 第1頁(yè) |
![]() |
| 第9頁(yè) |
![]() |
| 第13頁(yè) |
![]() |
| 第25頁(yè) |
![]() |
| 第50頁(yè) |
![]() |
| 第286頁(yè) |
參見附件(9088KB,295頁(yè))。
解析大數(shù)據(jù)與人工智能如何為商業(yè)賦能。
既是基礎(chǔ)書,又是思維神書,AI思維從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù)由丁磊著,邏輯清晰,文字輕松,沒有堆砌佶屈聱牙生僻專用名詞與概念,也沒有一大堆看不懂的公示和數(shù)據(jù)。梳理了一套自己的邏輯,從什么是AI,AI思維的核心,背后邏輯,具體落地,問題和不足,未來發(fā)展等等出發(fā),告訴讀者AI到底是個(gè)啥,能給我們?nèi)粘硎裁磶椭,已?jīng)融入到生活的哪些領(lǐng)域中去。

ai思維丁磊預(yù)覽






圖書亮點(diǎn)
智能時(shí)代,知道趨勢(shì),更要知道怎么做。
從理論到實(shí)踐,一本書講透人工智能如何落地,如何優(yōu)化和擴(kuò)大業(yè)務(wù),創(chuàng)造價(jià)值。
“數(shù)據(jù)科學(xué)50人”之一、PayPal全 球消費(fèi)者數(shù)據(jù)科學(xué)部創(chuàng)辦人,深度分析機(jī)器學(xué)習(xí)的內(nèi)在邏輯,洞見大數(shù)據(jù)與人工智能如何賦能商業(yè)。
人工智能優(yōu)化業(yè)務(wù)、落地實(shí)踐、創(chuàng)造價(jià)值全鏈條解析,幫助讀者掌握運(yùn)用AI思維在業(yè)務(wù)端落地的思維方式和方法,把握時(shí)代的機(jī)遇和發(fā)展方向。
中國(guó)平安首 席科學(xué)家肖京作序,國(guó)際人工智能協(xié)會(huì)(AAAI)主席楊強(qiáng),費(fèi)埃哲(FICO)全球副總裁兼中國(guó)區(qū)總裁王世今等聯(lián)袂推薦。
內(nèi)容簡(jiǎn)介
人工智能如何為商業(yè)賦能?
隨著大數(shù)據(jù)、物聯(lián)網(wǎng)和5G等技術(shù)的發(fā)展,人工智能早已進(jìn)入我們的生活,并作為核心驅(qū)動(dòng)力,對(duì)各行各業(yè)進(jìn)行了深刻的塑造和改變,推動(dòng)著商業(yè)模式、經(jīng)濟(jì)結(jié)構(gòu)甚至國(guó)家戰(zhàn)略的升級(jí)革新。
人工智能是未來的發(fā)展趨勢(shì),這已是共識(shí)。但是,我們對(duì)人工智能的了解,很多還囿于智能機(jī)器人和無人駕駛汽車等吸引眼球的領(lǐng)域,對(duì)它之于其他商業(yè)領(lǐng)域的價(jià)值,缺乏必要的系統(tǒng)化行業(yè)落地框架和實(shí)踐。
浸淫人工智能領(lǐng)域近20年,指導(dǎo)過多家知名企業(yè)AI業(yè)務(wù)的丁磊指出,人工智能不僅僅是一種先進(jìn)技術(shù),其核心意義是一種分析數(shù)據(jù)的思維模式。他據(jù)此提出AI思維這一模式。這是一種通過數(shù)據(jù)驅(qū)動(dòng)決策的思維模式,包括數(shù)據(jù)、模型、算力和業(yè)務(wù)模式四要素。從數(shù)據(jù)出發(fā),通過模型和算力形成決策,最終在業(yè)務(wù)中產(chǎn)生價(jià)值。
數(shù)據(jù)+人工智能+場(chǎng)景=價(jià)值。
這本書總結(jié)了人工智能優(yōu)化各類業(yè)務(wù)、落地實(shí)踐、創(chuàng)造價(jià)值的全過程。作者從人工智能的原理到邏輯,從人工智能在商業(yè)領(lǐng)域的業(yè)務(wù)模式到案例分析、在行業(yè)中的應(yīng)用和發(fā)展,一一進(jìn)行解讀,為讀者從宏觀到微觀、從理論到實(shí)踐,逐步揭開人工智能的神秘面紗,幫助讀者了解系統(tǒng)框架,掌握運(yùn)用AI思維賦能商業(yè)的思維方式和方法,把握時(shí)代的機(jī)遇和發(fā)展方向。
作者介紹
丁磊
美國(guó)俄亥俄州立大學(xué)人工智能專業(yè)博士,美國(guó)哥倫比亞大學(xué)博士后,持有斯坦福大學(xué)高級(jí)項(xiàng)目管理證書。
人工智能商業(yè)化落地先行者 ......
書名:AI思維:從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù)
作者:丁磊
出版時(shí)間:2020-05-01
ISBN:9787521716375
中信出版集團(tuán)制作發(fā)行
版權(quán)所有·侵權(quán)必究推薦序
“AI思維”——人工智能的落地指南
肖京
近年來,AI越來越成為萬眾矚目的焦點(diǎn)。隨著大數(shù)據(jù)、物聯(lián)網(wǎng)和5G(第5
代移動(dòng)通信技術(shù))等技術(shù)的發(fā)展,“萬物皆可AI”不再僅僅是一個(gè)美好的愿
景,人工智能早已進(jìn)入我們的生活,并作為核心驅(qū)動(dòng)力,對(duì)各行各業(yè)進(jìn)行了
深刻的塑造和改變,推動(dòng)著國(guó)家戰(zhàn)略、經(jīng)濟(jì)結(jié)構(gòu)和商業(yè)模式的升級(jí)革新?v
觀生活的方方面面,人工智能已經(jīng)和我們的日常生活連接在了一起,并且與
每個(gè)人都息息相關(guān)。智能革命是大勢(shì)所趨。
人工智能可以分為弱人工智能、強(qiáng)人工智能和超人工智能。目前人工智
能處在弱人工智能階段,這意味著人工智能的能力是針對(duì)特定領(lǐng)域的,它只
在某些方面比人強(qiáng)。因此,人工智能作為一個(gè)賦能的體系幫助行業(yè)升級(jí)換
代,一定要跟具體的應(yīng)用領(lǐng)域深度融合在一起。人工智能的應(yīng)用領(lǐng)域非常廣
泛,在零售、工業(yè)、金融、教育和醫(yī)療等行業(yè)中起著越來越重要的作用。人
工智能的落地也迫使人類社會(huì)重新分工,促使這些傳統(tǒng)行業(yè)迅速轉(zhuǎn)型與升
級(jí)。
我們?nèi)粘I畹姆椒矫婷娑夹枰獩Q策,不論是應(yīng)用于哪種業(yè)務(wù)場(chǎng)景下的
人工智能系統(tǒng),想要發(fā)揮作用,都需要通過模型來解讀數(shù)據(jù)并作用于業(yè)務(wù),達(dá)到優(yōu)化決策的效果。思維的高度決定了決策的質(zhì)量,因此,如果說人工智
能是未來社會(huì)發(fā)展趨勢(shì)的話,那么我們有必要做一些相關(guān)知識(shí)的普及和思維
的傳播。人工智能技術(shù)不僅可以改變我們的生活方式,當(dāng)它轉(zhuǎn)化為一種思維
時(shí),更能真正地為我們的人生帶來裨益。
我與丁磊博士在人工智能領(lǐng)域有頗多的交流,我們都認(rèn)為人工智能不應(yīng)
該是浮于表面的概念。人工智能具有深刻的內(nèi)涵,值得我們靜下心來研究,也值得生活中的每個(gè)人去理解。人人都能學(xué)AI,人人都能懂AI,AI也能為人
人所用。丁磊博士在人工智能領(lǐng)域工作近20年,總結(jié)出了一套頗具特色的人
工智能知識(shí)體系和思維方式——“AI思維”。AI思維是一種通過數(shù)據(jù)驅(qū)動(dòng)決策的思維模式,包括數(shù)據(jù)、模型、算力和業(yè)務(wù)模式四要素。從數(shù)據(jù)出發(fā),通
過模型和算力形成決策,最終在業(yè)務(wù)中產(chǎn)生價(jià)值。因此,AI思維的基礎(chǔ)在于
數(shù)據(jù),核心在于模型,實(shí)現(xiàn)在于算力,應(yīng)用在于業(yè)務(wù)模式。從這種意義上
說,本書深入淺出,從“道”“法”“術(shù)”“器”“用”“勢(shì)”幾個(gè)方面循
序漸進(jìn)地向讀者介紹了從數(shù)據(jù)中創(chuàng)造價(jià)值的“煉金術(shù)”。
毋庸置疑,人腦和人工智能在處理信息上存在相似之處,我們對(duì)事物的
認(rèn)識(shí)可以分為四個(gè)階段:信息、經(jīng)驗(yàn)、規(guī)律和思維。這是一個(gè)動(dòng)態(tài)的過程,從單個(gè)信息的聯(lián)系中形成經(jīng)驗(yàn),在經(jīng)驗(yàn)中發(fā)現(xiàn)規(guī)律,再提煉升華出思維。思
維階段,也是方法論層次的總結(jié),進(jìn)一步指導(dǎo)實(shí)踐,不斷找出更多的規(guī)律和
結(jié)論。人工智能的底層邏輯就是數(shù)學(xué)規(guī)律,萬丈高樓平地起,從底層邏輯中
衍生出人工智能的知識(shí)體系。人工智能落地意味著從數(shù)據(jù)中產(chǎn)生價(jià)值,在這
個(gè)過程中人工智能既是方法和工具,也是思維邏輯,可以指導(dǎo)行業(yè)的應(yīng)用和
發(fā)展。
未來的時(shí)代一定是智能化的時(shí)代,人工智能作為各個(gè)行業(yè)的風(fēng)口,也必
然會(huì)成為未來社會(huì)的發(fā)展趨勢(shì)!禔I思維》總結(jié)了人工智能落地實(shí)踐的全過
程,并且具有優(yōu)化各種業(yè)務(wù)的突出價(jià)值。而對(duì)于個(gè)人來說,AI思維可以幫助
我們更深入地理解我們所處的時(shí)代,把握時(shí)代的機(jī)遇和發(fā)展方向,最終幫助
我們更好地生活和工作。這是人工智能的使命,也是我們理解人工智能的意
義。
1. 此推薦序作者肖京博士,現(xiàn)任中國(guó)平安集團(tuán)首席科學(xué)家、集團(tuán)執(zhí)委,曾獲第九屆吳文俊人工
智能杰出貢獻(xiàn)獎(jiǎng)。前言
數(shù)字時(shí)代,既是機(jī)遇,也是挑戰(zhàn);ヂ(lián)網(wǎng)、大數(shù)據(jù)、人工智能的發(fā)展使
得生產(chǎn)、商業(yè)和生活的各個(gè)領(lǐng)域都發(fā)生了改變,新生信息層出不窮,知識(shí)總
量爆炸式增長(zhǎng)。面對(duì)這個(gè)日新月異的時(shí)代,我們——渺小的個(gè)體,有限的精
力,受限的知識(shí)面——唯有不斷更新自我,提升認(rèn)知,才不至于被激烈而殘
酷的競(jìng)爭(zhēng)所淘汰。
我們要改變?cè)械恼J(rèn)知方式,如果單靠知識(shí)填充,難以達(dá)到質(zhì)的改變,需要轉(zhuǎn)換思維模式。我一直相信,萬事萬物皆有規(guī)律,只有快速把握規(guī)律,才能理性認(rèn)識(shí)存在,提升思維能力,抓住時(shí)代脈搏。當(dāng)然,數(shù)字世界也不例
外,數(shù)據(jù)之中也有規(guī)律性。在利用人工智能(AI)發(fā)現(xiàn)和挖掘數(shù)據(jù)規(guī)律與價(jià)
值的實(shí)踐中,我認(rèn)識(shí)到人工智能不僅是一種技術(shù)方法,其中蘊(yùn)含了一種思維
邏輯,也就是AI思維,這才是人工智能的真正精髓,它集中體現(xiàn)在對(duì)數(shù)據(jù)理
解方面的優(yōu)勢(shì),能夠幫助我們突破認(rèn)知局限,從而找到自身的真正優(yōu)勢(shì),獲
得展現(xiàn)個(gè)體主動(dòng)策略優(yōu)勢(shì)的收益。
我與人工智能的故事早在20年前就開始了。世紀(jì)之交入學(xué)浙江大
學(xué),“形上謂道兮,形下謂器”的校歌時(shí)至今日仍不時(shí)回蕩在我的耳邊。我
對(duì)人工智能的探索便開始于在浙江大學(xué)讀書的階段。大學(xué)四年,我
從“器”的層面了解人工智能、機(jī)器學(xué)習(xí)、模糊數(shù)學(xué)以及神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
當(dāng)時(shí),越來越多的富媒體數(shù)據(jù)出現(xiàn)在互聯(lián)網(wǎng)上,我便猜測(cè)人工智能接下來的
使命是讓計(jì)算機(jī)自動(dòng)理解這些數(shù)據(jù),從而增進(jìn)用戶的效率和體驗(yàn)。讀博士
時(shí),我毫不猶豫地將當(dāng)時(shí)相對(duì)冷門的人工智能作為專業(yè)方向,因?yàn)槲疑钚湃?br/>
工智能將成為信息技術(shù)的下一范式。
我對(duì)AI思維的認(rèn)識(shí)和總結(jié),是從實(shí)踐中不斷豐富而來的。在美國(guó)博士畢
業(yè)后,我先后經(jīng)歷過高等研究院所、國(guó)際大型企業(yè)以及各個(gè)階段的創(chuàng)業(yè)公
司,服務(wù)過IBM(國(guó)際商業(yè)機(jī)器公司)、億客行(Expedia)、Orbitz(旅程
網(wǎng))和PayPal(貝寶)等公司。在硅谷,我也成為將人工智能運(yùn)用于深度商
業(yè)運(yùn)營(yíng)的早期實(shí)踐者和探路人之一。早在2011年,我領(lǐng)導(dǎo)建立的人工智能系
統(tǒng)在全球最大的在線旅游平臺(tái)億客行上線,通過電商網(wǎng)站訪客的行為信號(hào),精準(zhǔn)預(yù)測(cè)訪客線上消費(fèi)行為,并以此為基礎(chǔ)投放恰當(dāng)?shù)膹V告。這是業(yè)內(nèi)較
早、規(guī)模較大的電商行為預(yù)測(cè)和智能營(yíng)銷平臺(tái),至今仍優(yōu)化著全球數(shù)以億計(jì)
的用戶體驗(yàn)。后來,作為PayPal全球消費(fèi)者數(shù)據(jù)科學(xué)部的創(chuàng)立者和負(fù)責(zé)人,我在電商、支付和廣告領(lǐng)域通過人工智能和深度學(xué)習(xí)技術(shù),領(lǐng)導(dǎo)團(tuán)隊(duì)開發(fā)了
基于大數(shù)據(jù)的消費(fèi)者動(dòng)機(jī)預(yù)測(cè)引擎、精準(zhǔn)推薦引擎以及最佳行動(dòng)引擎,大幅
度提升了全球數(shù)百萬商家的贏利性和數(shù)億用戶的購(gòu)物體驗(yàn),并因此受邀在哈
佛大學(xué)、麻省理工學(xué)院等學(xué)校做專題演講。
在美國(guó)工作期間,我同樣關(guān)注國(guó)內(nèi)人工智能的應(yīng)用和發(fā)展,發(fā)現(xiàn)國(guó)內(nèi)人
工智能的研發(fā)與商業(yè)運(yùn)用之間存在脫節(jié)的問題。而后我應(yīng)邀回國(guó)工作,致力
于發(fā)掘人工智能在行業(yè)中新的增長(zhǎng)點(diǎn)。在百度金融任職首席數(shù)據(jù)科學(xué)家期
間,我負(fù)責(zé)金融領(lǐng)域的數(shù)據(jù)挖掘和變現(xiàn),通過大規(guī)模特征挖掘和深度學(xué)習(xí)技
術(shù),從海量的互聯(lián)網(wǎng)數(shù)據(jù)中提取金融相關(guān)變量,提升金融產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)
力,運(yùn)用人工智能幫助金融機(jī)構(gòu)升級(jí)換代,促進(jìn)普惠金融的健康發(fā)展。
從對(duì)人工智能模型的攻堅(jiān)克難到運(yùn)用人工智能幫助企業(yè)解決業(yè)務(wù)問題,在長(zhǎng)期實(shí)踐中,我逐漸體會(huì)到,人工智能作為一種技術(shù),可以用于商業(yè)活動(dòng)
中,處理數(shù)據(jù),提高效率,提升體驗(yàn)。但是,人工智能遠(yuǎn)不僅是一種技術(shù)。
當(dāng)下人人都在說人工智能,但往往都說不清。自從1956年達(dá)特茅斯會(huì)議“人
工智能”的概念正式提出,人工智能既經(jīng)歷過至暗時(shí)刻,也經(jīng)歷過輝煌歲
月。什么是人工智能?這是一個(gè)很多人在嘗試回答,但是又感覺力不從心的
問題。
提到人工智能,大眾的認(rèn)知普遍是無人駕駛、視覺識(shí)別、語(yǔ)音識(shí)別或者
是像AlphaGo(阿爾法圍棋)那樣的機(jī)器人等,但其實(shí)這些只是人工智能的具
體應(yīng)用,只是人工智能的冰山一角,卻在很多人心中成了人工智能的代名
詞,這說明目前對(duì)人工智能的認(rèn)識(shí)還有局限性。運(yùn)用于商業(yè)各個(gè)領(lǐng)域以及工
業(yè)生產(chǎn)、日常生活中的人工智能是有共通之處的,可以從“器”的層面總結(jié)
升華出“道”,即一套特有的思維模式——AI思維。人工智能不僅僅是一種
先進(jìn)技術(shù),其核心意義是一種分析數(shù)據(jù)的思維模式。深受我的合作導(dǎo)師、計(jì)
算機(jī)視覺之父黃煦濤等幾位學(xué)術(shù)大師的影響,我深信一切現(xiàn)象和對(duì)應(yīng)的數(shù)據(jù)
必有規(guī)律性,而AI思維就是發(fā)現(xiàn)和發(fā)掘這種規(guī)律性的強(qiáng)大工具。
AI思維,簡(jiǎn)單來說就是從大量數(shù)據(jù)中形成模型,進(jìn)而對(duì)未知情況做出最
佳預(yù)測(cè)的思維模式。這樣的預(yù)測(cè)無論對(duì)個(gè)人、組織還是社會(huì)整體,都有積極的意義,能夠避免經(jīng)驗(yàn)主義帶來的主觀、片面的判斷。AI思維的基礎(chǔ)在于數(shù)
據(jù),核心在于模型,實(shí)現(xiàn)在于算力,應(yīng)用在于業(yè)務(wù)模式。AI思維與大數(shù)據(jù)相
伴相生,恰如煉油的過程,大數(shù)據(jù)是原油,AI思維則是從原油中提煉產(chǎn)品產(chǎn)
生價(jià)值的“煉金術(shù)”。
AI思維也是對(duì)現(xiàn)有科學(xué)體系進(jìn)行“數(shù)據(jù)驅(qū)動(dòng)”升級(jí)的方法論。人工智能
給社會(huì)帶來的價(jià)值遠(yuǎn)不只嘩眾取寵的“黑科技”,也不只是給人們帶來便捷
或者幫助企業(yè)重塑商業(yè)模式,它最終能夠關(guān)乎民生的方方面面。無論是在零
售還是金融行業(yè),抑或是在醫(yī)療和教育領(lǐng)域,通過AI思維你都能更快速、更
直接、更準(zhǔn)確地預(yù)測(cè)個(gè)體的行為或表現(xiàn)結(jié)果,從而既能滿足行業(yè)發(fā)展本身的
需求,又能在實(shí)踐中創(chuàng)造出前所未有的價(jià)值,將先進(jìn)的經(jīng)驗(yàn)和知識(shí)惠及所有
人。想象一下,通過人工智能,所有的病人可以獲得全球最優(yōu)秀醫(yī)生的診斷
和治療,所有的孩子可以獲得全球最先進(jìn)的教育方法的培養(yǎng),我們生活的世
界將會(huì)變得怎么樣?“千百支蠟燭可以被一支蠟燭點(diǎn)燃,而那支蠟燭的生命
不會(huì)因此縮短!痹谌斯ぶ悄軙r(shí)代,每個(gè)人的數(shù)據(jù)都可以轉(zhuǎn)化為知識(shí),幫助
別人并由此受益。
我 閱 讀 過 很 多 面 向 大 眾 的 人 工 智 能 方 面 的 書 籍 , 其 中 講
述“器”和“用”的居多,很少涉及“道、法、術(shù)”層面。而且,“器”的
介紹較容易變成“動(dòng)物園”模式,僅僅介紹了人工智能算法,沒有總結(jié)上升
到理論和法則的高度,而“用”層面的案例也主要集中在智能機(jī)器人和無人
駕駛汽車等吸引眼球的領(lǐng)域,缺乏必要的系統(tǒng)化行業(yè)落地框架和實(shí)踐。這也
難怪讀者很容易將人工智能誤認(rèn)為是明天的科技,或?qū)⑷斯ぶ悄芫窒薜卣J(rèn)定
在幾個(gè)特定的領(lǐng)域。在這樣的理解下,很難把握人工智能的思想精髓,人工
智能對(duì)個(gè)人和社會(huì)的潛在影響也大打折扣。所以,本書試圖打破這種局限,分為八章,精心設(shè)計(jì)“道、法、術(shù)、器、用、勢(shì)”體系,旨在避免上述的問
題,既包括AI思維的方法論,也包括AI思維在行業(yè)中的應(yīng)用和發(fā)展,幫助讀
者從宏觀到微觀、從理論到實(shí)踐,一步步、一層層地通過系統(tǒng)性框架,逐漸
脫下人工智能神秘的外衣,幫助讀者理解AI思維的實(shí)質(zhì)以及對(duì)每個(gè)人的價(jià)值
和意義。這是我創(chuàng)作本書的初心,但也深知長(zhǎng)路漫漫,任重道遠(yuǎn)。
具體來說,本書第一章從“道”的層面闡述AI思維內(nèi)在邏輯和價(jià)值,用
AI思維來思考問題;第二章從“法”的層面介紹AI思維的底層邏輯,從規(guī)律
的角度了解AI思維;第三章從“術(shù)”的層面講解AI煉金術(shù)如何通過數(shù)據(jù)驅(qū)動(dòng)
決策,形成一套從數(shù)據(jù)到價(jià)值的完整方法論;第四章從“器”的層面引入人工智能落地所涉及的方法和模型,模型在AI思維中具有核心位置;第五、六、七章從“用”的層面分別介紹數(shù)字化賦能、人工智能平臺(tái)化思維和人工
智能實(shí)戰(zhàn)案例;第八章從“勢(shì)”的層面介紹人工智能落地過程中存在的挑戰(zhàn)
和相應(yīng)的對(duì)策,期待人工智能未來的發(fā)展。
本書的章節(jié)分別從不同角度逐一闡述AI思維的價(jià)值和意義,大部分內(nèi)容
都以“數(shù)據(jù)+人工智能+場(chǎng)景=價(jià)值”作為核心邏輯,希望任何一個(gè)不想在新經(jīng)
濟(jì)中落伍的人,在閱讀本書之后,都能理解AI思維,并對(duì)工作和生活有所助
益。第一章
AI思維是時(shí)代機(jī)遇
理論上……假如有這么一臺(tái)計(jì)算機(jī),能存儲(chǔ)世界上所有的事實(shí),同時(shí)擁
有完美的程序,能以數(shù)學(xué)方式表達(dá)世界所有不同部分之間的所有關(guān)系,我們
就能完美地預(yù)見未來。
—《原則》—
人工智能的概念自1956年的達(dá)特茅斯會(huì)議誕生至今,曾經(jīng)受到萬眾矚
目,也曾陷入低谷,黯淡無光;ヂ(lián)網(wǎng)、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、區(qū)塊鏈等新
技術(shù)如雨后春筍般不斷涌現(xiàn),但千帆過盡,人工智能仍然安如磐石,屹立不
倒。2016年人工智能機(jī)器人AlphaGo戰(zhàn)勝韓國(guó)九段圍棋國(guó)手李世石之后,人工
智能強(qiáng)勢(shì)進(jìn)入大眾視野。近年來,中、美、英、俄等越來越多的國(guó)家將人工
智能的發(fā)展上升到國(guó)家發(fā)展戰(zhàn)略和規(guī)劃,各行各業(yè)也都想利用人工智能搶占
先機(jī)、推陳出新,而普通人的生活也因?yàn)槿斯ぶ悄艿狞c(diǎn)綴而愈加便捷和豐
富,把不可能變成可能。
萬物皆可人工智能的時(shí)代已經(jīng)到來,如果不想淹沒在來勢(shì)洶涌的人工智
能浪潮里,墨守成規(guī)、故步自封顯然是行不通的,只能擁抱未來,提升認(rèn)
知,獲得助力。但是,你真的了解人工智能嗎?你知道人工智能是如何與商業(yè)碰撞迸發(fā)出火花的嗎?你知道人工智能如何從數(shù)據(jù)中產(chǎn)生價(jià)值的嗎?理解
事物,就要抓住其核心理念。AI思維就是人工智能的核心理念。那么首先,我們要從“道”的層面理解AI思維內(nèi)在邏輯和價(jià)值,從AI思維的角度,理解
人工智能。大賺1 000億美元的秘密
如果你讀過《從0到1》這本書,應(yīng)該對(duì)PayPal這個(gè)公司有所了解——硅
谷創(chuàng)投教父、PayPal創(chuàng)始人彼得·蒂爾便是這本書的作者。另外,PayPal黑
幫(PayPal Mafi a)的說法也由來已久。2002年的時(shí)候,eBay(億貝)以15
億美元的價(jià)格收購(gòu)了PayPal,當(dāng)時(shí)PayPal公司的許多重要員工紛紛選擇創(chuàng)
業(yè),自立門戶。PayPal也因此成為硅谷史上創(chuàng)業(yè)者群體最多的一家公司,這
些人被稱為PayPal黑幫。黑幫成員們創(chuàng)建了領(lǐng)英(LinkedIn)、YouTube(優(yōu)
兔)、Yelp(美國(guó)最大點(diǎn)評(píng)網(wǎng)站)、Space X(太空探索技術(shù)公司)和特斯拉
(Tesla)等多家大名鼎鼎的公司,有著十分強(qiáng)大的社會(huì)影響力。
PayPal是美國(guó)一家提供在線支付服務(wù)的公司。馬云當(dāng)年受PayPal的啟
發(fā),創(chuàng)立了支付寶。PayPal近幾年市值的增幅非常顯著,遠(yuǎn)高于同期紐交所
和納斯達(dá)克的增幅。PayPal公司2015年的市值接近400億美元,到2019年上半
年市值增加至3倍多,已經(jīng)快1 300億美元了——這個(gè)體量的市值,在美股互
聯(lián)網(wǎng)公司里位居前十。
PayPal能如此快速發(fā)展起來,很大程度上是得益于人工智能系統(tǒng)提供的
強(qiáng)大動(dòng)力。我在2012年初加入PayPal公司,負(fù)責(zé)建立了PayPal全球數(shù)據(jù)科學(xué)
平臺(tái)。當(dāng)時(shí)PayPal對(duì)數(shù)據(jù)的加工和利用還相對(duì)比較滯后,不能跟谷歌這樣的
搜索引擎公司相提并論。值得慶幸的是,在2012年,PayPal公司把營(yíng)銷、廣
告、數(shù)字化方向的人工智能團(tuán)隊(duì)收攏在一起,整合構(gòu)建了在硅谷都頗有影響
力的PayPal數(shù)據(jù)科學(xué)部。而后,數(shù)據(jù)科學(xué)部經(jīng)過數(shù)年的努力,在PayPal用戶
端內(nèi)容的個(gè)性化呈現(xiàn)、為商家定制的“千人千面”廣告推薦,以及在核心產(chǎn)
品體驗(yàn)的提升上,全都通過人工智能進(jìn)行了系統(tǒng)性的升級(jí)改造。
當(dāng)時(shí),雖然PayPal在全世界大多數(shù)國(guó)家和地區(qū)都有用戶,可最大的市場(chǎng)
還是在美國(guó),但是美國(guó)國(guó)內(nèi)的用戶數(shù)已經(jīng)非常飽和,短時(shí)間內(nèi)無法再有太大
的增量。既然開發(fā)新用戶的難度很大,PayPal決定另辟蹊徑,那就是增加每
位用戶的交易額。為了增加用戶的交易額,PayPal數(shù)據(jù)科學(xué)部的任務(wù)就是為
PayPal所有的用戶精準(zhǔn)推薦商家和商品。理想情況下,PayPal想知道用戶在每一個(gè)時(shí)間點(diǎn)可能會(huì)有哪些需求:比
如為了周五晚上聚會(huì),你打算到日用品網(wǎng)站購(gòu)買些派對(duì)用品;或者周日中
午,你會(huì)想去餐廳吃一頓大餐。有了關(guān)于這些需求的預(yù)測(cè)后,通過定向推薦
全渠道精準(zhǔn)的廣告,PayPal可以把消費(fèi)者和最能打動(dòng)他們的產(chǎn)品或服務(wù)連接
在一起,從而提高每位用戶的消費(fèi)金額,實(shí)現(xiàn)巨大的增量商業(yè)價(jià)值。
知易行難,PayPal用了兩年多的時(shí)間,才成功地建立了自己的人工智能
平臺(tái)。這個(gè)平臺(tái)主要由消費(fèi)者動(dòng)機(jī)預(yù)測(cè)引擎、精準(zhǔn)推薦引擎以及優(yōu)化客戶生
命周期的最佳行動(dòng)引擎構(gòu)成,而這幾個(gè)引擎均部署在大數(shù)據(jù)平臺(tái)之上,跟海
量的底層數(shù)據(jù)銜接,面對(duì)動(dòng)態(tài)的業(yè)務(wù)需求能夠自動(dòng)地構(gòu)建解決方案。
其中,動(dòng)機(jī)預(yù)測(cè)引擎通過人工智能,預(yù)測(cè)用戶在某一個(gè)時(shí)間點(diǎn)的行為,包括點(diǎn)擊廣告、兌現(xiàn)優(yōu)惠券、購(gòu)買商品等;精準(zhǔn)推薦引擎連接用戶和他可能
感興趣的商家或商品,做出恰當(dāng)?shù)耐扑];最佳行動(dòng)引擎則通過人工智能優(yōu)化
在每一個(gè)時(shí)間點(diǎn),商家采用什么樣的策略,能夠最有效地提升用戶的價(jià)值。
三個(gè)引擎相互結(jié)合,就有了精準(zhǔn)理解消費(fèi)者行為的能力,就像找到打開寶庫(kù)
的“芝麻開門”,把最恰當(dāng)?shù)纳唐泛蜕碳曳⻊?wù)送到消費(fèi)者面前。
人工智能平臺(tái)為PayPal帶來了成倍的交易增長(zhǎng)速度。通過人工智能的精
準(zhǔn)預(yù)測(cè)、推薦和優(yōu)化,PayPal的營(yíng)銷活動(dòng)平均響應(yīng)率提升了2~3倍,部分營(yíng)銷
活動(dòng)的點(diǎn)擊率和兌現(xiàn)率超過5倍,總體投資回報(bào)率(ROI)也得到大幅提升,對(duì)公司基本面產(chǎn)生很大的影響。但是,通常來說,人工智能對(duì)公司的影響并
不一定立刻體現(xiàn),而是隨著時(shí)間的推移,逐步釋放出來。當(dāng)人工智能平臺(tái)已
經(jīng)有一定的規(guī)模以后,所帶來的業(yè)務(wù)加速的增量會(huì)變得更大。2014年底,PayPal實(shí)現(xiàn)了19.4億美元的利潤(rùn),比2012年底提升了近30%;2015年的利潤(rùn)甚
至超過了母公司eBay。隨后PayPal從eBay剝離,單獨(dú)上市,至今市值已經(jīng)增
長(zhǎng)了數(shù)倍。
2018年我接受第一財(cái)經(jīng)的采訪,發(fā)表過一篇訪談文章《最好的數(shù)據(jù)科學(xué)
家,就是把自己給“干掉”》。為什么數(shù)據(jù)科學(xué)家要把自己“干掉”呢?人
工智能提升業(yè)績(jī)依賴的主要是平臺(tái),而不是僅僅靠幾位優(yōu)秀的數(shù)據(jù)科學(xué)家。
當(dāng)然,搭建一個(gè)平臺(tái)需要專業(yè)而盡職的團(tuán)隊(duì),但是落地投產(chǎn)以后,優(yōu)秀的人
工智能平臺(tái)可以獨(dú)立運(yùn)行,而不再依賴于某位數(shù)據(jù)科學(xué)家本身。換句話說,人工智能平臺(tái)就像給機(jī)械化的工廠裝上了一個(gè)“大腦”,在保持高生產(chǎn)效率
的情況下,還能千人千面地提供個(gè)性化的產(chǎn)品服務(wù),這就是人工智能平臺(tái)化的魅力所在,也是數(shù)據(jù)科學(xué)家被“干掉”的原因所在。如果一個(gè)企業(yè)已經(jīng)形
成了人工智能平臺(tái)化的運(yùn)營(yíng)方式——正如PayPal對(duì)用戶的人工智能精準(zhǔn)推薦
體系,可以實(shí)時(shí)對(duì)全球的三億用戶進(jìn)行智能推薦,這套體系是可以持續(xù)發(fā)揮
價(jià)值的,并且隨著時(shí)間的推移,用戶的黏性越來越強(qiáng),數(shù)據(jù)的積累越來越
多,這個(gè)價(jià)值會(huì)釋放得更加厲害。
現(xiàn)今很多人使用的今日頭條、抖音也有內(nèi)容推薦系統(tǒng),它們推薦的內(nèi)容
確實(shí)是有黏性的。隨著用戶的使用,積累和沉淀的數(shù)據(jù)越來越多,平臺(tái)內(nèi)容
的推薦也就越來越精準(zhǔn),這樣就會(huì)贏得更多用戶的青睞。所以,在以人工智
能為核心的智能經(jīng)濟(jì)里,只要在恰當(dāng)?shù)姆较蛏辖⒘讼鄳?yīng)的人工智能平臺(tái)和
體系,人工智能就會(huì)通過不斷的學(xué)習(xí)形成正向的反饋。正向反饋對(duì)應(yīng)的是業(yè)
績(jī)更加快速的增長(zhǎng),最終形成一個(gè)極具規(guī)模的疊加效應(yīng),而不是簡(jiǎn)單的線性
增長(zhǎng)。這樣的疊加效應(yīng),依賴于人工智能平臺(tái)本身的演化,并隨著時(shí)間的推
移產(chǎn)出更多的增量?jī)r(jià)值。
利己也利競(jìng)爭(zhēng)對(duì)手
億客行是全球最大的在線旅游公司之一,業(yè)務(wù)遍及全球,2007年通過與
藝龍的合作正式進(jìn)入中國(guó)市場(chǎng)。在人工智能的支持下,億客行在廣告變現(xiàn)領(lǐng)
域滿載而歸。2010年時(shí),億客行的廣告營(yíng)收在1億美元左右,這個(gè)數(shù)字對(duì)于行
業(yè)巨頭來說不是特別大。2011年,我?guī)蛢|客行開發(fā)了一套人工智能系統(tǒng)。這
套系統(tǒng)上線以后,億客行的廣告營(yíng)收獲得了大幅度的提升。在這個(gè)過程中,億客行堅(jiān)持了一件事情:通過人工智能系統(tǒng)預(yù)測(cè)用戶在網(wǎng)站上產(chǎn)生購(gòu)買行為
的概率,也就是預(yù)測(cè)一個(gè)訪客在網(wǎng)站上轉(zhuǎn)化為交易用戶的概率。
人工智能具體預(yù)測(cè)什么事情呢?如果用戶打開億客行網(wǎng)站或者在手機(jī)
App(應(yīng)用程序)上搜索一個(gè)行程,比如從北京到洛杉磯的航班,億客行的人
工智能系統(tǒng)可以實(shí)時(shí)地預(yù)測(cè)這個(gè)用戶的真正行為目標(biāo)和意圖。系統(tǒng)在用戶點(diǎn)
擊“搜索”按鈕的這一瞬間觸發(fā)幾百個(gè)用戶相關(guān)的行為數(shù)據(jù)維度的分析,非
常迅速地產(chǎn)出預(yù)測(cè)結(jié)果,通常在幾十毫秒內(nèi)完成。如果這個(gè)用戶真正要購(gòu)票
的話,人工智能不會(huì)給你彈出廣告,免得打擾用戶,干擾即將發(fā)生的交易;
如果用戶只是試探性查詢,只是想要對(duì)比下不同網(wǎng)站的購(gòu)票價(jià)格,人工智能
就會(huì)給用戶彈出競(jìng)爭(zhēng)性的廣告。什么是競(jìng)爭(zhēng)性的廣告呢?這些廣告主本身并沒有入駐億客行,所以這些
競(jìng)爭(zhēng)性廣告相當(dāng)于是從站外引入的。正因?yàn)檫@些站外商家和本網(wǎng)站主營(yíng)內(nèi)容
相似,對(duì)于想要比價(jià)或者試探性查詢的客戶來說,這類廣告是具有高意向性
的廣告,廣告的點(diǎn)擊率遠(yuǎn)高于平均水平,所以這類競(jìng)爭(zhēng)性廣告的賣價(jià)比一般
的展示性廣告,也就是我們經(jīng)常在網(wǎng)站頁(yè)面上看到的橫幅廣告也要高很多。
這個(gè)模式成立的關(guān)鍵點(diǎn)在于,億客行通過人工智能預(yù)測(cè)引擎,可以很準(zhǔn)確地
預(yù)測(cè)出來億客行網(wǎng)站的某個(gè)訪客是真正來購(gòu)票的,還是只是來億客行對(duì)比下
價(jià)格,對(duì)比完就離開,到別的網(wǎng)站去買票的。
這個(gè)預(yù)測(cè)引擎搭建完成以后,它的直接效果是把大量不購(gòu)買的網(wǎng)站流量
做了廣告的變現(xiàn)。有統(tǒng)計(jì)數(shù)據(jù)表明,這類不購(gòu)買的用戶占了總訪客數(shù)的97%。
用戶既然來網(wǎng)站只是看看,并不購(gòu)買,那么,網(wǎng)站給用戶推薦一個(gè)相關(guān)類型
廣告,用戶只要點(diǎn)擊了廣告,廣告主就會(huì)給網(wǎng)站付費(fèi)。同時(shí),預(yù)測(cè)引擎也做
到了完備的風(fēng)險(xiǎn)控制,否則如果用戶真來網(wǎng)站上購(gòu)買產(chǎn)品,而網(wǎng)站給用戶推
薦了競(jìng)爭(zhēng)性的廣告,對(duì)網(wǎng)站來說就會(huì)造成虧損。
用戶如果真的打算去國(guó)外游玩,在億客行上搜游玩行程,多半看不到這
種競(jìng)爭(zhēng)性廣告,因?yàn)閮|客行的廣告策略不允許降低網(wǎng)站本身的交易額。但是
如果用戶只是搜著玩兒,或者看完價(jià)格以后要到別的旅游網(wǎng)站或者航空公司
去購(gòu)票,用戶多半會(huì)看到這類競(jìng)爭(zhēng)性的廣告,而用戶的每次廣告點(diǎn)擊都會(huì)給
億客行帶來收入。
億客行的人工智能系統(tǒng)能夠預(yù)測(cè)出來哪些人會(huì)購(gòu)買,哪些人不會(huì)買,從
而做到精準(zhǔn)的廣告推薦,這樣既增加了額外的廣告收益,又控制了潛在的對(duì)
網(wǎng)站本身交易的風(fēng)險(xiǎn)。由于人工智能對(duì)每位訪客的意圖做出了準(zhǔn)確的預(yù)測(cè),這套人工智能廣告系統(tǒng)在2011年上線之后,億客行的廣告營(yíng)收穩(wěn)步增長(zhǎng),到
2018年已經(jīng)超過10億美元。
億客行部署的人工智能預(yù)測(cè)引擎,是人工智能商業(yè)化一個(gè)早期的實(shí)踐,后來這個(gè)系統(tǒng)的延伸版用在更多的在線交易場(chǎng)景下,也被美國(guó)風(fēng)險(xiǎn)投資商經(jīng)
緯創(chuàng)投、紅點(diǎn)創(chuàng)投等國(guó)際知名風(fēng)投公司所追捧。通過人工智能的精準(zhǔn)預(yù)測(cè),網(wǎng)站實(shí)時(shí)了解到用戶的真正意圖,把更恰當(dāng)?shù)膬?nèi)容呈現(xiàn)給用戶,從而做到網(wǎng)
站經(jīng)營(yíng)者、廣告主和用戶的多方共贏。
BAT 做金融的秘密武器人工智能在金融領(lǐng)域中也大有可為。舉一個(gè)例子,假如一個(gè)人剛踏入社
會(huì),參加工作時(shí)間很短,每個(gè)月收入不高。如果他去銀行申請(qǐng)貸款,會(huì)得到
什么樣的答復(fù)呢?因?yàn)槭杖胩,銀行沒有很多流水記錄,貸款申請(qǐng)會(huì)被拒
絕,這很可能是當(dāng)前銀行基于現(xiàn)有數(shù)據(jù)做出的決定。
但是,讓我們換一個(gè)視角來看,同樣是這個(gè)人,在大數(shù)據(jù)的棱鏡下,他
經(jīng)常參加網(wǎng)絡(luò)課程和社會(huì)福利活動(dòng),愛好音樂和閱讀,喜歡軟件開發(fā)的交
流。如果給這么一個(gè)人審批,作為金融機(jī)構(gòu)的審批人員,會(huì)不會(huì)批準(zhǔn)他的申
請(qǐng)呢?在這種視角下,金融機(jī)構(gòu)很有可能會(huì)給他提供一些信貸服務(wù),因?yàn)樗?br/>
的興趣愛好廣泛,行為健康向上。雖然在金融領(lǐng)域沒有強(qiáng)大的數(shù)據(jù)支持,但
是他在社交和專業(yè)活動(dòng)等方面正面且穩(wěn)定的行為,可以作為金融機(jī)構(gòu)審批信
貸的參照依據(jù)。金融行業(yè)審批貸款的趨勢(shì)是使用更多種類的非金融屬性數(shù)
據(jù),通過人工智能來解讀這些數(shù)據(jù),使其能預(yù)測(cè)一個(gè)人的信用和風(fēng)險(xiǎn)水平,從而服務(wù)金融機(jī)構(gòu)的風(fēng)險(xiǎn)控制需求。
如何通過人工智能深度分析大數(shù)據(jù)并在金融場(chǎng)景下使用,是一批想進(jìn)入
金融領(lǐng)域的互聯(lián)網(wǎng)公司面臨的問題。在阿里和騰訊都投身金融業(yè)務(wù)之后,百
度在2015年才姍姍來遲,正式開發(fā)金融業(yè)務(wù)。當(dāng)時(shí)百度的金融業(yè)務(wù)并不被業(yè)
界所看好,一個(gè)很重要的原因是,雖然百度有很多關(guān)于互聯(lián)網(wǎng)用戶的行為數(shù)
據(jù),卻不像消費(fèi)數(shù)據(jù)那樣與金融有強(qiáng)相關(guān)性,怎樣通過這些看似與金融無關(guān)
的數(shù)據(jù)去開展金融業(yè)務(wù),是百度進(jìn)入金融行業(yè)時(shí)亟須解決的一大難題。百度
想到的是,通過人工智能將二者聯(lián)系起來。
2016年初,百度高層找到我,希望我?guī)椭俣仍谛刨J場(chǎng)景用好人工智
能。也就是說,通過人工智能去精準(zhǔn)預(yù)測(cè)用戶在金融上的表現(xiàn)。所謂金融上
的表現(xiàn),通俗來講,就是一個(gè)用戶借了錢后有多大的可能性會(huì)逾期不還。如
果用戶還錢概率很高,那么這個(gè)信貸業(yè)務(wù)就能夠賺錢。但是如果逾期不還的
人數(shù)較多,那這個(gè)業(yè)務(wù)就肯定要賠。我需要幫助百度解決的問題,就是用人
工智能預(yù)測(cè)用戶借款后會(huì)不會(huì)按時(shí)還錢。
舉一個(gè)具體例子,如果某位小企業(yè)主的公司出現(xiàn)了經(jīng)營(yíng)問題,他想找金
融機(jī)構(gòu)申請(qǐng)一筆個(gè)人貸款,那這筆貸款對(duì)金融機(jī)構(gòu)來說風(fēng)險(xiǎn)很高,因?yàn)樗?br/>
可能逾期不還。通過借款人的行為數(shù)據(jù)可以分析得知,貸款是大概率用作個(gè)
人的流轉(zhuǎn),還是要用作企業(yè)經(jīng)營(yíng)。這是兩類不同類型的借款,借款人如果打
著個(gè)人借款的幌子去填企業(yè)的坑,對(duì)金融機(jī)構(gòu)來說風(fēng)險(xiǎn)相當(dāng)高。在這種場(chǎng)景下,人工智能通過對(duì)大量行為數(shù)據(jù)和金融表現(xiàn)數(shù)據(jù)的分析,可以得出相應(yīng)的
結(jié)論,因而對(duì)這些人來說,如果他們來申請(qǐng)個(gè)人貸款,金融機(jī)構(gòu)就應(yīng)該拒
貸,不把錢借給他。此外,還有很多在金融上有重要意義的數(shù)據(jù),例如,借
款人是一個(gè)日常生活穩(wěn)定的人,還是一個(gè)居無定所的人。通過人工智能的深
度分析,借款人的不同行為在金融上都對(duì)應(yīng)了不同的逾期和風(fēng)險(xiǎn)概率,這些
概率成為金融決策規(guī)則的一部分,幫助金融機(jī)構(gòu)更安全地提供信貸服務(wù),同
時(shí)擴(kuò)大放貸規(guī)模。雖然人工智能做出的預(yù)測(cè)不可能百分之百地準(zhǔn)確,但是我
們已經(jīng)可以實(shí)現(xiàn)非常高的準(zhǔn)確率,這對(duì)金融業(yè)務(wù)的開展仍然有相當(dāng)大的幫
助。
當(dāng)時(shí)我估算過,風(fēng)險(xiǎn)控制上的預(yù)測(cè)準(zhǔn)確率每提升1個(gè)點(diǎn),帶來的增額收入
接近1億元;谶@樣一個(gè)人工智能風(fēng)險(xiǎn)管理體系,在控制風(fēng)險(xiǎn)的情況下,把
流量逐漸打開用于金融業(yè)務(wù),度小滿金融(原百度金融)與金融機(jī)構(gòu)合作的
資產(chǎn)規(guī)模不斷增長(zhǎng),在一年左右的時(shí)間里累計(jì)發(fā)放貸款超過3 800億元,為50
多家銀行合作伙伴創(chuàng)造了近100億的利息收入,真正讓人工智能賺錢,且風(fēng)險(xiǎn)
可控。
傳統(tǒng)金融機(jī)構(gòu)的人工智能轉(zhuǎn)型
人工智能的一個(gè)重要意義在于它能幫助各行各業(yè)轉(zhuǎn)型升級(jí)。例如對(duì)于銀
行而言,如何能夠低成本精準(zhǔn)獲客是一大痛點(diǎn)。截至2018年末,我國(guó)商業(yè)銀
行機(jī)構(gòu)數(shù)量已經(jīng)達(dá)到了4 000家以上,其中國(guó)有大型商業(yè)銀行5家、郵儲(chǔ)銀行1
家、股份制商業(yè)銀行12家、城市商業(yè)銀行134家、住房?jī)?chǔ)蓄銀行1家、民營(yíng)銀
行17家、農(nóng)村商業(yè)銀行1 262家、農(nóng)村合作銀行33家、農(nóng)村信用社965家、村
鎮(zhèn)銀行1 562家、外資法人銀行39家,銀行間的同業(yè)競(jìng)爭(zhēng)十分激烈。而互聯(lián)網(wǎng)
金融公司的興起無疑更增加了銀行拓展客戶與業(yè)務(wù)增長(zhǎng)的難度;ヂ(lián)網(wǎng)金融
平臺(tái)以效率高、體驗(yàn)好吸引客戶,銀行如果止步不前,不注重提高用戶體
驗(yàn),由此造成的客戶流失可能會(huì)越來越明顯。
另一方面,隨著商業(yè)銀行不良貸款率的居高不下,信用卡業(yè)務(wù)、貸款業(yè)
務(wù)的風(fēng)險(xiǎn)控制也成為銀行關(guān)注重點(diǎn)。根據(jù)銀保監(jiān)會(huì)發(fā)布的銀行業(yè)主要監(jiān)管指
標(biāo)數(shù)據(jù),2019年一季度末,商業(yè)銀行不良貸款余額2.16萬億元,較上年末增加957億元,不良貸款率為1.80%。隨著銀行業(yè)務(wù)擴(kuò)張、客戶下沉,客戶的金
融屬性越發(fā)稀疏,貸款業(yè)務(wù)的風(fēng)險(xiǎn)控制也成為痛點(diǎn)。
2018年,我參與領(lǐng)導(dǎo)了百度與中國(guó)農(nóng)業(yè)銀行的“金融大腦”項(xiàng)目,在客
戶畫像、精準(zhǔn)營(yíng)銷、信用評(píng)價(jià)、風(fēng)險(xiǎn)監(jiān)控、智能投顧和智能客服等方面為農(nóng)
業(yè)銀行提供人工智能服務(wù),從營(yíng)銷、風(fēng)控到運(yùn)營(yíng)、決策,全領(lǐng)域?yàn)檗r(nóng)業(yè)銀行
的智能化轉(zhuǎn)型賦能。
金融大腦平臺(tái)是農(nóng)業(yè)銀行的核心人工智能系統(tǒng),以它為核心的人工智能
金融平臺(tái)解決方案,為農(nóng)業(yè)銀行打造了全領(lǐng)域的人工智能能力體系,這在業(yè)
內(nèi)是首舉。金融大腦平臺(tái)包括感知引擎和思維引擎兩大服務(wù)引擎,實(shí)現(xiàn)統(tǒng)一
的智能服務(wù),在大范圍多場(chǎng)景下集成了人工智能核心技術(shù)。感知引擎和思維
引擎就像人的左腦和右腦,讓計(jì)算機(jī)程序像人一樣不但能看、聽、說,還能
針對(duì)外部環(huán)境的變化做出最優(yōu)的決策,幫助農(nóng)業(yè)銀行更好地開展金融業(yè)務(wù)。
其中,感知引擎可以進(jìn)行人臉識(shí)別、活體識(shí)別、OCR(光學(xué)字符識(shí)別)、語(yǔ)音
識(shí)別、自然語(yǔ)言處理、語(yǔ)音合成,在保證銀行業(yè)務(wù)安全可靠的同時(shí),不斷提
升用戶的體驗(yàn)。思維引擎則基于機(jī)器學(xué)習(xí),在營(yíng)銷和風(fēng)控的核心業(yè)務(wù)領(lǐng)域,幫助農(nóng)業(yè)銀行在快速變化的市場(chǎng)環(huán)境中高效、準(zhǔn)確地做出決策,提升業(yè)務(wù)效
果。
作為農(nóng)業(yè)銀行人工智能的核心系統(tǒng),金融大腦為智能應(yīng)用提供人工智能
基礎(chǔ)能力的支撐。在智能營(yíng)銷領(lǐng)域,思維引擎構(gòu)建精準(zhǔn)營(yíng)銷模型庫(kù),實(shí)現(xiàn)多
渠道協(xié)同的智能化系統(tǒng)營(yíng)銷,助力信用卡年新增發(fā)卡連續(xù)突破1 000萬張。智
能推薦營(yíng)銷響應(yīng)率達(dá)到自然增長(zhǎng)的4倍有余,單次營(yíng)銷活動(dòng)可為行內(nèi)節(jié)約營(yíng)銷
費(fèi)用1 000萬元以上。舉個(gè)例子,對(duì)于銀行機(jī)構(gòu)來說,一個(gè)通常的廣告推送渠
道就是發(fā)短信。整天收到來自不同銀行的各種各樣的短信,用戶會(huì)十分反
感,因此對(duì)于銀行而言,短信一定要發(fā)得精準(zhǔn)。短信發(fā)得不精準(zhǔn)會(huì)導(dǎo)致兩個(gè)
結(jié)果,一是用戶被騷擾了,可能會(huì)退訂短信,或者對(duì)銀行產(chǎn)生負(fù)面的認(rèn)知;
二是發(fā)送短信也有成本,雖然單條短信價(jià)格很低,但是隨著量級(jí)的上升,成
本也會(huì)變得可觀。在中國(guó)農(nóng)業(yè)銀行,我們通過對(duì)大量過往用戶行為習(xí)慣的分
析,建立了精準(zhǔn)的營(yíng)銷響應(yīng)模型。這個(gè)模型可以幫助我們發(fā)現(xiàn)哪些用戶看到
營(yíng)銷短信之后,會(huì)產(chǎn)生積極的行為和反饋。這些產(chǎn)生響應(yīng)的用戶才是營(yíng)銷活
動(dòng)應(yīng)該選取的目標(biāo)用戶。這樣基于人工智能的營(yíng)銷讓短信只發(fā)送給高意圖人
群,不會(huì)打擾其他用戶,降低了營(yíng)銷成本。在智能風(fēng)控領(lǐng)域,農(nóng)業(yè)銀行的信用分模型和反欺詐模型提供的服務(wù),實(shí)
現(xiàn)了實(shí)時(shí)、精準(zhǔn)的智能化風(fēng)控,有效防控了風(fēng)險(xiǎn)。其中,信用分模型可以預(yù)
測(cè)識(shí)別出風(fēng)險(xiǎn)客戶,比如在自助申請(qǐng)和自動(dòng)審批的網(wǎng)貸產(chǎn)品“網(wǎng)捷貸”準(zhǔn)入
場(chǎng)景中識(shí)別出92%的不良客戶。反欺詐模型在日均7 000萬筆的掌銀(掌上銀
行)交易過程中,可提供毫秒級(jí)響應(yīng)的實(shí)時(shí)監(jiān)控,每天平均預(yù)警交易可達(dá)1萬
筆,有效地保障了交易安全。
以上講述了4個(gè)我親身參與的行業(yè)巨頭的案例,其中既有比較傳統(tǒng)的銀行
業(yè),通過人工智能實(shí)現(xiàn)成功轉(zhuǎn)型;也有互聯(lián)網(wǎng)科技業(yè),通過人工智能大規(guī)模
增加效益。無論在傳統(tǒng)行業(yè)還是在新興產(chǎn)業(yè),數(shù)據(jù)和人工智能都產(chǎn)出了史無
前例的商業(yè)價(jià)值。當(dāng)然,從數(shù)據(jù)到價(jià)值的躍變涉及方方面面的許多環(huán)節(jié),需
要相互配合、相互銜接,無論哪個(gè)環(huán)節(jié)出現(xiàn)問題不能有效解決,都會(huì)阻礙最
終價(jià)值的產(chǎn)生,不少人工智能項(xiàng)目也因此以失敗告終。我在多年的行業(yè)實(shí)踐
過程中,總結(jié)出一套行之有效的人工智能方法論——AI思維——來解決這些
問題。這幾個(gè)案例只是一個(gè)鋪墊,算是了解AI思維的熱身環(huán)節(jié),后面我們會(huì)
從概念到實(shí)操等各個(gè)角度,以及金融、零售等多個(gè)行業(yè),具體詳細(xì)地闡釋根
據(jù)多年行業(yè)經(jīng)驗(yàn)?zāi)毝傻腁I思維。尋找你的“阿爾法”
世界的變化越來越快,10年前的許多知識(shí)已經(jīng)被貼上了“落后”的標(biāo)
簽;10年前毫不費(fèi)力空手套白狼的賺錢思維,現(xiàn)在卻不再行之有效。我們總
在抱怨這個(gè)時(shí)代的趨勢(shì)變幻莫測(cè),難以把握,卻沒有人靜下心來尋找問題的
根源。其實(shí),問題的根源正在于我們的認(rèn)知。人類的認(rèn)知是有局限性的,不
僅受到個(gè)人知識(shí)背景和社會(huì)經(jīng)歷的影響,更受制于自身的喜忌偏好。書本上
的知識(shí)是權(quán)威的,但更新太慢,實(shí)際操作價(jià)值較低。他人的經(jīng)驗(yàn)看起來頗有
一番道理,但每個(gè)人的情況不同,別人的經(jīng)驗(yàn)在你身上也許就失效了。世界
變化這么快,我們?cè)鯓硬拍懿煌5厮⑿抡J(rèn)知呢?
大多數(shù)人可能會(huì)選擇去上編程課或者英語(yǔ)補(bǔ)習(xí)班,或者在知識(shí)付費(fèi)的時(shí)
代中多學(xué)幾門網(wǎng)課,多加幾個(gè)“知識(shí)星球”,以達(dá)到“刷新認(rèn)知”的目的。
但是問題在于,如此獲得的知識(shí),大多是碎片化的。也許會(huì)有人去讀MBA(工
商管理碩士),但動(dòng)輒百萬的學(xué)費(fèi)讓許多人望而生畏。很多方式是在原本平
庸的思維里機(jī)械地填充信息,并不會(huì)使我們的認(rèn)知產(chǎn)生質(zhì)的變化。
要從質(zhì)的層面去做認(rèn)知提升,不僅要提升認(rèn)知能力,還應(yīng)該轉(zhuǎn)化思維模
式。而我們要談的AI思維,是一種時(shí)代前沿的思維模式,也許能夠?yàn)槟闾峁?br/>
一種新的路徑。AI思維可以在一定程度上解決我們的認(rèn)知局限性的問題,幫
助我們進(jìn)行認(rèn)知升級(jí)。它不同于目前很多人對(duì)人工智能的認(rèn)知,他們眼中的
人工智能等同于機(jī)器人、無人駕駛、人臉識(shí)別或者語(yǔ)音識(shí)別等,但這只是人
工智能的具體應(yīng)用,只是人工智能的冰山一角。我們要闡述的是AI思維,可
以說是人工智能的真正精髓,是人工智能冰山的內(nèi)核,它能夠幫助我們找到
自身真正的優(yōu)勢(shì),獲得真正展現(xiàn)我們個(gè)體主動(dòng)策略優(yōu)勢(shì)的超額收益,從而使
我們的生活和事業(yè)蒸蒸日上。
赫布理論:人腦學(xué)習(xí)的機(jī)制
AI思維與人腦思維有些相似,為了讓你更好地理解,首先,我們需要知
道人腦的學(xué)習(xí)機(jī)制。在各類經(jīng)驗(yàn)學(xué)習(xí)的過程中,無論是視覺、聽覺,還是更復(fù)雜的決策,人腦都有著它獨(dú)特的思維機(jī)制。
為了研究總結(jié)大腦的思維機(jī)制,加拿大生理心理學(xué)家唐納德·赫布在
1949年提出了赫布理論。赫布理論表明,人腦中有許多神經(jīng)元,前一個(gè)神經(jīng)
元通過突觸——一個(gè)連接不同神經(jīng)元的結(jié)構(gòu)——持續(xù)向后一個(gè)神經(jīng)元產(chǎn)生刺
激。在這樣的情況下,兩個(gè)神經(jīng)元之間的傳遞效能增加,形成細(xì)胞回路;如
果這種刺激持續(xù)重復(fù),突觸傳遞的效能不斷增加,人腦就記住了這兩個(gè)事物
之間存在的聯(lián)系。比方說,我們?cè)谏蠈W(xué)的時(shí)候,打鈴就代表要上課或者下
課,也就是說當(dāng)鈴聲響起時(shí),一個(gè)神經(jīng)元被激發(fā),而同一時(shí)間出現(xiàn)的上課或
下課的場(chǎng)景會(huì)激發(fā)附近的一個(gè)神經(jīng)元,經(jīng)過多次這樣的刺激之后,它們之間
的聯(lián)系會(huì)被默認(rèn)下來,這就是人腦的學(xué)習(xí)機(jī)制。這種學(xué)習(xí)模式又稱作“赫布
型學(xué)習(xí)”,人無時(shí)無刻不在接觸新的事物,建立事物之間的聯(lián)系和規(guī)律,人
的大腦也是無時(shí)無刻不在進(jìn)行著赫布型學(xué)習(xí)。
宏觀上,人們從經(jīng)驗(yàn)中受到刺激時(shí),人腦就學(xué)習(xí)到了事物之間的相關(guān)
性,從而總結(jié)出相關(guān)的規(guī)律。如圖1-1所示,經(jīng)驗(yàn)改變了人腦的回路,通過習(xí)
得的規(guī)律,我們可以快速分類新的問題,從而形成判斷乃至做出決策。所
以,人類對(duì)新問題的判斷,來自過往的經(jīng)驗(yàn)。
圖1-1 人類習(xí)得規(guī)律示意圖
有人估計(jì)過,人腦通過神經(jīng)元的激活來閱讀理解信息的速度是每天
1MB(兆字節(jié))左右。然而,信息的產(chǎn)生速度至少是每天2.5EB 。所以,人
腦通過神經(jīng)元的激活來處理信息的速度,遠(yuǎn)遠(yuǎn)跟不上新信息產(chǎn)生的速度。換
言之,我們的認(rèn)知是有限的,如果你還是以每天1MB的速度來處理信息、解讀
這個(gè)世界,那么注定跟不上這個(gè)不斷更新的時(shí)代步伐。
羊群效應(yīng)人腦不但處理信息的速度非常有限,而且常常不經(jīng)思考便追隨大眾的想
法。經(jīng)濟(jì)學(xué)里有一個(gè)專門描述經(jīng)濟(jì)個(gè)體從眾跟風(fēng)心理的名詞——羊群效應(yīng),將人類與羊群遇事的反應(yīng)相類比。羊雖然看起來也是成群結(jié)隊(duì),但是十分散
亂,最?吹降木褪撬鼈兒翢o目的地左沖右撞。然而在羊群之中,一旦有一
只羊先行,其他的羊也會(huì)不假思索地跟隨,也不管前面是否有狼或者身旁是
否有更好的草。反觀人類自身,羊群效應(yīng)所導(dǎo)致的盲從行為往往會(huì)讓人陷入
騙局或遭到失敗。每個(gè)人的認(rèn)知都有局限性,做出的判斷有可能是不準(zhǔn)確
的。那么,在羊群效應(yīng)下的人盲目相信別人的認(rèn)知,跟隨別人的做法,做出
來的判斷不準(zhǔn)確的可能性更大,也不能為其帶來收益或者規(guī)避風(fēng)險(xiǎn)。
人類的群居性使得與他人的交互成為人類生存的前提。因此,人的認(rèn)知
必然受他人的影響。相應(yīng)地,人的大腦在處理信息時(shí),會(huì)或多或少地受到外
部環(huán)境的影響。這種影響有時(shí)是有意識(shí)的,有時(shí)是無意識(shí)的,往往使得人的
認(rèn)知缺乏客觀性,甚至不由自主地從眾,得出與周圍多數(shù)人一致的結(jié)論。此
外,人的認(rèn)知還受到自身能力的限制。這種能力一方面體現(xiàn)于人的記憶力,也就是說,成為我們認(rèn)知的信息基礎(chǔ)能有多少;另一方面則體現(xiàn)于已有的技
能和工具,以及它們?cè)诙啻蟪潭壬夏転槲覀兊恼J(rèn)知過程提供服務(wù)。
正是因?yàn)槿祟惖恼J(rèn)知存在這些無法避免的問題,思維方法才顯得愈加重
要。我們的思維決定了我們的認(rèn)知過程,決定了我們?nèi)绾螐臍v史經(jīng)驗(yàn)中形成
對(duì)當(dāng)前事物的看法和對(duì)未來的預(yù)判。我們每天都面臨著許多決策:在哪安家
落戶,和誰(shuí)共度余生,如何出類拔萃……小的決策也許會(huì)影響你一天的心
情,大的決策則會(huì)影響幾年甚至是一生的生活質(zhì)量。一種好的思維能最大限
度地把我們的認(rèn)知能力從束縛中解放出來,幫助我們做出最優(yōu)的決策,而AI
思維正是這樣一種能夠解放我們認(rèn)知能力的強(qiáng)大思維。
AI思維
如前所述,過往的經(jīng)驗(yàn)確實(shí)能幫助我們做決策,尤其當(dāng)我們不得不基于
模糊的信息進(jìn)行判斷時(shí),經(jīng)驗(yàn)?zāi)馨l(fā)揮巨大的作用。然而,在信息爆炸、算法
決策高度發(fā)達(dá)的今天,光靠以往經(jīng)驗(yàn)做判斷、做決策的思維模式已經(jīng)顯現(xiàn)出
弊端,掌握著大量數(shù)據(jù)和科學(xué)決策工具的人,早已成為你前面的領(lǐng)跑者。落后于時(shí)代的思維,帶來的是慢于時(shí)代發(fā)展的速度,其產(chǎn)生的收益必定比他人
低,而且會(huì)越來越低。
本質(zhì)上,人工智能模擬的是人腦,但又不同于人腦。AI思維是從數(shù)據(jù)產(chǎn)
生模型,如果遇到新的輸入,人工智能就能通過模型做出準(zhǔn)確的預(yù)測(cè)。AI思
維與人腦思維的相似點(diǎn)在于,AI思維也是通過對(duì)過往的分析習(xí)得規(guī)律,得出
結(jié)論,但是AI思維分析過往數(shù)據(jù)的過程是不同的。
那么數(shù)據(jù)是什么?數(shù)據(jù)是人類經(jīng)驗(yàn)的數(shù)字化形式。如圖1-2所示,就像人
從經(jīng)驗(yàn)中獲得規(guī)律一樣,人工智能能夠根據(jù)數(shù)據(jù)形成模型。一旦遇到新場(chǎng)景
的輸入,模型就能做出判斷、產(chǎn)生預(yù)測(cè)。人工智能的這種思維能夠充分利用
數(shù)據(jù),盡量減少主觀臆斷,以我們想達(dá)到的目標(biāo)為中心,挖掘規(guī)律,形成模
型,運(yùn)用模型,產(chǎn)生預(yù)測(cè)。人工智能就好比一個(gè)可預(yù)知未來的水晶球,掌握
了AI思維,你就可以做出科學(xué)意義上最佳的決策,產(chǎn)出前所未有的收益。
圖1-2 人工智能習(xí)得規(guī)律示意圖
就像過去的互聯(lián)網(wǎng)思維一樣,在互聯(lián)網(wǎng)出現(xiàn)之前,一個(gè)人只能與周圍的
幾十個(gè)人產(chǎn)生聯(lián)系,而有了互聯(lián)網(wǎng)之后,與世界各地任何人、無數(shù)人產(chǎn)生聯(lián)
系成為可能。而人工智能出現(xiàn)之前,人只能借助過往經(jīng)驗(yàn)或者周遭環(huán)境等有
限的信息做出判斷;而借助人工智能,人們能夠發(fā)現(xiàn)和挖掘無數(shù)的相關(guān)信息
和數(shù)據(jù)來做預(yù)測(cè)和決策,而做出最優(yōu)決策也是AI思維的一大特點(diǎn)。從廣義上
來看,人工智能具有感知、認(rèn)知和決策的能力。決策就是通過上述模式而產(chǎn)
生的,比如在股市中,人工智能可以根據(jù)歷史數(shù)據(jù)生成模型,然后來指導(dǎo)股
市決策。人工智能的感知和認(rèn)知功能包括感知圖像、理解語(yǔ)言、識(shí)別語(yǔ)義信
息等,它的邏輯和股市決策是一樣的,也是一種預(yù)測(cè),只是預(yù)測(cè)的目標(biāo)不一
樣。例如,人工智能在進(jìn)行人臉識(shí)別時(shí),也是根據(jù)許多人臉數(shù)據(jù)生成模型,然后遇到一個(gè)新的人臉數(shù)據(jù),這個(gè)模型就能判斷出它是否是特定的那個(gè)人
臉。在商業(yè)世界里有一個(gè)名詞阿爾法(alpha)收益。經(jīng)常買基金的朋友應(yīng)該
都知道,阿爾法收益是相對(duì)于貝塔(beta)收益而言的,貝塔收益是一種基
準(zhǔn)收益,而阿爾法收益是在貝塔收益期望之上的超額收益,是積極操作所帶
來的投資回報(bào)。就好比我們理財(cái)一樣,央行的基準(zhǔn)活期年利率是0.35%,就是
說我們有1萬元放在銀行存活期,一年可以賺到35元,而央行年利率提高
0.1%,我們就多賺10元錢,這個(gè)就類似于貝塔收益。但是我們用這1萬元錢去
買余額寶、理財(cái)通、股票,投資房產(chǎn),可能收益翻倍,這個(gè)多出來的收益,就是我們積極操作所帶來的阿爾法收益。1%的阿爾法就意味著比市場(chǎng)帶來的
投資回報(bào)多了1%。毋庸置疑,無論在哪個(gè)市場(chǎng),你都希望能跑贏它,都希望
能找到屬于自己的正向阿爾法。AI思維的作用就在于它能帶著你的認(rèn)知更上
一層樓,賦予你跑贏大盤、產(chǎn)生高阿爾法的能力。
相較于人腦1MB的處理速度,人工智能可以用任意高的算力為你工作,而
且不分晝夜,不知疲勞。人工智能的能力和速度,足以幫助我們尋找到夢(mèng)寐
以求的阿爾法。有了人工智能,你還擔(dān)心跟不上時(shí)代變遷的步伐嗎?
股市:智能投顧發(fā)現(xiàn)阿爾法
傳統(tǒng)上,一個(gè)金融分析師配一個(gè)程序員,就是量化交易在金融公司的常
規(guī)形式。分析師出策略,程序員把策略轉(zhuǎn)寫為代碼,輸入到交易程序里。但
問題在于,策略是分析師自己設(shè)計(jì)的,它實(shí)際上還是一種主觀策略。如果在
量化交易中投入人工智能,就能使機(jī)器自己通過歷史數(shù)據(jù)生成策略模型,進(jìn)
而預(yù)測(cè)將來的走勢(shì),從而尋找金融市場(chǎng)的阿爾法,F(xiàn)在很多的智能投顧,就
是通過這樣的模式來運(yùn)作的。
那么讓我們來看一下,人工智能是如何在投資顧問領(lǐng)域創(chuàng)造出價(jià)值的。
英仕曼集團(tuán)是全球最大的對(duì)沖基金公司之一,它從2014年就開始使用智能投
顧進(jìn)行自動(dòng)交易決策,并且獲得了巨大收益。2015年8月,美元暴跌,全球股
市暴跌,引發(fā)大量拋售。但英仕曼的智能投顧在此之前就洞察了市場(chǎng),并迅
速?gòu)南碌蝎@利。而在美國(guó)股市下跌約3%后,該系統(tǒng)又發(fā)現(xiàn)了買入的機(jī)會(huì),重新回到市場(chǎng)。人工智能參與決策,為英仕曼集團(tuán)規(guī)模最大的一只基金貢獻(xiàn)
了大約一半的利潤(rùn)。通過AI思維,英仕曼集團(tuán)在動(dòng)蕩的股票市場(chǎng)中跑贏了其
他公司,產(chǎn)出了大量的阿爾法。那為什么英仕曼集團(tuán)依靠人工智能就能夠在慘烈的股市中殺出重圍并大
量獲利呢?具體來說,傳統(tǒng)的金融投資還是要靠策略分析師這樣的專業(yè)人士
來做判斷,但是由于人固有的認(rèn)知局限性和經(jīng)驗(yàn)的限制性,在面對(duì)一些大的
變動(dòng)時(shí),也會(huì)出現(xiàn)不知所措的情況,這時(shí)做出的判斷往往有一定的主觀性。
但人工智能具有強(qiáng)大的計(jì)算能力和信息分析處理能力,能夠快速準(zhǔn)確地分析
金融資產(chǎn)在歷史上的表現(xiàn)數(shù)據(jù)和各種外部環(huán)境等各種因素,例如宏觀經(jīng)濟(jì)、就業(yè)情況、社媒輿情等,然后根據(jù)分析結(jié)果預(yù)測(cè)金融資產(chǎn)的未來表現(xiàn),從而
避免金融分析師決策的主觀性和局限性。
房市:美國(guó)房產(chǎn)網(wǎng)站Zillow股價(jià)兩年漲七倍的秘密
杜甫詩(shī)云:“安得廣廈千萬間,大庇天下寒士俱歡顏!敝袊(guó)人自古以
來就講究安土重遷,對(duì)房子鐘情千年。不論經(jīng)濟(jì)發(fā)展如何波動(dòng),房?jī)r(jià)不但居
高不下,還一路水漲船高。不論別的行業(yè)發(fā)展如何不景氣,人們對(duì)于買房的
熱情毫不衰減。房子對(duì)于人們的重要性不言而喻,房子是人生的一筆重要投
資這件事也毋庸置疑。所以,選房和買房也要尋找房屋市場(chǎng)的阿爾法。
在買賣雙方的房地產(chǎn)交易市場(chǎng)上,什么東西是最重要的?毫無疑問是全
面而準(zhǔn)確的房產(chǎn)信息。在傳統(tǒng)的房地產(chǎn)中介業(yè)中,由于房主不清楚自己房屋
的市場(chǎng)價(jià)值,買主也不是很了解理想房屋的實(shí)際價(jià)值,房屋買賣市場(chǎng)的買家
和賣家都一頭霧水,十分茫然。中介公司便利用這種信息不對(duì)稱從中抽取豐
厚的傭金。這種情況持續(xù)了多年,直到2006年,一家房產(chǎn)網(wǎng)站Zillow橫空出
世,在美國(guó)一上線便引發(fā)了轟動(dòng)。因?yàn)樗峁┑姆课輧r(jià)值評(píng)估業(yè)務(wù),解決了
房屋買賣市場(chǎng)這種信息不對(duì)稱的問題,并給予客戶充分的知情權(quán),這在一定
程度上顛覆了傳統(tǒng)的中介業(yè)。
Zillow的房屋價(jià)值評(píng)估業(yè)務(wù)是憑借其自行研發(fā)的人工智能系統(tǒng)建立起來
的,其具體運(yùn)作過程如下:利用Zillow上的房屋估值系統(tǒng)Zestimate,可以了
解到房屋的地理位置、建筑面積、臥室數(shù)量、衛(wèi)生間數(shù)量、房屋照片、周邊
環(huán)境等多維度的數(shù)據(jù),再結(jié)合類似房屋的價(jià)值范圍、歷史價(jià)格、價(jià)格折扣、價(jià)值波動(dòng)等數(shù)據(jù),通過人工智能模型,計(jì)算出房屋目前的市值以及未來的升
值空間。對(duì)于房主來說,他們可以清楚自己房屋的估值,對(duì)于自己的房屋有一個(gè)合理的定價(jià)和預(yù)期,而對(duì)于買家來說,他們也能夠以合適的價(jià)格買到稱
心如意的房屋,形成共贏的局面。
目前,Zillow公司已經(jīng)運(yùn)用這些模型為超過1億個(gè)美國(guó)房屋提供了房屋估
值!度A爾街日?qǐng)?bào)》曾將Zillow的估價(jià)和美國(guó)1 000個(gè)房屋的實(shí)際售價(jià)進(jìn)行比
較,結(jié)果顯示,兩者的中值偏差為7.8%,接近于Zillow自己估算的7.2%。這
就是AI思維的一個(gè)實(shí)例,從中我們也能看到人工智能的優(yōu)勢(shì),不僅可以處理
大量復(fù)雜、凌亂、看似沒有規(guī)律的數(shù)據(jù),也可以避免一些人為的主觀因素,做出客觀的最佳決策。
婚事:約會(huì)和戀愛的科學(xué)決策
柏拉圖說過,每個(gè)人都被上帝分成了兩半,被分開的人太多了,我們很
難找到正確的另一半,但是我們?nèi)匀幌胝覍さ椒Q心如意的人生伴侶。有人相
信緣分,但如果每天宅在家里,社交圈不大,可挑選的范圍也必然受限。隨
著互聯(lián)網(wǎng)的發(fā)展,人們的交流渠道拓寬了,又出現(xiàn)了新的交友方式——在線
約會(huì)。新事物的產(chǎn)生又伴隨著新的問題。互聯(lián)網(wǎng)時(shí)代在線約會(huì)的核心問題在
于可挑選的對(duì)象太多,用戶常常不知道誰(shuí)是對(duì)的人,不知道到底該從何開
始。這時(shí),為了幫助用戶更好地找到稱心如意的對(duì)象,提供智能匹配就顯得
尤其重要。
以前提供這種匹配服務(wù)的是傳統(tǒng)的媒婆,但是媒婆手里的單身人士數(shù)量
是有限的,也就是說,她的用戶數(shù)量很少,所以她可以對(duì)這些用戶的信息了
如指掌,可以輕松地對(duì)這些用戶的信息進(jìn)行評(píng)估,然后給每個(gè)人提供一個(gè)最
佳匹配。然而,當(dāng)我們處理數(shù)百萬的用戶信息時(shí),在一個(gè)超大的候選庫(kù)里選
擇最佳的約會(huì)對(duì)象時(shí),人工的判斷就顯得不現(xiàn)實(shí),而且也不那么準(zhǔn)確了。因
此,在數(shù)據(jù)大爆發(fā)的現(xiàn)在進(jìn)行婚配,我們十分需要借助AI思維來為用戶找到
最有可能的匹配。
美國(guó)的婚戀網(wǎng)站eHarmony開發(fā)了一種基于人工智能的智能匹配系統(tǒng)來解
決這些問題。那智能匹配是什么呢?簡(jiǎn)單來說,就是通過掌握的約會(huì)人的信
息來評(píng)估不同人之間的約會(huì)相容性,從而建立起相應(yīng)的匹配。你可能會(huì)
對(duì)“約會(huì)相容性”這個(gè)詞有疑問,約會(huì)相容性指的是約會(huì)雙方的相似度以及二者相互接納的滿意程度。建立在約會(huì)相容性基礎(chǔ)上的匹配約會(huì),有最大的
可能性獲得成功,并獲得長(zhǎng)期的滿意度。
那這個(gè)智能匹配系統(tǒng)是如何運(yùn)行的呢?首先,根據(jù)相容性分級(jí)來減少潛
在匹配池。相容性分級(jí)由用戶提交的心理自測(cè)結(jié)果以及年齡、所在地等構(gòu)
成,若用戶之間出現(xiàn)年齡意向不符合或者所在地相隔太遠(yuǎn)等情況,就會(huì)從彼
此的匹配池中刪除,為以后的匹配削減一些不必要的信息。其次,基于文
本、圖像和其他維度的統(tǒng)計(jì)數(shù)據(jù)等,通過人工智能生成潛在人選之間的相容
性。最后,相容性低的人就會(huì)被篩選掉,相容性高的人就會(huì)被匹配到一起,這樣就可以為每位用戶找到最佳的約會(huì)人選;閼傩袠I(yè)大量的數(shù)據(jù)表明,即
使在婚戀這個(gè)看似非常主觀的領(lǐng)域,人工智能也能為它服務(wù)的人群帶來阿爾
法。
也許你以為自己不可能擺脫“羊群”,不敢與眾不同;也許你以為自己
只能成為一波又一波的“韭菜”,面對(duì)股市一片紅海畏縮不前;也許你以為
自己打拼半生,也買不到一套合適的心愛的房子;也許你以為你終其一生也
找不到屬于自己的合適伴侶,只能隨隨便便找個(gè)人將就。但看完這本書你會(huì)
知道,這些都是你的“以為”,都是你認(rèn)知的局限性。或許,在五年前、十
年前,這些“你以為”是真的,但現(xiàn)在,有了人工智能,有了AI思維,我們
就能突破認(rèn)知的天花板,跟上時(shí)代的步伐,找到屬于自己的阿爾法。AI思維的核心價(jià)值
文字出現(xiàn)以前,人們結(jié)繩記事。這種不夠清晰的記載方式使人們對(duì)宇宙
和世界的認(rèn)知一直停滯不前。后來,人們發(fā)明了文字,世界開始清亮,宇宙
不再混沌,人類的思維逐漸變得清晰。從這層意義上說,人工智能和文字一
樣,都是承載和提升思維的工具。文字推動(dòng)原始社會(huì)走向文明,AI思維賦予
現(xiàn)代社會(huì)更多發(fā)展的可能性。
基于人工智能的個(gè)性化學(xué)習(xí)方案讓你在短時(shí)間內(nèi)掌握更多需要的知識(shí),基于人工智能的智能匹配社交幫你更容易找到靈魂伴侶,基于人工智能的房
屋評(píng)價(jià)系統(tǒng)讓買房不再是糊涂的選擇,基于人工智能的戰(zhàn)略規(guī)劃讓國(guó)家的發(fā)
展充滿了更多的可能性?梢哉f,AI思維是這樣一種“修身齊家治國(guó)平天
下”的思維方法。要想掌握AI思維,需要了解的事情有很多。我們不妨先從
AI思維的要素開始,開啟這段新的旅程。
AI思維的要素
人工智能早在1956年美國(guó)的達(dá)特茅斯會(huì)議上就被提出,但直到2016年,才開始被大眾熟知,近幾年才開始被普遍運(yùn)用在社會(huì)生活中的各行各業(yè)。這
是為什么呢?原因在于,以前很多人工智能所必需的要素還沒有發(fā)展起來。
隨著互聯(lián)網(wǎng)的普及,人們對(duì)于人工智能的研究更加深入,這幾年這些要素有
了突飛猛進(jìn)的發(fā)展。那么,AI思維得以實(shí)現(xiàn),需要依賴于哪些要素呢?
第一個(gè)要素就是大數(shù)據(jù)。
我們處在一個(gè)數(shù)據(jù)井噴的年代,無論是企業(yè)業(yè)務(wù)環(huán)節(jié)產(chǎn)生的數(shù)據(jù),還是
個(gè)人移動(dòng)設(shè)備里面的數(shù)據(jù),信息量都非常大,并且這個(gè)數(shù)據(jù)量在近幾年呈爆
炸式增長(zhǎng)。如圖1-3所示,根據(jù)智研咨詢發(fā)布的《2017—2023年中國(guó)大數(shù)據(jù)應(yīng)
用行業(yè)市場(chǎng)全景調(diào)查及未來前景預(yù)測(cè)研究報(bào)告》,全球數(shù)據(jù)總量的年增長(zhǎng)率
將維持在50%左右;并預(yù)測(cè),到2020年,全球的數(shù)據(jù)總量將達(dá)到40ZB(1ZB=1
萬億GB)。我們想想20年以前,個(gè)人計(jì)算機(jī)里面的數(shù)據(jù)可能只有區(qū)區(qū)幾十兆,而現(xiàn)在的數(shù)據(jù)都是以TB或者PB作為單位的數(shù)量級(jí)。我們知道AI思維建立
在對(duì)數(shù)據(jù)學(xué)習(xí)的基礎(chǔ)上,數(shù)據(jù)越多,人工智能學(xué)會(huì)的東西越多,人工智能做
出的判斷決策就越準(zhǔn)確,越具有實(shí)用性。所以說,大數(shù)據(jù)的形成是AI思維的
一個(gè)要素。
圖1-3 全球數(shù)據(jù)總量統(tǒng)計(jì)圖
第二個(gè)要素是模型。
我們的大腦由許多神經(jīng)網(wǎng)絡(luò)連接而成,每天能幫助我們做各種各樣的決
策。早期的人工智能模型包括人工神經(jīng)網(wǎng)絡(luò),它本質(zhì)上是對(duì)大腦,也就是我
們自有神經(jīng)網(wǎng)絡(luò)的模擬。這種模型在20世紀(jì)80年代就已經(jīng)被發(fā)明出來了,它
能夠幫助我們從數(shù)據(jù)中提煉出知識(shí)。而今我們?cè)谌斯ど窠?jīng)網(wǎng)絡(luò)的基礎(chǔ)上有了
更深的研究,產(chǎn)生了一系列的深度學(xué)習(xí)模型,其實(shí)可以把深度學(xué)習(xí)模型理解
為傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型的加強(qiáng)版。一般的人工智能模型隨著數(shù)據(jù)量的增加,預(yù)測(cè)效果會(huì)提升,但很快達(dá)到瓶頸。而深度學(xué)習(xí)的預(yù)測(cè)效果隨著數(shù)據(jù)量的增
加,會(huì)持續(xù)提升。深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力決定了它能夠更好地模擬人類大腦的運(yùn)算機(jī)
制,它最擅長(zhǎng)的是理解和識(shí)別圖像、視頻、聲音、文本這樣的數(shù)據(jù)。通過對(duì)
圖像進(jìn)行深度學(xué)習(xí),它實(shí)現(xiàn)了人臉識(shí)別,比如支付寶刷臉支付;通過對(duì)聲音
的深度學(xué)習(xí),實(shí)現(xiàn)了音頻自動(dòng)轉(zhuǎn)換為文字,比如訊飛聽見能夠一鍵錄音轉(zhuǎn)文
字;通過對(duì)文本的深度學(xué)習(xí),人工智能已經(jīng)能夠獨(dú)立創(chuàng)作,比如微軟的人工
智能機(jī)器人小冰出版了原創(chuàng)詩(shī)集《陽(yáng)光失了玻璃窗》。
深度學(xué)習(xí)不但能為人工智能提供技術(shù)支撐,其發(fā)展也為人工智能在各個(gè)
領(lǐng)域的應(yīng)用提供了無限的可能。ImageNet是計(jì)算機(jī)視覺領(lǐng)域很著名的一個(gè)圖
像識(shí)別競(jìng)賽,是該領(lǐng)域的“奧賽”。很多專家、學(xué)者都會(huì)參與,微軟、谷
歌、百度等科技公司也是該比賽中的佼佼者。在ImageNet競(jìng)賽中,隨著深度
學(xué)習(xí)的發(fā)展,圖像識(shí)別能力有了很大的提升,從2010年到2015年這5年間,錯(cuò)
誤率從30%左右縮減到5%。5%的錯(cuò)誤率已經(jīng)基本上匹配了人對(duì)圖像識(shí)別的錯(cuò)誤
率,這促進(jìn)了人工智能在更為廣闊的圖像識(shí)別領(lǐng)域的應(yīng)用。除了圖像識(shí)別以
外,語(yǔ)音識(shí)別的發(fā)展也依賴于深度學(xué)習(xí)。20世紀(jì)50年代,第一個(gè)語(yǔ)音識(shí)別系
統(tǒng)Andry只能夠識(shí)別10個(gè)英文數(shù)字;而現(xiàn)在,深度學(xué)習(xí)助力語(yǔ)音識(shí)別,應(yīng)用于
市場(chǎng)上的語(yǔ)音識(shí)別系統(tǒng)對(duì)普通話的識(shí)別準(zhǔn)確率高達(dá)95%,百度、搜狗、訊飛的
語(yǔ)音識(shí)別的錯(cuò)誤率維持在3%,比人類識(shí)別語(yǔ)音5.7%的錯(cuò)誤率更低,這為人工
智能在語(yǔ)音識(shí)別的各個(gè)領(lǐng)域展開布局提供了強(qiáng)有力的支持。所以說,深度學(xué)
習(xí)的不斷發(fā)展也促進(jìn)了人工智能應(yīng)用的不斷普及。
第三個(gè)要素是算力。
AI思維的實(shí)現(xiàn)需要很強(qiáng)的計(jì)算能力的支撐。我們想到計(jì)算能力,首先想
到的可能是電腦、手機(jī)等智能設(shè)備,它們能提供一部分算力。對(duì)我們做人工
智能來說,這樣的算力是不夠的。我們需要一個(gè)大規(guī)模的計(jì)算機(jī)集群,需要
成百臺(tái)上千臺(tái)計(jì)算機(jī)連接在一起,進(jìn)行大規(guī)模的運(yùn)算。谷歌X實(shí)驗(yàn)室推出的谷
歌大腦就是將16 000臺(tái)計(jì)算機(jī)的處理器連接在一起,這樣強(qiáng)大的算力使其具
有強(qiáng)大的自主學(xué)習(xí)能力,成為全球最大的人工智能大腦之一。
除了計(jì)算機(jī)集群,算力還需要GPU的架構(gòu)。GPU全稱是Graphics
Processing Unit,就是我們常說的圖形處理器,是一種專門在電腦和移動(dòng)設(shè)
備上進(jìn)行圖像運(yùn)算工作的微處理器。與之相對(duì)應(yīng)的是CPU,即中央處理器,其
功能主要是解釋計(jì)算機(jī)指令以及處理計(jì)算機(jī)軟件中的數(shù)據(jù)。GPU的架構(gòu)有別于
傳統(tǒng)CPU的架構(gòu),能夠很好地支持深度學(xué)習(xí)模型的運(yùn)算。你可能對(duì)GPU這個(gè)名稱很陌生,其實(shí)你可能早已接觸過它。如果你是一名電子游戲愛好者,不管
你玩王者榮耀還是和平精英,都需要GPU的支持來實(shí)現(xiàn)游戲中人物的移動(dòng)及其
他圖像變換。GPU現(xiàn)在已經(jīng)發(fā)展到了第四代,它提供的強(qiáng)大算力能夠支撐人工
智能的開展以及落地。
強(qiáng)大算力的加持,使人工智能有了更為廣闊的發(fā)展空間。例如,2019年8
月,人類在強(qiáng)大算力的支持下首次成功重建了果蠅大腦神經(jīng)元的3D模型。果
蠅一直以來都是生物學(xué)領(lǐng)域公認(rèn)的研究動(dòng)物,但為什么一直到2019年才建出
第一個(gè)果蠅大腦神經(jīng)元的3D模型呢?因?yàn)楣壍拇竽X有10萬多個(gè)神經(jīng)元,要
想建立一個(gè)完整的3D模型,需要強(qiáng)大的算力支持,而這個(gè)條件是先前并不具
備的。2019年,在谷歌、劍橋大學(xué)以及霍華德·修斯醫(yī)學(xué)研究所的合作下,研究人員將果蠅的大腦切割成7 042個(gè)40納米的超薄切片,并用透射電子顯微
鏡生成切片的圖像。這些圖像像素高達(dá)40萬億以上,數(shù)量共計(jì)2 100萬張。數(shù)
千塊谷歌開發(fā)的深度學(xué)習(xí)加速芯片Cloud TPU(Tensor Processing Unit)為
這些圖片數(shù)據(jù)的處理提供了算力,最終才生成了人類歷史上第一個(gè)果蠅大腦
神經(jīng)元的3D模型。
第四個(gè)要素是業(yè)務(wù)模式。
我們知道,人工智能要落地,必須在一個(gè)場(chǎng)景中去實(shí)踐它。例如,在金
融領(lǐng)域,傳統(tǒng)上我們的銀行機(jī)構(gòu)只對(duì)征信良好的用戶發(fā)放貸款,而征信記錄
不良的用戶就得不到相應(yīng)的貸款服務(wù)。單純使用人力去判斷一個(gè)用戶的信用
是件費(fèi)時(shí)費(fèi)力的事情,工作效率極其低下。但通過人工智能,我們能在很短
的時(shí)間內(nèi)對(duì)用戶的信用狀況進(jìn)行分析和判斷,決定是否向其提供貸款服務(wù)。
這樣不但減輕了銀行工作人員的工作負(fù)擔(dān),還提高了工作效率;谌斯ぶ
能迅速準(zhǔn)確且不知疲倦的特點(diǎn),它還能為更多更大的用戶人群提供貸款服
務(wù),擴(kuò)大業(yè)務(wù)范圍;谶@些人的大數(shù)據(jù),通過人工智能模型和算力,還能
對(duì)用戶的信用狀況進(jìn)行分級(jí),不但能夠判斷是否提供貸款,還能判斷向這個(gè)
用戶提供多少金額最合適。人工智能為金融機(jī)構(gòu)的工作提供了參考依據(jù),這
就是一種基于人工智能的業(yè)務(wù)模式。實(shí)際上,這樣的商業(yè)模式,把傳統(tǒng)的銀
行和金融機(jī)構(gòu)的業(yè)務(wù)模式推廣到了更大的用戶群,幫助我們實(shí)現(xiàn)了普惠金融
的理想。當(dāng)然,除此之外,人工智能還能運(yùn)用在更多的領(lǐng)域,還有更多的創(chuàng)
新業(yè)務(wù)模式。正是因?yàn)橛辛诉@些創(chuàng)新業(yè)務(wù)模式,人工智能才能順利地在各行
各業(yè)落地,幫助企業(yè)產(chǎn)出價(jià)值。如前所述,AI思維的基礎(chǔ)在于數(shù)據(jù),而核心在于模型,實(shí)現(xiàn)在于算力,應(yīng)用在于業(yè)務(wù)模式。只有大數(shù)據(jù)、模型、算力、業(yè)務(wù)模式這四個(gè)要素同時(shí)存
在,并行發(fā)展,人工智能的價(jià)值才能得以體現(xiàn),AI思維才算完整。這是從具
體要素角度對(duì)AI思維的闡述,下面我們從認(rèn)識(shí)論的角度展開對(duì)AI思維價(jià)值的
理解。
DIKW金字塔
認(rèn)識(shí)論是關(guān)于知識(shí)來源和知識(shí)判斷的理論,認(rèn)識(shí)論將人們的認(rèn)識(shí)過程定
義為DIKW金字塔,認(rèn)為認(rèn)識(shí)分為四個(gè)層次,如圖1-4所示,最底下一層是數(shù)據(jù)
( data ) , 數(shù) 據(jù) 上 面 是 信 息 ( information ) , 信 息 上 面 是 知 識(shí)
(knowledge),知識(shí)再上面是智慧(wisdom)。DIKW金字塔的名字就是取了
每一層的首字母組合而成的。在DIKW金字塔中,越靠下的層級(jí)包含的內(nèi)容就
越多,每往上一層,內(nèi)容就比下一層更加凝練,更富有價(jià)值。原始數(shù)據(jù)雖然
數(shù)量龐大,但有用的信息全都淹沒其中。信息是由數(shù)據(jù)加工處理而成,信息
在實(shí)踐中被升華提煉產(chǎn)生了知識(shí),而智慧又是對(duì)知識(shí)的凝聚總結(jié),它是金字
塔的塔尖,能夠長(zhǎng)久地影響人類。圖1-4 DIKW金字塔示意圖
需要強(qiáng)調(diào)的是,所謂信息,指的是根據(jù)業(yè)務(wù)需求處理好的有特定意義的
數(shù)據(jù)。從數(shù)據(jù)到信息的轉(zhuǎn)換是傳統(tǒng)信息處理中比較專注的領(lǐng)域,通過數(shù)據(jù)庫(kù)
系統(tǒng)和數(shù)據(jù)處理軟件,把相對(duì)粗糙的數(shù)據(jù)轉(zhuǎn)化為信息。而從數(shù)據(jù)和信息到知
識(shí),是AI思維所涉及的領(lǐng)域,這個(gè)轉(zhuǎn)化過程與數(shù)據(jù)庫(kù)運(yùn)算不同,因?yàn)樗皇?br/>
機(jī)械的數(shù)據(jù)規(guī)整和變換,而是通過人工智能完成的,是認(rèn)識(shí)層面一個(gè)巨大的
躍遷。
AI思維的關(guān)鍵在于生成知識(shí)。你可能會(huì)問,人工智能為什么產(chǎn)生的
是“知識(shí)”呢?首先我們要知道,知識(shí)就是人類對(duì)物質(zhì)世界以及精神世界探
索的結(jié)果總和,也就是對(duì)規(guī)律的總結(jié)。我們?cè)谇懊嬷v過,AI思維中的模型可
以類比人腦思維中的規(guī)律,也就是說,模型體現(xiàn)出來的就是知識(shí)本身。隨著
數(shù)據(jù)源源不斷地更新,模型體現(xiàn)出的知識(shí)也會(huì)不斷刷新,針對(duì)新的輸入產(chǎn)生
預(yù)測(cè),為我們的決策提供支持。
著名統(tǒng)計(jì)學(xué)家拉瑟福德·羅杰斯(Rutherford Rogers)曾說過:“我們
被淹沒在信息中,急切需要知識(shí)!被ヂ(lián)網(wǎng)的發(fā)展使我們突破了時(shí)間和空間
的限制,能夠獲得來自世界各地的信息。但在信息爆炸的今天,我們對(duì)信息
的獲取是呈平方數(shù)增長(zhǎng)的,在獲取大量信息的同時(shí),我們無法辨別哪些信息
是對(duì)的,哪些信息是有用的,產(chǎn)生了深深的“知識(shí)焦慮”。而現(xiàn)在人工智能
做的就是把大量無序的信息變成有用的知識(shí),緩解人們的“知識(shí)焦慮”。
AI思維帶來認(rèn)知化革命
在當(dāng)代,數(shù)據(jù)是一種重要資產(chǎn)。數(shù)據(jù)反映了事物的原理和規(guī)律,當(dāng)你找
到它的規(guī)律后,就可以去預(yù)測(cè)未來的事情。如果將數(shù)據(jù)比作原油,那么人工
智能就是從原油中提煉各種高價(jià)值產(chǎn)品的加工廠,它的重要性可見一斑。從
數(shù)據(jù)中發(fā)現(xiàn)知識(shí)、洞察和規(guī)律,這本身不是一個(gè)新的概念,幾百年前就有過
這樣的實(shí)踐——譬如說,開普勒從幾百頁(yè)關(guān)于天體位置的數(shù)據(jù)中,提煉并總
結(jié)出了天體運(yùn)動(dòng)的三定律,至今仍被使用,F(xiàn)在,在AI思維的幫助下,我們
借助大規(guī)模計(jì)算的方法,從海量的數(shù)據(jù)中自動(dòng)地學(xué)習(xí)知識(shí)和規(guī)律。那么,從
實(shí)際應(yīng)用的角度出發(fā),作為一個(gè)數(shù)據(jù)驅(qū)動(dòng)的決策框架,AI思維都帶來了哪些
價(jià)值?首先,數(shù)據(jù)驅(qū)動(dòng)的人工智能框架可以帶來個(gè)性化的體驗(yàn)。人工智能可以
根據(jù)用戶的歷史瀏覽記錄、成交記錄對(duì)用戶的喜好建立模型,得出各商品或
內(nèi)容和用戶喜好的相近程度,并把相近程度排行最高的商品或內(nèi)容推薦給用
戶。例如,當(dāng)我們進(jìn)入一些購(gòu)物網(wǎng)站,可能會(huì)發(fā)現(xiàn)許多這樣個(gè)性化的體驗(yàn),若你之前購(gòu)買過衣服,它可能會(huì)給你推薦其他的搭配商品,若你之前購(gòu)買過
圖書,它可能會(huì)給你推送同類型書單。數(shù)據(jù)驅(qū)動(dòng)下的人工智能框架帶來的個(gè)
性化體驗(yàn)讓網(wǎng)站不再千篇一律,網(wǎng)站給出的每一條推薦都是根據(jù)用戶需求調(diào)
整和優(yōu)化后得出的,真正實(shí)現(xiàn)了千人千面的精準(zhǔn)體驗(yàn)。對(duì)于用戶來說,這樣
省去了他們檢索的時(shí)間,還更加符合他們的需求,帶來了更好的用戶體驗(yàn),對(duì)于網(wǎng)站來說,這樣可以提高網(wǎng)站的瀏覽量、點(diǎn)擊率,還能提高商品的銷
量。此外,人工智能帶來的這種個(gè)性化體驗(yàn)也能為我們的生活提供更多的便
利,帶來更多的幸福感,例如現(xiàn)在的智能家居系統(tǒng),可以提供自動(dòng)控溫等貼
心服務(wù),提升了家居的安全性、便利性、舒適性,并且環(huán)保節(jié)能,讓你感覺
到這就是最適合你的,為你量身定做的家。
其次,數(shù)據(jù)驅(qū)動(dòng)的人工智能框架可以帶來細(xì)粒度的行業(yè)策略。行業(yè)策略
細(xì)粒度意味著企業(yè)的經(jīng)營(yíng)會(huì)更加精細(xì)化。例如,企業(yè)可以把一個(gè)產(chǎn)品的目標(biāo)
客戶群簡(jiǎn)單地劃分為一定年齡范圍的男性或女性,但這樣的客戶群劃分顯然
沒有針對(duì)性。利用數(shù)據(jù)驅(qū)動(dòng)的人工智能框架進(jìn)行目標(biāo)客戶群劃分,得到的結(jié)
果更加詳細(xì),比如我們不僅可以考慮基于年齡、性別這樣的因素,還可以交
叉考慮包含更多維度,例如興趣愛好、行為習(xí)慣等的目標(biāo)客戶群,從而得到
細(xì)粒度的營(yíng)銷策略。以視頻軟件芒果TV為例,為了提高視頻的點(diǎn)擊率,芒果
TV運(yùn)用人工智能來判斷向用戶推送視頻的類型和內(nèi)容。比如,追求放松娛樂
的白領(lǐng)一族會(huì)收到《快樂大本營(yíng)》的相關(guān)推送,喜愛燒腦解密的年輕人群會(huì)
看到《明星大偵探》的相關(guān)廣告。而隨著用戶觀看視頻數(shù)量的上升,人工智
能的推送方案也會(huì)更加個(gè)性化,細(xì)化到滿足每一個(gè)用戶的需求。與傳統(tǒng)方式
相比,人工智能提供的細(xì)粒度視頻推送方案為芒果TV提高了30%的點(diǎn)擊率,真
正實(shí)現(xiàn)了精細(xì)化運(yùn)營(yíng)。
最后,數(shù)據(jù)驅(qū)動(dòng)的人工智能框架可以帶來知識(shí)和洞察。我們?nèi)W(xué);蛘
從經(jīng)驗(yàn)中可以學(xué)習(xí)到知識(shí),而數(shù)據(jù)驅(qū)動(dòng)的人工智能框架可以賦予我們持續(xù)高
效地從數(shù)據(jù)中學(xué)習(xí)知識(shí)、挖掘洞察的能力。這些知識(shí)和洞察可能不是列在教
科書上的條條框框,但卻一定是從數(shù)據(jù)中實(shí)時(shí)地、最大體量同時(shí)也是最有效
獲取的,并能夠運(yùn)用于業(yè)務(wù)實(shí)踐中。例如美國(guó)哈佛大學(xué)地球與行星科學(xué)系的布倫丹·米德(Brendan Meade)教授團(tuán)隊(duì)通過深度學(xué)習(xí)分析了來自世界各地
的地震數(shù)據(jù)集,發(fā)現(xiàn)了余震發(fā)生的規(guī)律,在此基礎(chǔ)上開發(fā)了一套能夠預(yù)測(cè)余
震的智能系統(tǒng)。這套系統(tǒng)為避免余震二次傷害,順利進(jìn)行災(zāi)后救援和恢復(fù)工
作提供了很大的幫助。
AI思維不是捷徑,但它卻可以幫你更加快速地抓住事情的本質(zhì),找出用
戶的需求,洞察世事的發(fā)展,進(jìn)行準(zhǔn)確的預(yù)測(cè),產(chǎn)出更大的價(jià)值。這是科學(xué)
探索的目標(biāo)動(dòng)力,也是人類實(shí)踐的追求所在。
著名的科技思想家凱文·凱利(Kevin Kelly)說人工智能是認(rèn)知化。如
果說電力化帶來了人工的動(dòng)力,那么認(rèn)知化帶來了人工的智能。大量的實(shí)踐
表明,在感知方面,包括視覺、聽覺、語(yǔ)言理解等,人工智能可以接近人
腦。前文已經(jīng)提到過,現(xiàn)在的圖像識(shí)別錯(cuò)誤率已經(jīng)控制在5%,基本和人腦識(shí)
別錯(cuò)誤率持平;在專業(yè)決策方面,在海量數(shù)據(jù)的支持下,人工智能甚至可以
超越人腦。例如,在金融風(fēng)控領(lǐng)域,通過人工智能輸出模型的KS值(通常用
來衡量風(fēng)險(xiǎn)識(shí)別有效性的一個(gè)指標(biāo)),可以做到40%~50%甚至更高,有效地控
制住風(fēng)險(xiǎn)。基于人工智能的快速信貸審批,效果可以超越傳統(tǒng)的人工方法。
在傳統(tǒng)出版業(yè),一個(gè)編輯編輯一本書至少需要一個(gè)月的時(shí)間,但全球最大的
中文期刊網(wǎng)龍?jiān)雌诳_發(fā)了一個(gè)人工智能編輯平臺(tái)“知識(shí)樹”,它是一個(gè)能
夠根據(jù)定義內(nèi)容自動(dòng)編輯圖書的智能系統(tǒng),可以在一天之內(nèi)完成一本圖書的
編輯工作,極大地提高了圖書編輯工作的效率,縮短了圖書出版的周期。
AI思維是一種“數(shù)據(jù)驅(qū)動(dòng)決策”的思維,它不慫恿你去追逐虛無縹緲的
白日夢(mèng),而是教你學(xué)會(huì)用數(shù)據(jù)籌碼四兩撥千斤。不論你研究的是什么領(lǐng)域,從事的是什么職業(yè),通過AI思維,你都能從數(shù)據(jù)中理出頭緒,更加快速、直
接、準(zhǔn)確地預(yù)測(cè)出研究對(duì)象的行為或者結(jié)果。繩鋸木斷,水滴石穿,掌握了
以小博大的AI思維,你不但是一個(gè)夢(mèng)想家,也能成為一個(gè)真正創(chuàng)造價(jià)值的實(shí)
干家。
1. BAT即百度、阿里巴巴、騰訊。
2. 1EB=1 024PB=1 048 576TB=1 099 511 627 776MB。第二章
AI思維的底層邏輯
當(dāng)愛因斯坦說“上帝不擲骰子”的時(shí)候,他錯(cuò)了。鑒于黑洞給予我們的
暗示,上帝不僅擲骰子,而且往往將骰子擲到我們看不見的地方以迷惑我
們。
—《時(shí)間簡(jiǎn)史》—
本章旨在講清楚AI思維中的“法”,即法則和規(guī)律,也就是從數(shù)學(xué)規(guī)律
的角度,闡述AI思維的底層邏輯。AI思維,尤其是其核心——模型,是在數(shù)
學(xué)和統(tǒng)計(jì)算法基礎(chǔ)上發(fā)展起來的,必然受到數(shù)學(xué)和統(tǒng)計(jì)規(guī)律的制約。只有理
解了這些制約,才能理解人工智能與生俱來的局限性,只有了解了這些局限
性,我們才能揚(yáng)長(zhǎng)避短地使用AI思維,更好地享受人工智能給我們帶來的實(shí)
際價(jià)值。無論在日常生活還是在商業(yè)活動(dòng)中,我們知道,從來就沒有解決一
切問題的“銀彈”,任何事情都不能一蹴而就。社會(huì)對(duì)人工智能不切實(shí)際的
預(yù)期,多半來自對(duì)其底層邏輯的一知半解。很多時(shí)候大家沒有聽說過,也無
暇去理解人工智能實(shí)用性背后的法則。并且,在眾多的商業(yè)包裝下,人們?cè)?br/>
來越多地去追捧短平快的“成果”和高流量的媒體曝光,而不去關(guān)注支撐應(yīng)
用的基礎(chǔ)性邏輯。這種“知其然而不知其所以然”的做法,不會(huì)帶來長(zhǎng)遠(yuǎn)的發(fā)展,所以,在深入講述AI思維的“術(shù)”和“器”之前,我們必須先來理解
它的底層邏輯,任何想運(yùn)用AI思維解決實(shí)際問題的人都應(yīng)該知曉并從中獲得
啟發(fā)。模型的泛化能力
首先,我們來回顧一下AI思維。AI思維能夠幫助我們捕捉數(shù)據(jù)的本質(zhì)特
征,根據(jù)數(shù)據(jù)的特征形成模型。在新場(chǎng)景中針對(duì)新的輸入信息,模型就能做
出判斷、產(chǎn)生預(yù)測(cè)。模型使用的一大類場(chǎng)景是分類,也就是預(yù)測(cè)新的輸入所
對(duì)應(yīng)的類別。那么,什么是分類呢?如果我們手里有一張照片,你要做的是
判斷這種張照片里是否有動(dòng)物出現(xiàn),你通過眼睛獲得了這張照片的視覺特
征,這時(shí),你的大腦已經(jīng)下意識(shí)地做出了一個(gè)判斷、一個(gè)分類。這個(gè)問題的
回答結(jié)果就只能是“有”或者“沒有”,這是一種分類,叫作二分類問題。
但是并不是所有的分類都可以用是與否這樣一分為二的判斷來解決,還
有很多東西需要人們?nèi)シ直嫠鼘儆诙喾N類別中的哪一類。我們還是拿這張照
片舉例。當(dāng)你已經(jīng)判斷出這張照片里有一只小動(dòng)物后,你還需要判斷這是一
只什么動(dòng)物。你會(huì)根據(jù)這只動(dòng)物的體型、體毛、耳朵、眼睛、嘴巴等特征,判斷它是貓、狗、兔子,還是其他什么動(dòng)物。這也是一種分類,叫作多分類
問題。
在日常生活中,我們每個(gè)人都避免不了和他人對(duì)話,我們要說,要表
達(dá),也要聆聽、理解他人的話。其實(shí)我們識(shí)別對(duì)話中的聲音信號(hào),從中提取
所說的字和詞語(yǔ),也是一個(gè)分類的過程。商務(wù)印書館的《現(xiàn)代漢語(yǔ)詞典》是
目前較權(quán)威的大型現(xiàn)代漢語(yǔ)詞典,第7版收錄的詞將近7萬條,其中包括了
字、詞、短語(yǔ)、熟語(yǔ)、成語(yǔ)等。也就是說,在我們聆聽的時(shí)候,為了理解這
些聲音信號(hào)的意義,我們的大腦都在將它們中的片段分類成這些字或詞之
一,這就是一個(gè)多分類的過程。但是有的時(shí)候,我們也會(huì)混淆一些讀音比較
相近的詞,比如說“建議”和“堅(jiān)毅”、“升起”和“盛氣”,這說明人腦
的分類也不是完美無瑕的。
我們的視覺要對(duì)看見的東西進(jìn)行分類,我們的聽覺要對(duì)聽見的東西進(jìn)行
分類,我們的味覺要對(duì)嘗到的東西進(jìn)行分類……感官的分類可以幫助我們更
加完整地認(rèn)識(shí)這個(gè)世界。可見,對(duì)外界事物的分類能力是人們認(rèn)知的重要組
成部分,可以說,每時(shí)每刻我們都在對(duì)現(xiàn)實(shí)世界中的輸入信號(hào)做出分類,分
類的準(zhǔn)確與否直接影響我們生活和工作中決策的質(zhì)量和效果。正如人一樣,分類也是人工智能進(jìn)行感知和認(rèn)知的重要工具。在機(jī)場(chǎng)部
署的人工智能模型可以識(shí)別出通過安檢的人是否和證件上的照片一致,刷臉
打卡的人工智能模型也在很多機(jī)構(gòu)運(yùn)用起來,無須戴工卡便可知道人的身
份,許多手機(jī)的刷臉支付功能可以識(shí)別出你是否是該手機(jī)的主人來決定是否
支付,極大地提高了資金的安全性。在語(yǔ)音識(shí)別領(lǐng)域,主流的人工智能識(shí)別
模型對(duì)常見詞語(yǔ)輸入分類的準(zhǔn)確率已超過97%。除了感知圖像、聲音領(lǐng)域,人
工智能模型的分類還可以用在更多的場(chǎng)景,做出人類都難以達(dá)到的準(zhǔn)確預(yù)
測(cè)。例如,在營(yíng)銷領(lǐng)域,人工智能模型需要預(yù)測(cè)客戶的喜好度和傾向性等,相當(dāng)于對(duì)未知客戶行為的分類。在金融信貸領(lǐng)域,人工智能模型能對(duì)客戶的
風(fēng)險(xiǎn)進(jìn)行評(píng)級(jí),也就是對(duì)客戶將來風(fēng)險(xiǎn)度的預(yù)測(cè),從而將客戶分為高風(fēng)險(xiǎn)和
低風(fēng)險(xiǎn)客戶,并輔以不同的策略?梢哉f,通過分類,許多常見的問題都可
以在人工智能的分類框架下進(jìn)行考慮。
分類模型的數(shù)學(xué)基礎(chǔ)
向量指一個(gè)同時(shí)具有大小和方向,且滿足平行四邊形法則的幾何對(duì)象,如圖2-1所示。簡(jiǎn)單地說,向量是有序的數(shù)字列表。人工智能中用到的數(shù)據(jù)一
般是以向量的形式表示的。按一定的次序排列在一起的變量(x1,x2…
xn),依次表示事物的各種特征。舉個(gè)例子,我們打算用過去一年在服裝、飲食、住房、出行、健身、娛樂、美容、奢侈品這8個(gè)類別的消費(fèi)金額來研究
一個(gè)人的消費(fèi)習(xí)慣。那么,這8個(gè)數(shù)字構(gòu)成了一個(gè)八維的向量:(x1,x2,x3,x4,x5,x6,x7,x8),其中每一個(gè)變量對(duì)應(yīng)了一個(gè)類別的消費(fèi)金額。
不同類型的人,上述向量的數(shù)值也不同,美食愛好者的x2有比較高的數(shù)值,高消費(fèi)地區(qū)的租房客的x3會(huì)比較高,注重外貌容顏的人x7比較高……圖2-1 向量示意圖
這里面的每一個(gè)變量叫作向量的一個(gè)維度,人工智能中的向量也常被叫
作特征向量,因?yàn)樗枋隽耸挛锏奶卣。要注意的是,向量中變量是按照?br/>
定順序排列的,順序變了,向量也就變了。我們舉例的向量只有八維,是一
個(gè)簡(jiǎn)化的例子,在現(xiàn)實(shí)中,人工智能處理的向量通常是高維的,在商業(yè)應(yīng)用
中可以達(dá)到上百維、上千維甚至更多,在處理基因數(shù)據(jù)時(shí),可以達(dá)到百萬維
以上。正因?yàn)槿斯ぶ悄芸梢岳斫飧呔S度的向量,而不是像人腦一樣只能分析
少數(shù)幾個(gè)變量,所以人工智能會(huì)給我們帶來更深入、更有效的知識(shí)和洞察。
在數(shù)學(xué)上,分類要做的是,將一個(gè)預(yù)測(cè)函數(shù)作用在個(gè)體的特征向量上,得到想要的輸出結(jié)果。如前所述,人工智能中個(gè)體的數(shù)據(jù)是以向量形式來表
示的。以圖片識(shí)別為例,為了識(shí)別圖片中的物體種類,首先我們要建立一個(gè)
預(yù)測(cè)函數(shù)f,預(yù)測(cè)函數(shù)f作用在圖片的特征向量x上,得到一個(gè)類別f(x),比
如說“小貓”“小狗”或者“兔子”。當(dāng)然,在現(xiàn)實(shí)中的圖片識(shí)別應(yīng)用中,人工智能可以識(shí)別出任意類別物體的圖片。
這個(gè)看似簡(jiǎn)單的過程其實(shí)是非常強(qiáng)大和靈活的,基本上所有人工智能分
類的過程都可以抽象成這樣,其中預(yù)測(cè)的目標(biāo)是跟具體業(yè)務(wù)相關(guān)、需要提前
獲知的信息。就像之前提到的億客行案例一樣,網(wǎng)站需要預(yù)測(cè)一個(gè)訪客的價(jià)
值高低。如果我們可以準(zhǔn)確地識(shí)別一個(gè)訪客是否具有高購(gòu)買的可能性,并將
其應(yīng)用于電商領(lǐng)域,根據(jù)訪客價(jià)值定制營(yíng)銷策略,就能取得優(yōu)秀的阿爾法。讓我們來看看如何設(shè)計(jì)高價(jià)值用戶預(yù)測(cè)的分類模型。首先,我們需要收
集歷史上具有高價(jià)值或者低價(jià)值客戶的標(biāo)記,以及各自行為的特征向量。這
個(gè)分類問題的目標(biāo)是將任何一個(gè)新的訪客分為兩類之一。所謂高價(jià)值、低價(jià)
值就是看客戶一定時(shí)間里在網(wǎng)站的購(gòu)買額度,超過一定金額的定為高價(jià)值客
戶,反之則是低價(jià)值客戶。這樣,我們有了模型訓(xùn)練所需的數(shù)據(jù)集,可以根
據(jù)這些數(shù)據(jù)訓(xùn)練的模型預(yù)測(cè)一個(gè)網(wǎng)站訪客價(jià)值的高低,即使之前他沒有在網(wǎng)
站上消費(fèi)過。既然這個(gè)模型的作用這么大,那么我們接下來就具體看一下,它是如何被訓(xùn)練出來的,又是如何進(jìn)行預(yù)測(cè)的。
模型的訓(xùn)練和預(yù)測(cè)
在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)是產(chǎn)生模型的途徑和方法論。和我們的學(xué)習(xí)
一樣,分類問題的機(jī)器學(xué)習(xí)框架也分為訓(xùn)練和預(yù)測(cè)這兩個(gè)最基本的環(huán)節(jié)。
訓(xùn)練環(huán)節(jié)中需要給定一個(gè)訓(xùn)練集,通過訓(xùn)練集中的標(biāo)記樣本{(x1,y1),…,(xN,yN)}訓(xùn)練出一個(gè)預(yù)測(cè)函數(shù)f,也就是我們的預(yù)測(cè)模型。標(biāo)
記樣本是由第1個(gè)到第N個(gè)輸入數(shù)據(jù)x以及與其相對(duì)應(yīng)的輸出數(shù)據(jù)y組成的。在
預(yù)測(cè)環(huán)節(jié)中,我們要對(duì)在訓(xùn)練環(huán)節(jié)中形成的預(yù)測(cè)模型輸入一個(gè)新樣本x,使用
f輸出預(yù)測(cè)值y=f(x)。需要注意的是,在訓(xùn)練環(huán)節(jié)中,由于樣本是給定的,所以樣本的標(biāo)記是已知的,但在預(yù)測(cè)環(huán)節(jié)中,使用的都是新數(shù)據(jù),所以樣本
的標(biāo)記是未知的。
任何分類模型都要經(jīng)過這兩個(gè)環(huán)節(jié)。在訓(xùn)練環(huán)節(jié)中,機(jī)器通過分析訓(xùn)練
集學(xué)習(xí)模型,發(fā)現(xiàn)其中的規(guī)律,并以預(yù)測(cè)模型f的形式產(chǎn)出。在預(yù)測(cè)環(huán)節(jié)中,碰到新的樣本,即使模型先前沒有見過這個(gè)樣本,仍然能夠輸出相應(yīng)的分
類。正如人的思維方法是從經(jīng)驗(yàn)中學(xué)習(xí)規(guī)律,人工智能通過訓(xùn)練環(huán)節(jié)從數(shù)據(jù)
中學(xué)習(xí)模型。訓(xùn)練環(huán)節(jié)使用了何種模型,以及模型訓(xùn)練的質(zhì)量,決定了模型
的有效性,其中最重要的指標(biāo)是模型在新樣本上的預(yù)測(cè)效果。
如果一個(gè)模型能夠?qū)π聵颖具M(jìn)行有效的預(yù)測(cè),就可以在實(shí)際使用中產(chǎn)生
效益。比如,一個(gè)模型成功地預(yù)測(cè)了某位用戶購(gòu)買某款商品的概率為80%,那
么商家可以積極地向該用戶推送自家的該商品,用戶經(jīng)常接收到自己喜歡的
商品的信息,下單的概率也會(huì)有所上升。成功地預(yù)測(cè)出用戶是否會(huì)購(gòu)買,幫
助商家提高銷量,這樣的模型才是有實(shí)際意義的。泛化能力是模型的核心
一個(gè)模型能帶來多大的價(jià)值,取決于模型預(yù)測(cè)的準(zhǔn)確率有多高。而模型
預(yù)測(cè)的準(zhǔn)確率又依賴于模型的泛化能力(generalization ability)。也就
是說,在一定程度上,模型的泛化能力決定了一個(gè)模型最終能迸發(fā)出多大的
能量。那么泛化能力到底是什么呢?
泛化能力是用來描述模型對(duì)新樣本的預(yù)測(cè)能力的。我們?cè)谌粘I钪幸?br/>
稱之為舉一反三或?qū)W以致用的能力。機(jī)器學(xué)習(xí)的目的是學(xué)到隱含在數(shù)據(jù)背后
的規(guī)律,對(duì)具有同一規(guī)律、訓(xùn)練集以外的數(shù)據(jù),模型也能給出合適的預(yù)測(cè)。
這就是泛化能力的表現(xiàn)。
泛化能力體現(xiàn)了模型智能水平的高低,如果一個(gè)模型只在訓(xùn)練數(shù)據(jù)上能
準(zhǔn)確地分類,作用是很小的,因?yàn)檫@充其量是模型“記住”了各種輸入和對(duì)
應(yīng)的類別,在新的場(chǎng)景中沒有辦法做出準(zhǔn)確預(yù)測(cè)。
在進(jìn)一步講泛化之前,我想先講一個(gè)故事。我有一對(duì)情侶朋友,女生是
一個(gè)中國(guó)姑娘,叫郭霓禾,男生是英國(guó)人,叫安德費(fèi)汀。郭霓禾是一個(gè)牙科
醫(yī)生,她診病的程序十分煩瑣,一個(gè)簡(jiǎn)單的牙疼,她會(huì)給病人量體溫、測(cè)視
力、檢查血壓,有時(shí)甚至還要檢查心電圖,除此之外,她還會(huì)詢問病人一些
無關(guān)的信息,比如身高、體重以及最近吃過什么。她飽讀各種醫(yī)學(xué)類書籍,還研究過各種偏方,最后再結(jié)合她的臨床經(jīng)驗(yàn),總結(jié)出一些獨(dú)特的治病規(guī)
律。如果一個(gè)新的病人的所有指標(biāo)符合她總結(jié)出來的規(guī)律,她才能判斷這個(gè)
人的患病情況,如果情況不符合,她就無法做出判斷。比如有一次一個(gè)病人
牙疼,經(jīng)過檢查和詢問,她發(fā)現(xiàn)這個(gè)病人體溫37℃,視力0.8,身高1.7米,體重70千克,是在吃了西紅柿之后智齒開始發(fā)炎。于是她就總結(jié)出一個(gè)體溫
37℃、視力0.8、身高1.7米、體重70千克的人會(huì)在吃了西紅柿之后引發(fā)智齒
發(fā)炎的規(guī)律。剛剛好,安德費(fèi)汀也符合這幾個(gè)條件,有一次安德費(fèi)汀智齒也
發(fā)炎了,但因?yàn)榘驳沦M(fèi)汀沒有吃西紅柿,郭霓禾認(rèn)為他不符合自己總結(jié)出的
規(guī)律,診斷安德費(fèi)汀的牙疼不是因?yàn)橹驱X發(fā)炎引起的。而安德費(fèi)汀是一個(gè)股
票投資分析師,對(duì)于自己的經(jīng)驗(yàn)和能力十分自信,他認(rèn)為憑借自己的經(jīng)驗(yàn),只需要看一下股票的走勢(shì),就可以判斷一只股票到底是應(yīng)該買入還是賣出。
他根本不考慮政策、大盤環(huán)境、主力資金進(jìn)出等變化因素,每天只看一下電腦屏幕上股票的漲跌狀況就做決定。這樣的判斷顯然十分不科學(xué),導(dǎo)致了他
的大部分積蓄都被套牢在股市。
郭霓禾和安德費(fèi)汀兩個(gè)人都各有特點(diǎn)。郭霓禾對(duì)待事情很認(rèn)真,看事情
很全面,但是由于她顧及的事情太多太細(xì),有時(shí)可能會(huì)過度重視一些無關(guān)緊
要的特質(zhì),總結(jié)出一些沒有作用的規(guī)律,比如那些奇怪的指標(biāo)與智齒發(fā)炎其
實(shí)并沒有關(guān)系,只是那個(gè)病人剛好在智齒發(fā)炎前是那樣的身體狀態(tài),剛好吃
了西紅柿,這樣過度關(guān)注無關(guān)因素反而妨礙了病因的評(píng)估。安德費(fèi)汀則正好
相反,他看事情太片面,沒有綜合考慮影響股市漲跌的因素,導(dǎo)致他的判斷
和股市的實(shí)際情況產(chǎn)生了很大的偏差,成為被迫割肉那一批人。
故事講完了,我想告訴你,郭霓禾和安德費(fèi)汀其實(shí)都是我虛構(gòu)的朋友,他們的名字其實(shí)就是過擬合(overfi tting)與欠擬合(underfi tting)的
諧音。過擬合和欠擬合是兩類統(tǒng)計(jì)學(xué)現(xiàn)象,有這兩種現(xiàn)象的模型,不具備良
好的泛化能力。
在統(tǒng)計(jì)模型中,由于模型太過復(fù)雜而擬合了訓(xùn)練樣本中的噪聲,以至于
輸出的結(jié)果與真實(shí)值相差很大,就像郭霓禾診斷病人一樣,這就是過擬合。
欠擬合則剛好相反,是由于模型過于簡(jiǎn)單,以至于得到的模型難以擬合訓(xùn)練
數(shù)據(jù),就像安德費(fèi)汀沒有考慮到影響股市的其他因素,而導(dǎo)致判斷錯(cuò)誤。
我們總是希望在機(jī)器學(xué)習(xí)訓(xùn)練時(shí),機(jī)器學(xué)習(xí)模型能在新樣本上有很好的
表現(xiàn)。過擬合時(shí),模型過于復(fù)雜,把訓(xùn)練樣本學(xué)得過分好了,就很可能把一
些訓(xùn)練樣本自身的特性當(dāng)成所有潛在樣本的共性。這樣一來,模型的泛化性
能就下降了。欠擬合時(shí),模型又過于簡(jiǎn)單,無法很好地學(xué)到訓(xùn)練樣本的一般
性質(zhì),所以不論在訓(xùn)練數(shù)據(jù)還是預(yù)測(cè)數(shù)據(jù)中,表現(xiàn)都很差。
過擬合就是過多學(xué)習(xí)了一些不必要的數(shù)據(jù)特征。比如你的模型需要區(qū)分
男人和女人,模型學(xué)習(xí)了訓(xùn)練樣本中所有男人和女人的特征。如果訓(xùn)練樣本
中的女人剛好都穿了紅色的衣服,過擬合的模型就可能會(huì)把穿紅色衣服作為
區(qū)分男人和女人的一個(gè)特征。我們都知道,穿什么顏色的衣服并不能作為區(qū)
分人的一個(gè)特征,這時(shí)模型學(xué)習(xí)的這個(gè)特征就屬于過度學(xué)習(xí)。過度學(xué)習(xí)不僅
毫無作用,甚至還會(huì)對(duì)模型的預(yù)測(cè)結(jié)果產(chǎn)生誤導(dǎo),比如出現(xiàn)了一個(gè)新的預(yù)測(cè)
樣本,是一個(gè)穿紅色衣服的男人,模型很有可能會(huì)根據(jù)他穿了紅色衣服這個(gè)
特征就把他識(shí)別為女人。欠擬合與過擬合正好相反,它對(duì)于訓(xùn)練樣本的特征
學(xué)習(xí)得不夠充分,導(dǎo)致訓(xùn)練出來的模型不能很好地進(jìn)行預(yù)測(cè)。而且,由于欠擬合的模型沒能很好地捕捉到數(shù)據(jù)特征,它不但不能對(duì)新的樣本數(shù)據(jù)進(jìn)行預(yù)
測(cè),在訓(xùn)練集中的樣本數(shù)據(jù)時(shí)表現(xiàn)也不是很好。比如你要參加一場(chǎng)考試,考
試前做了許多模擬題,發(fā)現(xiàn)有一些知識(shí)點(diǎn)你還不明白,在模擬題中你有部分
題目做不出來,這就是沒有很好地掌握訓(xùn)練樣本的規(guī)律。當(dāng)你要對(duì)新樣本進(jìn)
行預(yù)測(cè)時(shí),也就是當(dāng)你去參加這場(chǎng)考試時(shí),考試結(jié)果也不會(huì)很好。不論是過
擬合還是欠擬合,都會(huì)使模型不能很好地輸出預(yù)測(cè)結(jié)果,所以,在機(jī)器學(xué)習(xí)
中,這兩種現(xiàn)象都是需要極力避免的。
圖2-2形象地展示了擬合的幾種情況。我們有一些數(shù)據(jù)樣本,大致呈二次
函數(shù)形式,可以看出,用二次函數(shù)來做擬合最合適的是圖2-2中間的圖像。但
是如果我們不采用二次函數(shù)呢?比如,我們用線性的函數(shù)來擬合它,我們可
以得到如圖2-2中左圖的直線,這顯然沒有很好地?cái)M合訓(xùn)練樣本數(shù)據(jù),更不用
說預(yù)測(cè)數(shù)據(jù)了。我們用高次函數(shù)來擬合,可能會(huì)得到如圖2-2右圖那樣的曲
線,顯然,這并不是我們想要的模型,它把個(gè)別數(shù)據(jù)的偶然偏離也當(dāng)成了共
性,而過度擬合了進(jìn)去。
圖2-2 函數(shù)擬合示意圖
通常,解決欠擬合的方法包括:(1)增加新特征,也可以考慮加入特征
各種形式的組合,來增大模型可操作的空間;(2)嘗試非線性模型,比如非
線性支持向量機(jī)(SVM)、決策樹、深度神經(jīng)網(wǎng)絡(luò)(DNN)等模型。
解決過擬合的方法包括:(1)交叉檢驗(yàn),即拿出大部分樣本進(jìn)行模型訓(xùn)
練,留小部分樣本用模型進(jìn)行預(yù)測(cè),并通過調(diào)節(jié)這小部分樣本上的預(yù)測(cè)誤差
來得到較優(yōu)的模型參數(shù);(2)特征選擇,從已有特征中選擇部分特征以減少
模型所用特征數(shù);(3)正則化,即為原始模型引入額外信息來限制模型的復(fù)
雜度;(4)增加訓(xùn)練數(shù)據(jù)在一定程度上可以避免過擬合。真正的泛化能力需要回避過擬合和欠擬合,一個(gè)好的模型必須真正把握
數(shù)據(jù)的底層規(guī)律,既不比數(shù)據(jù)本身復(fù)雜,也不比數(shù)據(jù)本身簡(jiǎn)單。人工智能行
業(yè)的趨勢(shì)是要用越來越復(fù)雜的模型來嘗試做出更好的泛化效果,這需要我們
更加謹(jǐn)慎地看待:如果訓(xùn)練數(shù)據(jù)量不夠多,或者并不支持復(fù)雜的模型假設(shè),那么,很有可能我們只是在過擬合,而不是在產(chǎn)出優(yōu)質(zhì)可泛化的模型。什么
樣的模型既不過擬合,也不欠擬合,是運(yùn)用AI思維時(shí)需要考慮的核心問題。方差和偏差的權(quán)衡
我想大家都聽說過差不多先生的故事。差不多先生做什么事情都是馬馬
虎虎,差不多就好,但是最后差不多先生就因?yàn)檫@差一點(diǎn)的“差不多”害死
了自己。我想,誰(shuí)都不想“差一點(diǎn)”,包括人工智能。當(dāng)機(jī)器學(xué)習(xí)建立了一
個(gè)模型,當(dāng)然希望這個(gè)模型有很好的預(yù)測(cè)效果,但是很多時(shí)候我們發(fā)現(xiàn),這
個(gè)模型還是差一點(diǎn),它在預(yù)測(cè)方面會(huì)出現(xiàn)或多或少的問題。而這個(gè)“差一
點(diǎn)”的問題很多時(shí)候是出在“偏差”和“方差”這兩個(gè)方面。并且在實(shí)踐中
我們發(fā)現(xiàn),這個(gè)“差一點(diǎn)”是可以彌補(bǔ)的,只要權(quán)衡好偏差和方差之間的關(guān)
系,就能夠幫助我們更好地運(yùn)用AI思維解讀數(shù)據(jù)。那么,什么是偏差,什么
是方差呢?我們?nèi)绾尾拍軝?quán)衡好偏差和方差之間的關(guān)系呢?
偏差和方差概述
在機(jī)器學(xué)習(xí)中,機(jī)器從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到模型。任何有監(jiān)督的機(jī)器學(xué)習(xí)
的目標(biāo)都是在給定訓(xùn)練數(shù)據(jù)的情況下,對(duì)輸入變量和輸出變量之間的映射關(guān)
系(下文稱為“真實(shí)函數(shù)”)進(jìn)行最佳估算。既然是估算,肯定就會(huì)有誤
差。通常,機(jī)器學(xué)習(xí)的預(yù)測(cè)誤差可分為三部分:偏差、方差以及不可減少的
誤差。其中,不可減少的誤差是無論采用什么模型都不可能被減少的誤差,因?yàn)檫@種誤差是由未知變量引起的。比如一個(gè)預(yù)測(cè)用戶是否會(huì)買車的模型能
根據(jù)用戶的收入、職業(yè)、年齡、家庭狀況等一系列數(shù)據(jù)進(jìn)行預(yù)測(cè),但是這個(gè)
預(yù)測(cè)不一定完全精準(zhǔn)。因?yàn)橐粋(gè)用戶是否會(huì)買車不只會(huì)受這些變量的影響,還會(huì)受生活方式等的影響,而像生活方式這樣的變量通常是不可知的,因此
這種誤差是不可減少的,但是,偏差和方差是可以通過機(jī)器學(xué)習(xí)模型進(jìn)行影
響的。
偏差描述的是在使用不同的訓(xùn)練數(shù)據(jù)時(shí),預(yù)測(cè)值的平均值與真實(shí)值之間
的差距,即模型本身的精準(zhǔn)度,反映的是模型本身的擬合能力。偏差的產(chǎn)生
是因?yàn)闉榱耸拐鎸?shí)函數(shù)更容易學(xué)習(xí),而對(duì)模型的假設(shè)做了簡(jiǎn)化。偏差高意味
著模型是欠擬合的。方差衡量的是在使用不同的訓(xùn)練數(shù)據(jù)時(shí),真實(shí)函數(shù)的估算值所改變的
量,也就是預(yù)測(cè)值的波動(dòng)情況,它反映的是模型的穩(wěn)定性。方差的產(chǎn)生是因
為為了使模型的預(yù)測(cè)結(jié)果更加符合真實(shí)數(shù)據(jù),而對(duì)模型提出了更加復(fù)雜的假
設(shè)。方差高意味著模型是過擬合的。
下面我們用一個(gè)更直觀的例子來說明一下偏差和方差。假如有一個(gè)視力
不好的人想要學(xué)習(xí)射擊,那么他不管練習(xí)多少次,也不能打中靶心。但是如
果這個(gè)人的視力很好,對(duì)環(huán)境的敏感度很高,瞄準(zhǔn)時(shí)還能考慮到風(fēng)速、風(fēng)向
等環(huán)境因素,那么經(jīng)過訓(xùn)練后,他就很容易打中靶心。如果我們此時(shí)給他換
一個(gè)環(huán)境,而他不能迅速適應(yīng)這個(gè)環(huán)境的話,他的射擊也不會(huì)有之前那樣高
的命中率。
在這個(gè)例子中,靶心代表的是真實(shí)值,若這個(gè)人視力不好,他的擬合能
力相對(duì)而言就不高,無論怎么練習(xí)都不能很好地命中靶心,也就是預(yù)測(cè)值和
真實(shí)值之間存在差距,產(chǎn)生了偏差。假如這個(gè)人視力沒有問題,而且他能夠
根據(jù)環(huán)境因素來改變射擊的方式以此來提高命中靶心的概率,也就是為了使
輸出更好地符合真實(shí)值,而提出了更多的條件假設(shè),但是他又沒有完全掌握
這種方式,環(huán)境一發(fā)生變化他的命中率就會(huì)下降,這就說明了提出的假設(shè)越
多,穩(wěn)定性就越低,就越容易產(chǎn)生方差。
在圖2-3中,第一行的兩個(gè)靶,射擊的痕跡都十分靠近靶心,說明其擬合
能力比較好,也就是偏差;第一列的兩個(gè)靶,射擊的痕跡都十分集中,這
說明其穩(wěn)定性非常好,也就是方差小。圖2-3 偏差與方差示意圖
在數(shù)學(xué)領(lǐng)域有一個(gè)概念叫作“參數(shù)”。在研究問題時(shí),我們經(jīng)常會(huì)在模
型中引入一些變量來描述數(shù)據(jù)的變化,這些變量就是參數(shù)。一般來說,在機(jī)
器學(xué)習(xí)中,參數(shù)化的模型會(huì)有相對(duì)較高的偏差,這樣它們學(xué)習(xí)起來很快,也
更容易理解,但是高偏差就意味著它對(duì)模型做了很多的假設(shè),在訓(xùn)練過程
中,不是每個(gè)數(shù)據(jù)都可以完美擬合,因此,這個(gè)模型就不那么靈活。反之,如果這個(gè)模型對(duì)真實(shí)函數(shù)提出的假設(shè)很少,那么這個(gè)模型的偏差就很低,幾
乎能擬合每一個(gè)數(shù)據(jù),但是這樣的模型近乎一種對(duì)數(shù)據(jù)的記錄,預(yù)測(cè)性能就
不足了。低偏差機(jī)器學(xué)習(xí)模型的例子包括:決策樹、K-最近鄰和支持向量
機(jī)。高偏差機(jī)器學(xué)習(xí)模型的例子包括:線性回歸、線性判別分析和邏輯回
歸。
用機(jī)器學(xué)習(xí)模型是通過訓(xùn)練數(shù)據(jù)來對(duì)真實(shí)函數(shù)進(jìn)行估算,模型或多或少
都會(huì)產(chǎn)生一定的方差。理想情況是,訓(xùn)練數(shù)據(jù)集的改變對(duì)真實(shí)函數(shù)的估算結(jié)
果不會(huì)產(chǎn)生很大影響,這意味著該模型能夠很好地計(jì)算出輸入和輸出變量之
間隱藏的底層映射。如果模型的方差過高,訓(xùn)練數(shù)據(jù)對(duì)其產(chǎn)生的具體影響明
顯,那么訓(xùn)練的細(xì)節(jié)就會(huì)較大地影響到描述映射函數(shù)的具體參數(shù)。如果模型
的方差較低,訓(xùn)練數(shù)據(jù)對(duì)其產(chǎn)生的具體影響很小,那么訓(xùn)練的細(xì)節(jié)對(duì)描述映
射函數(shù)的具體參數(shù)的影響也會(huì)很小。泛化誤差:偏差和方差的權(quán)衡
任何有監(jiān)督的機(jī)器學(xué)習(xí)模型的目標(biāo)都是做到低偏差和低方差,也就是說
該模型應(yīng)達(dá)到很好的預(yù)測(cè)性能。但是在機(jī)器學(xué)習(xí)中,偏差和方差二者又不可
兼得,偏差減少必將增加方差,方差減少必將增加偏差。造成這種現(xiàn)象的原
因是,當(dāng)我們想要盡量減少模型的偏差時(shí),我們就會(huì)盡可能多地保證模型在
訓(xùn)練樣本上的準(zhǔn)確度,但是這樣學(xué)習(xí)出的模型就會(huì)過度擬合,反而降低了其
預(yù)測(cè)能力,增加了模型的不確定性,也就是方差增加了;相反,我們?cè)谧非?br/>
模型的低方差時(shí),會(huì)增加許多對(duì)模型的假設(shè)和限制,雖然這提高了模型的穩(wěn)
定性,但是忽視了擬合程度,偏差也隨之提高了。所以為了模型能夠擁有更
好的預(yù)測(cè)能力,我們需要權(quán)衡偏差和方差的關(guān)系。
我們通過在具體情況下選擇模型的復(fù)雜度來達(dá)到偏差和方差的權(quán)衡,尋
找這個(gè)權(quán)衡的過程就叫作泛化誤差的優(yōu)化。研究發(fā)現(xiàn),模型的泛化誤差可以
通過偏差的平方、方差以及不可減少的誤差相加而得出:
模型的泛化誤差=偏差2
+方差+不可減少的誤差
模型的泛化誤差還可以通過更加形象的方式來表示,如圖2-4所示,隨著
模型復(fù)雜程度的上升,模型的偏差越小,方差越大,圖2-4中最上方的那條
線,表示的就是模型的泛化誤差。我們要找的方差和偏差的最佳權(quán)衡點(diǎn)就是
圖中虛線所在之處,此時(shí)模型的復(fù)雜程度處于最佳狀態(tài),模型的泛化能力最
好。圖2-4 模型的泛化誤差示意圖
我們從圖2-4中可以很容易地發(fā)現(xiàn),偏差和方差之間是存在沖突的。雖然
大多數(shù)情況下,我們不能計(jì)算實(shí)際的偏差和方差項(xiàng),但是對(duì)偏差和方差的把
握為模型預(yù)測(cè)性能的優(yōu)化提供了思維框架。
模型的復(fù)雜度:VC維度
前面我們講到,模型的偏差和方差與模型的復(fù)雜度是有關(guān)系的。模型的
偏差會(huì)隨著模型復(fù)雜度的上升而下降,而模型的方差會(huì)隨著模型復(fù)雜度的上
升而上升。那我們是怎么來定義和量化一個(gè)模型的復(fù)雜度的呢?為了定義和
量化一個(gè)模型的復(fù)雜度,我們引入一個(gè)新的概念:VC維度(Vapnik-
Chervonenkis Dimension)。VC維度是根據(jù)提出者統(tǒng)計(jì)學(xué)家弗拉基米爾·萬
普尼克(VladimirVapnik)和數(shù)學(xué)家亞歷克塞·澤范蘭杰斯(Alexey
Chervonenkis)的名字來命名的。大自然的智慧是無窮的,它賦予我們聰慧的大腦,也在冥冥之中提示我
們尋找規(guī)律,讓我們首先從大自然的角度來理解VC維度。海豚經(jīng)過訓(xùn)練可以
打乒乓球、鉆火圈,被稱為世界上最聰明的動(dòng)物,海豚大腦的重量占海豚體
重的1.7%。平時(shí)我們總會(huì)用“蠢萌”這個(gè)詞來形容的狗,它的大腦重量?jī)H占
它體重的0.8%。經(jīng)過對(duì)多種動(dòng)物大腦重量占它體重比例的研究以及這些動(dòng)物
日常表現(xiàn)的觀察,科學(xué)家們提出,大腦重量占體重的比重越大的動(dòng)物越聰
明。人類大腦的重量占人體重的2.1%,是地球上所有生物中占比最大的,這
也充分證明了上述觀點(diǎn)。大腦占的比重越大,說明腦細(xì)胞相對(duì)就越多,也就
是大腦的復(fù)雜度越高。如果從VC維度的角度來看,大腦的VC維度越高,就越
聰明。
接下來,讓我們從理論的角度來了解一下VC維度。首先我們需要了解一
下分類器。分類是AI思維考慮的重要問題:比如我們要將顧客分為高購(gòu)買價(jià)
值和低購(gòu)買價(jià)值兩類,以此來決定我們的精準(zhǔn)營(yíng)銷方案。在人工智能中,這
些數(shù)據(jù)的分類是通過分類器進(jìn)行的,而分類器的復(fù)雜程度取決于它能夠準(zhǔn)確
分類的數(shù)據(jù)的多少。假如現(xiàn)在要用分類器為一組數(shù)據(jù)點(diǎn)分類,那么這種分類
器的VC維度的定義就是:對(duì)于每個(gè)可能的數(shù)據(jù)點(diǎn)的標(biāo)記,單個(gè)分類器可最多
分類的數(shù)據(jù)點(diǎn)個(gè)數(shù)。但是需要注意的是,這里有一個(gè)隱含條件,就是不要求
對(duì)在同一直線上的點(diǎn)分類。比如:如圖2-5中前三張圖所示,在二維空間上,一個(gè)線性分類器的VC維度是3,因?yàn)樗梢詫?duì)任意三個(gè)點(diǎn)進(jìn)行準(zhǔn)確分類,無論
它們?nèi)绾闻帕。但是如圖2-5中第四張圖所示,單個(gè)線性分類器無法對(duì)四個(gè)點(diǎn)
進(jìn)行準(zhǔn)確分類,即使它們不共線。
圖2-5 二維空間線性分類器示意圖
如果要判斷分類器的VC維度就要看它能夠?qū)讉(gè)不共線的點(diǎn)進(jìn)行分類。
通過上述圖片所示,我們可以直觀地看出來,二維空間中單個(gè)線性分類器可
以分類的最大數(shù)量是3,所以這種線性分類器的VC維度是3。而隨著分類器能準(zhǔn)確分類數(shù)據(jù)的增多,VC維度也會(huì)相應(yīng)地增加。因此,VC維度是描述模型復(fù)
雜程度的一種方法。
VC維度是反映泛化誤差與訓(xùn)練誤差關(guān)系的重要指標(biāo),正如以下公式所
示:
其中N指的是訓(xùn)練樣本數(shù)量,d指的就是VC維度,δ指的是一個(gè)概率相關(guān)
的參數(shù)。雖然這個(gè)公式看似十分復(fù)雜,但是僅從數(shù)量關(guān)系的角度看,VC維度
與泛化誤差和訓(xùn)練誤差的差值呈現(xiàn)正相關(guān),VC維度越大,泛化誤差和訓(xùn)練誤
差的差值就越大。而我們現(xiàn)在已經(jīng)知道了VC維度代表的就是模型的復(fù)雜度,所以模型的復(fù)雜度與泛化誤差和訓(xùn)練誤差的差值也呈現(xiàn)這樣一個(gè)正相關(guān)關(guān)
系。那么,模型VC維度的法則在現(xiàn)實(shí)中有什么意義呢?
首先我們要知道,VC維度并不是越大越好,但是根據(jù)上述公式可以發(fā)
現(xiàn),訓(xùn)練樣本的數(shù)量位于分母位置,VC維度位于分子位置,如果分子分母的
數(shù)量同時(shí)擴(kuò)大,也就是說訓(xùn)練樣本數(shù)量和VC維度同時(shí)擴(kuò)大,泛化誤差和訓(xùn)練
誤差的差值可能并不會(huì)發(fā)生顯著改變。換言之,如果在訓(xùn)練樣本的數(shù)量越來
越多的情況下,提升VC維度,也就是使用更加復(fù)雜的模型可能是一個(gè)更加合
理的選擇。所以,模型VC維度的大小是要根據(jù)訓(xùn)練數(shù)據(jù)的多少來進(jìn)行選擇
的。只有選擇了合適的VC維度模型,人工智能才能產(chǎn)出實(shí)際價(jià)值,為各行各
業(yè)提供優(yōu)質(zhì)的服務(wù)。
我們現(xiàn)在使用的人工智能都是經(jīng)過了漫長(zhǎng)的發(fā)展才達(dá)到現(xiàn)在可以普遍應(yīng)
用的水平,例如語(yǔ)音識(shí)別從1952年就已經(jīng)出現(xiàn)了,但當(dāng)時(shí)的語(yǔ)音識(shí)別建立在
一個(gè)數(shù)據(jù)量很小的基礎(chǔ)上,所以當(dāng)時(shí)它只能識(shí)別出10個(gè)英文數(shù)字的發(fā)音,雖
然這是語(yǔ)音識(shí)別的開端,具有劃時(shí)代的意義,但它也確實(shí)不能進(jìn)入應(yīng)用階
段。隨著語(yǔ)音識(shí)別馬不停蹄地發(fā)展,訓(xùn)練語(yǔ)料庫(kù)越來越大,相應(yīng)地,語(yǔ)音識(shí)
別模型的VC維度也在不斷升高,隨之而來的是語(yǔ)音識(shí)別的錯(cuò)誤率也越來越
低。目前,主流智能語(yǔ)音識(shí)別的準(zhǔn)確率已經(jīng)超過97%,比通常人工轉(zhuǎn)錄的準(zhǔn)確
率還要高。我們之前提到過的圖像識(shí)別領(lǐng)域的“奧賽”ImageNet比賽也反映出這樣
的趨勢(shì)。從2000年開始,每年冠軍參賽模型的VC維度都在不斷上升,與之相
對(duì)應(yīng)的,冠軍模型識(shí)別圖片的錯(cuò)誤率在不斷下降,在這背后,冠軍模型面對(duì)
的其實(shí)是數(shù)據(jù)量越來越大的現(xiàn)狀。不論是在語(yǔ)音識(shí)別、圖像識(shí)別還是在其他
人工智能應(yīng)用上,都體現(xiàn)了這個(gè)規(guī)律:幾十年前,數(shù)據(jù)量很小,人工智能技
術(shù)剛剛起步,模型不需要很高的VC維度來處理數(shù)據(jù),所以當(dāng)時(shí)建立的一些模
型都很簡(jiǎn)單。但隨著時(shí)代的發(fā)展,數(shù)據(jù)量的增加,為更好地解決層出不窮且
越來越復(fù)雜的問題,提供更優(yōu)質(zhì)的服務(wù),近幾年新建立的模型都呈現(xiàn)出VC維
度越來越高、復(fù)雜程度越來越高的趨勢(shì)。
與此同時(shí),各種新興行業(yè)也通過VC維度的提升有了新的發(fā)展。2019年8月
2日,騰訊人工智能實(shí)驗(yàn)室研發(fā)的人工智能系統(tǒng)叫作絕悟,它在王者榮耀世界
冠軍杯中戰(zhàn)勝了職業(yè)選手,證明了現(xiàn)在的人工智能也可達(dá)到電競(jìng)職業(yè)玩家的
水平。8月3日,絕悟在中國(guó)國(guó)際數(shù)碼互動(dòng)娛樂展覽會(huì)(ChinaJoy)上參與的
504場(chǎng)1對(duì)1人機(jī)對(duì)戰(zhàn)中,獲勝率為99.8%,輸?shù)舻哪且粓?chǎng)是輸給了國(guó)內(nèi)最頂尖
的專業(yè)玩家。絕悟之所以能取得如此高的勝率,正是因?yàn)檫x擇了具有合適VC
維度的模型。
這些年,中國(guó)電競(jìng)在世界級(jí)比賽中也獲得了不俗的成績(jī):2018年雅加達(dá)
亞運(yùn)會(huì)電子競(jìng)技表演賽中斬獲2金1銀、“英雄聯(lián)盟”S8全球總決賽捧得冠軍
獎(jiǎng)杯。這說明中國(guó)電競(jìng)業(yè)正在逐步崛起,電競(jìng)職業(yè)選手的能力也逐漸逼近世
界水平。這時(shí)如果發(fā)明出電競(jìng)?cè)斯ぶ悄埽矔?huì)希望它達(dá)到世界級(jí)水平。但
是,電競(jìng)?cè)斯ぶ悄芩媾R的問題是十分復(fù)雜的。以王者榮耀為例,它作為
一個(gè)團(tuán)隊(duì)作戰(zhàn)游戲,雙方每方5位參與者要在英雄搭配、技能應(yīng)用、路徑調(diào)換
及團(tuán)隊(duì)協(xié)作等方面面臨大量、持續(xù)而且即時(shí)的選擇,其操作可能性高達(dá)1020
000
種。因此,絕悟在訓(xùn)練過程中選擇的是VC維度極高的深度強(qiáng)化學(xué)習(xí)模型。
在短短半個(gè)月的訓(xùn)練周期內(nèi),絕悟每天的訓(xùn)練強(qiáng)度相當(dāng)于人類訓(xùn)練440年的
量。與此同時(shí),絕悟在訓(xùn)練中用了384塊GPU。在這樣高等級(jí)算力的支持下,VC維度高的模型的訓(xùn)練下,絕悟的電子競(jìng)技能力直線上升,達(dá)到了世界級(jí)電
子競(jìng)技選手的水平。
“權(quán)衡”二字出自南朝劉勰的《文心雕龍》:“權(quán)衡損益,斟酌濃
淡!惫湃嗽缫迅嬖V我們,要懂得權(quán)衡才能找到處理事情的最佳方法。通過
權(quán)衡偏差和方差平衡模型的復(fù)雜程度和穩(wěn)定程度,找到最合適的模型;通過權(quán)衡各種條件,找到最合適的VC維度,這樣打造出來的模型才是真正能解決
問題的模型。弱水三千只取一瓢飲,雖然選擇很多,我們只要最合適的那一
個(gè)。這和AI思維是一脈相承的,通過權(quán)衡各種復(fù)雜條件做出最佳的決策,不
但可以幫助我們解決各種復(fù)雜的商業(yè)問題,還能使我們?cè)诩ち业男袠I(yè)競(jìng)爭(zhēng)中
脫穎而出。相關(guān)性和因果性
伏爾泰說過:“雪崩的時(shí)候,沒有一片雪花是無辜的!蹦茄┥绞请S著
片片雪花的飄落而崩塌,還是因?yàn)槟菆?chǎng)忽降的大雪而崩塌?笛卡兒說
過:“我思故我在。”那我們是隨著思考而越發(fā)感覺到自己的存在,還是真
的因?yàn)槲覀冊(cè)谒伎疾庞辛俗陨淼拇嬖?駱駝到底是隨著稻草的增多而被壓
垮,還是因?yàn)樽詈笠桓静萏炼瓜?關(guān)于相關(guān)性和因果性的思考一直以
來都存在,機(jī)器學(xué)習(xí)模型發(fā)現(xiàn)的便是輸入變量和預(yù)測(cè)目標(biāo)之間的相關(guān)性。相
關(guān)性不同于因果性,因果性對(duì)應(yīng)的是傳統(tǒng)科學(xué)研究的范疇,相關(guān)性則是AI思
維所關(guān)注的理念。相關(guān)性對(duì)于我們研究許多變量因子之間的相互關(guān)系有著很
大的幫助。
事實(shí)上,將兩個(gè)一起出現(xiàn)的事物關(guān)聯(lián)起來是人類與生俱來的學(xué)習(xí)能力。
比如說,人都怕衰老,因?yàn)樗ダ弦馕吨牧魇;人們到了一定年紀(jì)就會(huì)
喜歡照鏡子,去看是不是自己臉上哪個(gè)區(qū)域又出現(xiàn)了皺紋,或者白發(fā)是不是
又增多了,因?yàn)榘装l(fā)和皺紋是衰老的跡象,這對(duì)于大部分人來說可能都不是
個(gè)好消息。我們一看到臉上有皺紋、頭上有白發(fā),就知道人開始進(jìn)入衰老
期,其實(shí)就是因?yàn)槲覀儗櫦y、白發(fā)與衰老建立起了聯(lián)系,根據(jù)這個(gè)聯(lián)系在
腦海中反映出它們之間的相關(guān)性。但是,從科學(xué)角度來說,并不是“皺
紋”“白發(fā)”帶來了人體的衰老,它們只是衰老的表象,人體衰老的根本原
因在于細(xì)胞代謝能力的降低。也就是說,皺紋和衰老之間并不存在因果性,僅僅是內(nèi)涵及外在表現(xiàn)形式的一種相關(guān)性。
人體是一個(gè)復(fù)雜的存在,除了會(huì)經(jīng)受自然衰老以外,還會(huì)生各種各樣的
疾病。在流行病學(xué)領(lǐng)域,相關(guān)性也比因果性常見得多。例如,最近很多上班
族覺得自己氣血不足,所以在他們中間流行起了“泡枸杞、吃紅棗”的養(yǎng)生
法。這是為什么呢?難道就因?yàn)樯习嘧迕刻於嫉脤?duì)著電腦、手機(jī)十幾個(gè)小
時(shí),又恰恰顯出了氣色差、無力等貧血跡象,就能說明是輻射引起的貧血
嗎?這些社交媒體制造的類似焦慮言論背后,其實(shí)埋著將相關(guān)性歪曲為因果
性的雷。雖然不排除某種性質(zhì)的貧血跟電子產(chǎn)品的輻射有一定關(guān)聯(lián),但貧血
和人們使用電子產(chǎn)品的比例并不能斷定兩者之間的因果性。實(shí)際上,白領(lǐng)群體的“貧血”概率與機(jī)體的運(yùn)動(dòng)代謝下降和飲食結(jié)構(gòu)的
不合理有關(guān)。白領(lǐng)群體長(zhǎng)時(shí)間坐在工位上,對(duì)著電腦、手機(jī),身體代謝變
慢,血?dú)庹{(diào)動(dòng)不起來,這才導(dǎo)致了醫(yī)學(xué)上的貧血現(xiàn)象。此外,上班族工作壓
力大、飲食不規(guī)律,忽略了機(jī)體基礎(chǔ)營(yíng)養(yǎng)的正常補(bǔ)給,長(zhǎng)年累月,影響身體
機(jī)能的修復(fù),這也是引起氣血不調(diào)的原因之一。所以,如果將此類的表述換
成“隨著全球氣溫升高,貧血人群的數(shù)量也在急速上升”,同樣也能推
出“全球溫度升高容易引起貧血”的結(jié)論,這顯然十分荒謬。
雖然相關(guān)性沒有因果性來得一針見血,但是相關(guān)性能一定程度地揭露問
題所在。作為內(nèi)在問題的一種肉眼可見的表征,相關(guān)性自有它的用武之地;
至于如何應(yīng)用,我們會(huì)在后面的內(nèi)容中進(jìn)行更詳細(xì)的闡述,F(xiàn)在讓我們先來
看一下相關(guān)性與因果性的定義。
什么是相關(guān)性
相傳,如果南美洲亞馬孫河流域熱帶雨林中的一只蝴蝶慵懶地扇動(dòng)幾下
翅膀,可能會(huì)在兩周之后導(dǎo)致美國(guó)得克薩斯州刮起一場(chǎng)鋪天蓋地的龍卷風(fēng)
——如果一定要說這兩件事之間存在關(guān)系的話,那這個(gè)關(guān)系也是微乎其微
的。
那么,如何衡量相關(guān)性的程度呢?我們可以定義相關(guān)系數(shù),規(guī)定相關(guān)系
數(shù)的取值范圍在-1到1之間,兩個(gè)事物之間的相關(guān)系數(shù)越接近0,就表明兩者
的相關(guān)性越低。對(duì)比雙方數(shù)據(jù)時(shí),如果一方數(shù)據(jù)往高走的時(shí)候,另一方數(shù)據(jù)
也在上升,就說明二者正相關(guān),它們的相關(guān)系數(shù)在0與1之間。如果一方數(shù)據(jù)
往高走的時(shí)候,另一方數(shù)據(jù)下降,那么二者為負(fù)相關(guān),相關(guān)系數(shù)在-1與0之
間。相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)性越強(qiáng)。相關(guān)系數(shù)越接近于0,相關(guān)性越
弱。
舉個(gè)例子,負(fù)相關(guān)性就好比飲食健康程度和生病次數(shù)之間的關(guān)系。一般
來說,飲食健康程度越高,生病次數(shù)就越少,即飲食健康程度和生病次數(shù)是
負(fù)相關(guān)的。不相關(guān)(相關(guān)系數(shù)為0)的數(shù)據(jù),看起來就是一組均勻的數(shù)據(jù)點(diǎn),沒有什么明顯的趨勢(shì)。當(dāng)然也有正相關(guān)的例子。譬如多年未見的朋友比小時(shí)
候長(zhǎng)得更加高大、健壯了,體重也重得多。身高和體重之間就是一種正相關(guān)
的關(guān)系。一般來說,身高每長(zhǎng)高一厘米,體重也會(huì)相應(yīng)地有所增加。但是在運(yùn)用相關(guān)性進(jìn)行分析的時(shí)候要十分注意。國(guó)外有個(gè)網(wǎng)站Spurious
Correlations,講的是虛假的相關(guān)性。這個(gè)網(wǎng)站上列了許多啼笑皆非的例
子,這些例子中的每一對(duì)數(shù)據(jù)看似都有很高的相關(guān)性,實(shí)際上卻不存在任何
合理的解釋。比如說,有人發(fā)現(xiàn)在某些年份,美國(guó)在科技領(lǐng)域投入的資金和
上吊自殺人數(shù),相關(guān)系數(shù)高達(dá)99.79%。這其實(shí)體現(xiàn)的就是一種虛假的相關(guān)
性,真正具有相關(guān)性的兩者要有一個(gè)關(guān)聯(lián)的基點(diǎn)。就這個(gè)例子而言,人們并
不會(huì)因?yàn)槊绹?guó)在科技領(lǐng)域投入多少,就去考慮上吊自殺的事情,所以兩者不
存在一個(gè)關(guān)聯(lián)的基點(diǎn),也就不存在真正的相關(guān)性。網(wǎng)站上列舉的另一個(gè)虛假
相關(guān)性的例子——人均芝士消耗量和新增土木工程博士數(shù),相關(guān)系數(shù)高達(dá)
95.86%。95.86%表面上代表著非常高的相關(guān)性,但實(shí)際上,兩者之間并沒有
合理的聯(lián)系。造成如此高的相關(guān)系數(shù)的原因也許只是隨著時(shí)間推移,社會(huì)發(fā)
展,各項(xiàng)指標(biāo)正好同步變大而已。所以在使用相關(guān)性概念的時(shí)候,我們也要
考慮兩個(gè)變量?jī)?nèi)在的聯(lián)系和可解釋性,單純的相關(guān)系數(shù)可能沒有意義。
什么是因果性
證明因果,首先要證明兩個(gè)事件有關(guān)聯(lián)。這種關(guān)聯(lián)一般來說是一種常見
的現(xiàn)象,比如一些老人喜歡說的“愛笑的人都很善良”,“滿臉愁容、精神
頹廢的人都很苦命”,“筋絡(luò)粗壯的都很奔波”,等等,是根據(jù)一種靜止表
象來推測(cè)動(dòng)態(tài)發(fā)展傾向。雖然關(guān)聯(lián)現(xiàn)象不一定意味著因果關(guān)系,但認(rèn)識(shí)到或
者察覺到它,卻是一個(gè)很好的起點(diǎn)。如果某兩個(gè)事件顯示出一定的相關(guān)性,往往會(huì)引起研究者的注意,吸引他們?nèi)グl(fā)掘其中可能存在的因果關(guān)系。
從日常生活到嚴(yán)謹(jǐn)?shù)目茖W(xué)實(shí)驗(yàn)室,想要證明事件之間有無關(guān)聯(lián)或密切程
度的方法有很多。就像前面說的,從統(tǒng)計(jì)學(xué)的角度,能夠通過數(shù)據(jù)分析看出
兩個(gè)事件之間是否存在正相關(guān)和負(fù)相關(guān)的關(guān)系,如果不存在關(guān)聯(lián)就不存在因
果,因?yàn)殛P(guān)聯(lián)關(guān)系是因果關(guān)系的基礎(chǔ)。當(dāng)確定兩個(gè)事件之間存在關(guān)聯(lián)后,我
們?cè)龠M(jìn)一步分析兩個(gè)事件之間的細(xì)節(jié)規(guī)律,建立起一個(gè)假設(shè),即它們之間發(fā)
生的先后關(guān)系的推測(cè)。想要驗(yàn)證這個(gè)推測(cè),首先可以預(yù)設(shè)是某一事件導(dǎo)致的
另一事件,這個(gè)結(jié)論成立的兩個(gè)條件是:第一,一個(gè)事件發(fā)生在另一個(gè)事件
之前;第二,前一個(gè)事件的出現(xiàn)能預(yù)測(cè)另一個(gè)事件的出現(xiàn)。因果關(guān)系的鏈條是單一的。上述條件只是證明了兩者之間存在鏈條,我
們還要進(jìn)一步檢驗(yàn)事件之間鏈條的單一性,也就是排除掉其他可能的混淆變
量。所謂混淆變量,就是發(fā)生在前一事件以外的其他事件導(dǎo)致了后一個(gè)事件
的發(fā)生,這就違反了因果關(guān)系鏈條的單一性,這個(gè)因果關(guān)系就不是那么明確
地能夠成立了,需要再往深一步去挖掘其真實(shí)的因果關(guān)系鏈條。比如,在眾
所周知的狐假虎威的故事當(dāng)中,每一次狐貍出現(xiàn),森林里的動(dòng)物們都十分害
怕,四散而逃,但是動(dòng)物們逃走并不是因?yàn)楹,而是因(yàn)楹偟纳砗蟾?br/>
百獸之王老虎。在這個(gè)故事中,老虎就是那個(gè)混淆變量,狐貍出現(xiàn)與動(dòng)物們
逃跑之間并不存在鏈條的單一性,也就是因果關(guān)系并不成立。
去掉混淆變量的常見方法是設(shè)計(jì)實(shí)驗(yàn)組和對(duì)照組。實(shí)驗(yàn)組,就是在這一
組樣本中對(duì)某一因素做處理。對(duì)照組,就是不做任何處理,直接放置,然后
觀察兩組現(xiàn)象的差別。要證明因果,就是需要實(shí)驗(yàn)組出現(xiàn)預(yù)設(shè)的現(xiàn)象,而對(duì)
照組不出現(xiàn)預(yù)設(shè)現(xiàn)象。如果實(shí)驗(yàn)組因?yàn)樽隽四骋灰蛩氐奶幚矶霈F(xiàn)預(yù)設(shè)現(xiàn)
象,對(duì)照組未做任何處理而沒有出現(xiàn)預(yù)設(shè)現(xiàn)象,就能證明某一因素的改變導(dǎo)
致了預(yù)設(shè)現(xiàn)象的出現(xiàn),而沒有這一改變就不能導(dǎo)致相應(yīng)現(xiàn)象出現(xiàn)。
例如,最近喝各種養(yǎng)生茶變得流行起來,有些人喜歡清淡的,有些人接
受不了苦味,有些人卻偏偏喜歡特別苦的。如果我們想要知道是哪一種原料
導(dǎo)致了茶的苦味,就可以進(jìn)行一次對(duì)照實(shí)驗(yàn)。例如,我們的推測(cè)是里面的苦
菊導(dǎo)致了苦味,那么我們需要泡兩杯茶,一杯花果茶的茶包原料不變,照常
加水泡開;將另一杯花果茶的茶包原料里的苦菊挑揀出來,再加水泡開。如
果品嘗后發(fā)現(xiàn)前一杯茶帶有苦味,而后一杯茶沒有苦味,則驗(yàn)證了我們的推
測(cè)是正確的,即苦菊是導(dǎo)致這杯茶帶苦味的原因,苦菊與茶的苦味之間的因
果性成立。當(dāng)然,我們還可以做更多推測(cè),比如考察是哪種材料導(dǎo)致了奇怪
的味道,等等。
相關(guān)性大于因果性
在日常工作生活中,我們更需要關(guān)注相關(guān)性,而不是強(qiáng)求因果關(guān)系,也
就是說,只需要知道“是什么”,而不總是需要知道“為什么”。這能使人
跳過洼地,快速地獲取結(jié)果。這種思維方式推翻了自古以來人們更加注重因
果關(guān)系的慣例,使我們理解現(xiàn)實(shí)和做出決定的最基本方式受到挑戰(zhàn)。但是不破不立,破而后立,相關(guān)性的思維方式也讓一切事物變得看起來很簡(jiǎn)單。AI
思維從數(shù)據(jù)中訓(xùn)練出模型,但它從不思考為什么這樣做,這讓模型訓(xùn)練變得
簡(jiǎn)單直接,體現(xiàn)出相關(guān)性思維的特點(diǎn)。
從傳統(tǒng)的因果性思維轉(zhuǎn)向相關(guān)性思維是AI思維最突出的一個(gè)特點(diǎn),傳統(tǒng)
的因果性思維是說我們一定要找到一個(gè)原因,推出一個(gè)結(jié)果來。而基于AI思
維的預(yù)測(cè)沒有必要找到原因,不需要證明這個(gè)事件和那個(gè)事件之間有一個(gè)必
然、先后關(guān)聯(lián)發(fā)生的因果規(guī)律。在相關(guān)性思維中,如果出現(xiàn)了某些跡象,數(shù)
據(jù)統(tǒng)計(jì)的高概率會(huì)顯示出相應(yīng)的結(jié)果。那么,當(dāng)我們發(fā)現(xiàn)這些跡象時(shí),需要
做的就是根據(jù)這些跡象去預(yù)測(cè)結(jié)果,做出決策。這和以前的思維方式不一
樣,和傳統(tǒng)科學(xué)的思維不一樣。雖然同樣基于數(shù)據(jù),但是傳統(tǒng)科學(xué)要求找到
準(zhǔn)確的因果關(guān)系。
但是,在這個(gè)紛亂復(fù)雜的社會(huì)關(guān)系里面,充滿了差異性,不同的人在不
同的時(shí)間節(jié)點(diǎn)可能會(huì)為了不同的原因去做一件同樣的事情。比如,有的人覺
得紫外線太強(qiáng)怕被曬黑,有的人覺得陽(yáng)光刺眼,有的人覺得雨季要到了,這
時(shí)他們都可能會(huì)買一把傘。不論中間的思考過程有多曲折,各自的理解如何
大相徑庭,他們最終都指向同一個(gè)結(jié)果。其實(shí),我們?cè)诤芏鄷r(shí)候,最終為的
也不過是這個(gè)結(jié)果罷了,所以在這期間耗費(fèi)過多的精力去尋找里面的因果關(guān)
系并非那么必要,畢竟在這個(gè)節(jié)奏如此快的社會(huì),等你從頭到尾都想得一清
二楚的時(shí)候,這個(gè)事情可能早就不值得辦了。
所 以 人 工 智 能 時(shí) 代 的 思 維 更 像 “action!” ( 行 動(dòng) 指
令)、“reaction!”(立刻反應(yīng))這樣一種直線思維。也就是說,你聽到或
者看到一個(gè)明顯的指令或者跡象,你不需要去追究太多,只需要按慣例做出
反應(yīng)就可以。只要我發(fā)出這個(gè)口令,就一定能夠得到一個(gè)既定的、預(yù)期內(nèi)的
回應(yīng),這就可以了。就像在運(yùn)送快遞時(shí),如果有玻璃制品這樣易碎的物品,快遞盒子外面一般會(huì)有“易碎物品,小心輕放”的提示。看到這個(gè)提示,快
遞員不需要知道盒子里面是什么物品,也不需要知道它為什么易碎,他只需
要在送快遞過程中做到小心輕放,不讓盒子中的物品破碎就可以了。
全世界的商界人士都在高呼人工智能時(shí)代來臨的優(yōu)勢(shì):早在很久以前,商家就明白了相關(guān)性銷售的精髓。比如,商家很容易根據(jù)你買東西的數(shù)量知
道你家有多少人吃飯,你是單身還是一大家子。將牛肉干等一些簡(jiǎn)便的下酒
食品與各種酒品擺在一起,也能很大程度地提升銷售業(yè)績(jī),因?yàn)楹芏鄷r(shí)候這些關(guān)聯(lián)是更契合人性的。比如,你只喝酒,難免腸胃寡淡,根據(jù)人體自然需
求,會(huì)需要同時(shí)補(bǔ)充一些重口味的小吃。喝酒就是為了爽快,誰(shuí)會(huì)為了幾塊
錢的小吃而折損了喝酒的享受呢?抓住了這些關(guān)聯(lián)也就抓住了人性,從而能
實(shí)現(xiàn)高銷售。數(shù)據(jù)透露出來的信息有時(shí)確實(shí)能起到出人意料的效果。比如,下雨或者高溫暴曬的時(shí)候,往往訂外賣的人數(shù)會(huì)激增,這時(shí)候在辦公區(qū)附近
的餐館都會(huì)提前做好“備戰(zhàn)模式”,例如提前預(yù)備好外賣餐盒、準(zhǔn)備好外賣
常點(diǎn)的菜品,這些老板不需要去考慮究竟是因?yàn)橄掠、暴曬的時(shí)候大家覺得
出門麻煩而選擇訂外賣,還是因?yàn)檫@種天氣下大家心情不好而選擇點(diǎn)外賣,他只需要根據(jù)天氣變化采取相關(guān)行動(dòng)就可以。
這些例子共同說明了一個(gè)道理:用相關(guān)性思維方式來思考問題、解決問
題的做法值得關(guān)注。尋找原因在以前被視為理所當(dāng)然,但是大數(shù)據(jù)推翻了這
個(gè)論斷。過去尋找原因的信念正在被更為實(shí)用的相關(guān)性所取代。隨之而來產(chǎn)
生了一個(gè)值得思考的問題:在探求因果關(guān)系轉(zhuǎn)變?yōu)樽⒅叵嚓P(guān)關(guān)系的過程中,我們?cè)鯓硬拍芗炔粨p壞奠定社會(huì)繁榮和人類進(jìn)步的因果推理基石,又能真正
推動(dòng)社會(huì)的進(jìn)步呢?需要強(qiáng)調(diào)的是,轉(zhuǎn)向相關(guān)性,并不是要拋棄因果關(guān)系這
塊科學(xué)基石,而是通過相關(guān)性更加快速直接地解決問題。
在當(dāng)今這個(gè)信息化的時(shí)代,只要能夠得到充足的數(shù)據(jù),加之用高效的AI
思維尋找到相關(guān)性信息,就可以預(yù)測(cè)用戶的行為,為企業(yè)做出準(zhǔn)確決策提供
支撐。比如,金融行業(yè)非常注重風(fēng)險(xiǎn)的把控,以往我們識(shí)別金融風(fēng)險(xiǎn)最常用
的方式就是查看客戶的過往征信記錄,尋找各種渠道去打探對(duì)方的信譽(yù)。這
個(gè)過程不但耗時(shí)、費(fèi)力,還未必能夠保證信息全面。
有了人工智能加持之后,金融機(jī)構(gòu)就可以通過數(shù)據(jù)建立模型,識(shí)別出客
戶相關(guān)的異常行為以及異常關(guān)系,為金融決策提供廣泛、確切的有效信息。
在這個(gè)領(lǐng)域中,人工智能能夠幫助解決金融信用體系中的關(guān)鍵問題。那么人
工智能是如何在這個(gè)過程中發(fā)揮作用的呢?首先需要構(gòu)建人工智能模型,然
后通過模型實(shí)現(xiàn)特征分析,進(jìn)而根據(jù)模型的輸出判斷異常。比如說現(xiàn)在我們
要判斷是否給某個(gè)客戶貸款。為了解決這個(gè)問題,金融機(jī)構(gòu)就要對(duì)該客戶以
往的行為進(jìn)行分析。如果金融機(jī)構(gòu)通過人工智能分析發(fā)現(xiàn),這個(gè)客戶曾經(jīng)多
次逾期還款,收入不穩(wěn)定、工作情況變動(dòng)大,那么這就意味著他不是一個(gè)很
好的貸款對(duì)象,因?yàn)樨?cái)務(wù)狀況不穩(wěn)定與出現(xiàn)財(cái)務(wù)問題之間有很大的相關(guān)性,放貸給他可能會(huì)影響到錢款的正常收回,導(dǎo)致出現(xiàn)損失。相反,如果客戶過往的財(cái)務(wù)狀況穩(wěn)定,并且有著合理的發(fā)展規(guī)劃,就說明他是一個(gè)值得信賴的
客戶。向這樣的客戶貸款,風(fēng)險(xiǎn)較低,相對(duì)安心。
盡管在過往,這些工作也能通過人工粗略地進(jìn)行,但是由于細(xì)枝末節(jié)的
信息不計(jì)其數(shù),而人力始終是有限的,在這種情況下,人工的分析自然容易
出現(xiàn)疏漏。此外,人工耗時(shí)長(zhǎng),對(duì)于金融這個(gè)看重時(shí)效性的行業(yè)來說,是一
個(gè)重大的弱點(diǎn)。相比之下,人工智能通過自身的模型學(xué)習(xí),能夠在短時(shí)間內(nèi)
就發(fā)現(xiàn)隱患,使得應(yīng)對(duì)決策能夠正確有效地實(shí)施。所以,在商業(yè)社會(huì)
里,“action!”“reaction!”的行為模式是更為合理,也是適用更廣的。
細(xì)究其中,你會(huì)發(fā)現(xiàn),事實(shí)上所有事件的處理方式都在遵循相關(guān)性原則,無
論你把事情考慮得多么周全,仍然可能出現(xiàn)問題;在應(yīng)急的當(dāng)下,你也一定
是運(yùn)用了相關(guān)性來處理絕大部分問題。而且根據(jù)人們使用的情況來說,在生
活的方方面面,它都饒有成效。有時(shí)候,相關(guān)性可能就是人們所說的“下意
識(shí)”,看到或者聽到某些事物,條件反射地設(shè)想出下一秒產(chǎn)生的結(jié)果,下意
識(shí)地為這個(gè)結(jié)果做出反應(yīng)。
哲學(xué)上講,聯(lián)系是指一切事物、現(xiàn)象、過程及其內(nèi)部諸要素之間的相互
影響、相互作用和相互制約,也就是說,萬物之間都是存在相關(guān)性的。也許
你沒有意識(shí)到相關(guān)性的存在,但就像你看到打雷就知道要下雨一樣,人們無
時(shí)無刻不在使用著相關(guān)性思維。相關(guān)性這種通過分析不同事件之間的聯(lián)系,由起點(diǎn)直接到終點(diǎn)的思維方式,是AI思維能夠快速準(zhǔn)確地進(jìn)行預(yù)測(cè)的內(nèi)在邏
輯。物有本末,事有始終,掌握了相關(guān)性,你就能事半功倍地得到想要的結(jié)
果。數(shù)據(jù)的規(guī)律性
我們已經(jīng)知道,人工智能的發(fā)展和應(yīng)用離不開大數(shù)據(jù)的支撐。但是大數(shù)
據(jù)意味著數(shù)據(jù)的數(shù)量越來越龐大,質(zhì)量越來越難保證,真實(shí)性越來越難判
斷。對(duì)于人腦來說,隨著數(shù)據(jù)的不斷增加和積累,要在鋪天蓋地且良莠不齊
的數(shù)據(jù)中找到我們所需要的那一份信息,無異于大海撈針;但對(duì)于人工智能
來說,這并不是什么難事。我們不禁好奇,人工智能到底是如何辦到的呢?
從表面上來看,我們所接觸的信息是雜亂的、無序的,但是事物之間的
聯(lián)系是普遍的。例如世上萬物形態(tài)各異,但是組成這些物體的元素都是相同
的,也就是化學(xué)元素周期表中的一百多種元素;世界上沒有完全一樣的兩個(gè)
人,但是我們的染色體數(shù)量同樣都是23對(duì)。人工智能要處理的數(shù)據(jù)同樣也是
這樣,我們通過深入分析和研究,就會(huì)發(fā)現(xiàn)數(shù)據(jù)和數(shù)據(jù)之間是存在共通規(guī)律
的。
對(duì)于數(shù)據(jù)來說,這種本質(zhì)的規(guī)律性可以反映在數(shù)據(jù)內(nèi)在的幾何結(jié)構(gòu)上。
這個(gè)幾何結(jié)構(gòu)并不是我們?nèi)粘I钪兴R姷,而是存在于一個(gè)更加復(fù)雜的
空間,復(fù)雜到可能有些超出我們的直觀想象。例如我們都知道一張照片是由
許多像素點(diǎn)組成的,當(dāng)我們隨手拍了一張1 920×2 560像素的自拍時(shí),這些
像素間便互相組合形成不同的維度。也就是說,這張照片所對(duì)應(yīng)的數(shù)據(jù)就是
由4 915 200個(gè)維度組成的,即使我們的肉眼只能看到一張平面的照片。人工
智能處理和理解的數(shù)據(jù),其實(shí)都是高維的;我們將這些數(shù)據(jù)所在的空間稱為
高維空間。要想掌握數(shù)據(jù)的內(nèi)在規(guī)律性,就要先對(duì)高維空間進(jìn)行了解。
高維空間的幾何學(xué)
我們一般會(huì)認(rèn)為我們生活在三維的立體世界中,但很多物理科學(xué)家認(rèn)
為,空間不只有三個(gè)維度,并對(duì)空間維度的相關(guān)問題爭(zhēng)論不休。
愛因斯坦在他的《相對(duì)論》中提出,整個(gè)世界是由時(shí)間和空間組成的,時(shí)間就是第四維。時(shí)間作為一個(gè)坐標(biāo),確立了三維空間在一維的時(shí)間軸上的排列。世界著名理論物理學(xué)家麗莎·藍(lán)道爾教授在一次核裂變實(shí)驗(yàn)中發(fā)現(xiàn)少
量粒子突然憑空消失了。她推斷這些粒子可能去了我們看不到的“五維空
間”。英國(guó)著名物理學(xué)家霍金在物理學(xué)和宇宙學(xué)領(lǐng)域同樣具有高度權(quán)威;
金在給出宇宙模型時(shí)提出,只用四個(gè)維度來描述宇宙是不夠的,粒子、星球
運(yùn)動(dòng)、宇宙引力等現(xiàn)象都不能用四維來很好地解釋。他提出,至少要用十一
個(gè)未知數(shù)才能將宇宙描述清楚,也就是說,宇宙至少是由十一個(gè)維度組成
的。雖然我們感受不到如此多的維度,但這并不代表它們不存在。就像我們
聽不到超聲波,看不見紫外線一樣,我們感受不到的那些維度只是蜷縮隱藏
起來了而已。
平時(shí)我們最多只能感受到時(shí)間和空間,如此玄幻的多維度可能會(huì)讓你疑
惑。簡(jiǎn)單來說,任何一級(jí)低維空間都是高一級(jí)空間的橫截面,例如,一維的
線是二維的平面的橫截面。也就是說,任何一維空間除被本維空間的特有維
度確立外,還以橫截面的形式在高一維空間中有所體現(xiàn),如圖2-6所示,如以
寬為軸移動(dòng)一維的線,就形成了二維的平面。理論上,生活在三維世界的我
們完全有可能以時(shí)間為軸進(jìn)入四維世界,也就是我們通常說的打開了“時(shí)空
隧道”。
圖2-6 一維至四維空間示意圖
物理領(lǐng)域高維空間的提出幫我們打開了探索這個(gè)高深莫測(cè)的世界的大
門;相應(yīng)地,人工智能領(lǐng)域中也存在高維空間。人工智能處理的數(shù)據(jù)涉及各
個(gè)領(lǐng)域,這些數(shù)據(jù)都可以被看成空間里的一個(gè)個(gè)點(diǎn)。不同的數(shù)據(jù)點(diǎn)所在的高
維空間,也就是數(shù)學(xué)中的歐氏空間。
對(duì)一個(gè)給定的歐氏空間來說,它的維度是確定的:N維歐氏空間有N個(gè)獨(dú)
立的維度。歐氏空間給我們提供了高維空間的坐標(biāo)系和距離的概念,任何數(shù)據(jù)在歐氏空間都是以向量的形式存在的。人工智能分析的每一條數(shù)據(jù),都可
以在歐氏空間中轉(zhuǎn)換到給定維度的坐標(biāo)系里,對(duì)應(yīng)到歐氏空間中的某一個(gè)
點(diǎn);谶@樣的結(jié)構(gòu),我們就可以精準(zhǔn)地刻畫我們想要描述和理解的個(gè)體。
人工智能就是這樣準(zhǔn)確快速地在海量的數(shù)據(jù)中表示出我們感興趣的那一份信
息的。
雖然歐氏空間通常是高維空間,但當(dāng)我們分析數(shù)據(jù)內(nèi)部結(jié)構(gòu)的特點(diǎn)時(shí),就會(huì)發(fā)現(xiàn),數(shù)據(jù)的內(nèi)部存在一定的規(guī)律性,并且這些規(guī)律性可以被用來解釋
為什么“美女”都長(zhǎng)得很像,以及動(dòng)畫片是怎么生成的。接下來,讓我們一
起來了解數(shù)據(jù)內(nèi)部到底有什么樣的規(guī)律。
線性規(guī)律:佳麗的特征臉
圖2-7是多位參加“韓國(guó)小姐”選美比賽的佳麗的照片。這些佳麗面容都
十分秀麗,我們細(xì)看會(huì)發(fā)現(xiàn)每一位佳麗長(zhǎng)得都不一樣,但總體來看又十分相
像。由于這場(chǎng)比賽發(fā)生于整容業(yè)十分發(fā)達(dá)的韓國(guó),很多人表示這些佳麗仿佛
是多胞胎一樣,也有不少人在質(zhì)疑她們是出自同一條整容流水線的同時(shí),又
紛紛感嘆被稱為亞洲四大“邪術(shù)”之一的韓國(guó)整容技術(shù)的高度一致性。
為了更好地理解這些佳麗臉部存在的規(guī)律,我們對(duì)這些佳麗的臉部圖像
做了處理,形成了她們的特征臉。特征臉是反映這些佳麗臉部主要變化特征
的一組“模板”。為了更加直觀地反映出這些佳麗長(zhǎng)相的相似性,我們又從
這些佳麗的特征臉中挑選了其中十張,如圖2-8所示,這十張?zhí)卣髂槹诉@
些佳麗臉部圖像的主要變化。圖2-7 佳麗照片樣例
圖2-8 佳麗照片產(chǎn)生的特征臉
顯然,每位佳麗的臉都有和特征臉不同的地方。接下來,我們要對(duì)每個(gè)
人的臉部做重建。重建就是把一個(gè)佳麗的臉投影到特征臉,然后再線性組合
起來,這樣就得到了重建之后的佳麗的臉。如圖2-9所示,上面一行是原始圖
像,下面一行是原始圖像投影到上述特征臉后的重建圖像,通過對(duì)比我們可
以發(fā)現(xiàn),對(duì)應(yīng)的上下兩圖之間的誤差其實(shí)很小。圖2-9 佳麗照片的原始圖像和重建圖像
然后我們將每張佳麗的臉部圖像投影到特征臉上,分析出這些臉部圖像
在特征空間中是怎樣分布的。圖2-10表示的是對(duì)于這些佳麗的臉部圖像,不
同特征臉?biāo)鶎?duì)應(yīng)的權(quán)重,從中我們可以看到,大部分特征差異都集中在前幾
個(gè)特征臉上。也就是說,前幾個(gè)特征臉捕捉了佳麗臉部特征絕大部分的變
化。
通過上述分析,我們可以看出,這些佳麗在外貌上是有規(guī)律可循的。這
個(gè)規(guī)律就是,不論她們?cè)谕饷采细饔惺裁礃拥奶卣,但是如果把她們的外?br/>
投影到一個(gè)平面,也就是我們所說的線性空間中,她們的外貌基本上在特征
臉構(gòu)成的線性空間上都能找到很好的表示。
這種基于數(shù)據(jù)的線性規(guī)律的“特征臉”,在我們的日常生活中有著廣泛
的應(yīng)用。比如在一些重大考試中,傳統(tǒng)的人工核驗(yàn)身份證和準(zhǔn)考證費(fèi)時(shí)費(fèi)
力,而且很容易出錯(cuò)。針對(duì)這個(gè)問題,有人發(fā)明了一套基于人臉數(shù)據(jù)的線性
規(guī)律的考場(chǎng)人臉識(shí)別系統(tǒng)。這套系統(tǒng)是要核驗(yàn)考生和二代身份證上的人是否
一致,所以要提前提取考生的面部圖像信息,對(duì)二代身份證上的照片進(jìn)行預(yù)
處理。在保證照片大小、考生面部位置一致的基礎(chǔ)上,拿這些圖像生成這些
考生的特征臉,并將其定義為一個(gè)面部空間。在此之后,將考生的面部圖像
全部投影到面部空間上,計(jì)算出每一個(gè)人臉圖像在該空間上的相關(guān)分布位
置。經(jīng)過這樣的處理,我們就可以用這套系統(tǒng)進(jìn)行人臉識(shí)別了:只需要將待
識(shí)別的人臉圖像投影到這組特征臉上進(jìn)行對(duì)比,就可以知道該人臉是否是人
臉庫(kù)中的人臉。圖2-10 特征臉權(quán)重折線圖
數(shù)據(jù)的線性規(guī)律源于數(shù)學(xué)上在線性空間的投影,它去除了數(shù)據(jù)中不重
要、不顯著或者沒有用的信息,只保留最本質(zhì)、所有數(shù)據(jù)共同擁有的特征,所以投影后形成的數(shù)據(jù)比原始數(shù)據(jù)更簡(jiǎn)潔,更具有普遍性。不論是選美小姐
的特征臉,還是考生的特征臉,都是依賴于這類圖像數(shù)據(jù)的內(nèi)在線性規(guī)律
性,將信息盡可能地簡(jiǎn)化,降低了數(shù)據(jù)處理的復(fù)雜性,更好地把握數(shù)據(jù)的本
質(zhì)特點(diǎn)。
非線性規(guī)律:流形學(xué)習(xí)
前面講了數(shù)據(jù)的線性規(guī)律,我們?cè)賮碇v一下數(shù)據(jù)的非線性規(guī)律。什么叫
作數(shù)據(jù)的非線性規(guī)律?我們這里用一個(gè)直觀的例子來說明一下。如圖2-11所
示,這幅圖叫作“瑞士卷”。我們所生活的三維空間是一個(gè)平坦的歐氏空
間;瑞士卷與我們所生活的三維空間不同,它是一個(gè)曲面。與我們?nèi)粘K姷钠矫嫦啾,曲面有很多不同的特點(diǎn)。譬如,我們?cè)趫D
2-11所展示的瑞士卷上取兩個(gè)點(diǎn):A和B,如果要從A點(diǎn)到B點(diǎn),直觀上,我們
所要經(jīng)過的路線應(yīng)該是兩點(diǎn)之間那條彎曲的線,而不是像在三維空間中簡(jiǎn)單
地通過A點(diǎn)到B點(diǎn)之間的直線過去。數(shù)學(xué)上,流形是局部具有歐氏空間性質(zhì)的
空間,它能夠幫助我們更好地理解數(shù)據(jù)中“曲面”的概念。人工智能對(duì)非線
性結(jié)構(gòu)的研究認(rèn)為,數(shù)據(jù)的非線性規(guī)律實(shí)際上是由一個(gè)低維流形映射到高維
空間所產(chǎn)生的。一些高維中的數(shù)據(jù)會(huì)產(chǎn)生維度上的冗余,實(shí)際上這些數(shù)據(jù)用
一個(gè)比較低的維度就能表示了。例如這個(gè)三維的瑞士卷,其本質(zhì)是三維空間
中的二維流形。
圖2-11 瑞士卷示意圖
通過上述對(duì)瑞士卷的描述,我們就很容易理解,非線性規(guī)律并不是存在
于平面之中,而是在曲面上。發(fā)現(xiàn)數(shù)據(jù)的非線性規(guī)律的方法叫作“流形學(xué)
習(xí)”。流形學(xué)習(xí)是在著名的科學(xué)雜志《科學(xué)》(Science)中被提出來的,引
起了人工智能界的極大關(guān)注。它假設(shè)數(shù)據(jù)均勻采樣于一個(gè)高維歐氏空間中的低維流形,即從高維數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu),并求出相應(yīng)的映射關(guān)系,以
實(shí)現(xiàn)數(shù)據(jù)的智能分析或者數(shù)據(jù)可視化。
流形學(xué)習(xí)可以用于研究人臉數(shù)據(jù)。例如,我們從已有的人臉數(shù)據(jù)庫(kù)中選
擇一些人臉圖像。經(jīng)過流形學(xué)習(xí)分析,就會(huì)發(fā)現(xiàn)這些人臉圖像由于拍攝角
度、光線或者是表情姿勢(shì)的不同,呈現(xiàn)出不同的特征。如圖2-12左邊的圖所
示,每幅圖像對(duì)應(yīng)空間中的一個(gè)點(diǎn)。為了讓可視化結(jié)果更加明確,圖2-12右
邊的圖中簡(jiǎn)化保留了十幅最有代表性的圖像。
圖2-12 人臉高維空間示意圖
對(duì)上圖仔細(xì)分析我們可以發(fā)現(xiàn),這些代表性的面部圖像顯示在空間的不
同部分。人臉圖像被分割成兩部分。左側(cè)部分包括閉著嘴的面部圖像,右側(cè)
部分包括張口的面部圖像。這是因?yàn)樵谖覀兊拿娌繄D像被投射到更低維的空
間時(shí),圖像中的相鄰點(diǎn)在低維空間中更近,圖像中的遠(yuǎn)點(diǎn)在低維空間中更
遠(yuǎn),所以形成了我們現(xiàn)在看到的排列順序。經(jīng)過觀察我們可以發(fā)現(xiàn),這些圖
像是按照人臉的表情和姿勢(shì)來分布的,這就是隱藏于其中的分布規(guī)律。通過
這個(gè)實(shí)驗(yàn),我們發(fā)現(xiàn)了這些人臉圖像所構(gòu)成的流形,那些在線性空間表示不
了的姿勢(shì)和表情,在人臉的非線性結(jié)構(gòu)之中都可以表示出來。
近年來,準(zhǔn)確地刻畫人體動(dòng)作成為多個(gè)領(lǐng)域的研究熱點(diǎn)。而隨著人工智
能的興起和發(fā)展,越來越多的人開始從全新的角度理解人體動(dòng)作,例如根據(jù)
人體動(dòng)作數(shù)據(jù)的非線性規(guī)律來建立人體動(dòng)作模型。利用數(shù)據(jù)的非線性結(jié)構(gòu)來
建立動(dòng)作模型有廣泛的實(shí)用性,例如用于動(dòng)作識(shí)別或者動(dòng)畫生成。下面我們
就從這兩個(gè)方面來了解非線性規(guī)律下的人體動(dòng)作模型。人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要問題。比如說,在體育或者
醫(yī)療場(chǎng)景下經(jīng)常需要準(zhǔn)確地識(shí)別出人體的動(dòng)作。以前如果想要對(duì)人體動(dòng)作進(jìn)
行精準(zhǔn)的識(shí)別,需要用多個(gè)攝像機(jī)或從多個(gè)視角拍攝記錄人體動(dòng)作。雖然這
樣生成的模型可以識(shí)別出人體的動(dòng)作,但這一般是在實(shí)驗(yàn)室環(huán)境中進(jìn)行的,過程繁復(fù),效率低下。隨著流形學(xué)習(xí)的發(fā)展,人們開始嘗試通過人體動(dòng)作的
非線性規(guī)律來構(gòu)建動(dòng)作模型。通過這種方式來建立動(dòng)作模型,僅用一個(gè)攝像
機(jī)拍攝即可,然后通過流形學(xué)習(xí)方法對(duì)拍攝的視頻進(jìn)行分析,利用動(dòng)作數(shù)據(jù)
的非線性流形結(jié)構(gòu)來形成動(dòng)作模型。這樣生成的動(dòng)作模型,對(duì)于站立、轉(zhuǎn)身
和行走等十三種動(dòng)作類型的識(shí)別錯(cuò)誤率僅在1%左右,可以在自然環(huán)境下應(yīng)
用,比如可以用于識(shí)別比賽中運(yùn)動(dòng)員或者醫(yī)院中病人的動(dòng)作。
下面再來了解用于動(dòng)畫生成的人體動(dòng)作模型,它可以幫助動(dòng)畫師生成自
然流暢的動(dòng)畫人物的運(yùn)動(dòng)過程,讓角色動(dòng)畫的創(chuàng)作過程變得更加便捷。傳統(tǒng)
動(dòng)畫制作分為兩種,一種是逐幀動(dòng)畫,需要?jiǎng)赢嫀熞粠粠剡M(jìn)行繪畫制
作,雖然效果真實(shí)細(xì)膩,但是制作時(shí)間極長(zhǎng),制作負(fù)擔(dān)很大,最終輸出的文
件量也很大;另一種是補(bǔ)間動(dòng)畫,需要通過計(jì)算機(jī)自動(dòng)補(bǔ)幀來生成動(dòng)畫,雖
然減輕了工作負(fù)擔(dān),但是生成的人物動(dòng)作會(huì)出現(xiàn)不自然不連貫的現(xiàn)象。近年
來基于流形的動(dòng)作模型越發(fā)成熟,可以將動(dòng)畫制作置于流形空間中,而不是
用傳統(tǒng)動(dòng)畫制作的方式進(jìn)行。根據(jù)這個(gè)思路,需要自動(dòng)學(xué)習(xí)在非線性流形中
的大量人物動(dòng)作數(shù)據(jù),這樣形成的動(dòng)作模型就可以用來自動(dòng)合成動(dòng)畫。如圖
2-13所示,動(dòng)畫師如果想要生成人物在某條彎曲的道路上奔跑或行走的動(dòng)
畫,可以直接通過調(diào)取關(guān)于奔跑或行走的流形數(shù)據(jù),輕松生成真實(shí)自然的人
物動(dòng)畫序列。
圖2-13 人物動(dòng)畫序列示意圖
對(duì)于佳麗來說,特征臉揭示了她們臉部圖片數(shù)據(jù)的線性規(guī)律;對(duì)于人體
動(dòng)作而言,非線性結(jié)構(gòu)提供了更好地運(yùn)用相應(yīng)數(shù)據(jù)的框架。但需要特別注意
的一點(diǎn)是,不論是具有線性規(guī)律的數(shù)據(jù)還是具有非線性規(guī)律的數(shù)據(jù),都是具
有許多維度的高維數(shù)據(jù),要想找到這些數(shù)據(jù)的規(guī)律,都需要將其投射到更低
的維度。這個(gè)更低維度預(yù)先是不確定的,我們通過人工智能模型的分析和處
理,最終在恰當(dāng)?shù)牡途S度空間里更好地表示了數(shù)據(jù)內(nèi)在的結(jié)構(gòu)。天不言而四時(shí)行,地不語(yǔ)而百物生,天地萬物都有其運(yùn)行的規(guī)律。本節(jié)
討論的數(shù)據(jù)內(nèi)在的規(guī)律性是AI思維的底層邏輯之一,也是基于幾何結(jié)構(gòu)的人
工智能模型形成的基礎(chǔ)。理解這些規(guī)律,可以幫助我們更好地理解數(shù)據(jù)本
身,幫助我們?cè)谑褂萌斯ぶ悄軙r(shí)“知其然”更“知其所以然”,構(gòu)筑一個(gè)更
加完整的AI思維體系。第三章
AI煉金術(shù):數(shù)據(jù)產(chǎn)生價(jià)值
這正是歷史知識(shí)的矛盾。知識(shí)如果不能改變行為,就沒有用處。但知識(shí)
一旦改變了行為,本身就立刻失去意義。我們擁有越多數(shù)據(jù),對(duì)歷史了解越
深入,歷史的軌跡就改變得越快,我們的知識(shí)也過時(shí)得越快。
—《未來簡(jiǎn)史》—
方法論是以解決問題為目標(biāo)的體系或系統(tǒng)。在方法論的指導(dǎo)下我們會(huì)有
一個(gè)縱觀全局的廣闊視野,有一套統(tǒng)籌全局的落地方法。缺乏方法論的指
導(dǎo),不論多么充滿智慧的思維都難逃紙上空談的結(jié)局。AI思維就是從理論到
實(shí)踐的一套完整的思維,它既有理論層面關(guān)于人工智能的認(rèn)識(shí),也有實(shí)踐層
面指導(dǎo)人工智能落地的方法論。本章旨在講清楚AI思維中的“術(shù)”,也就是
從方法論的角度闡述AI思維是如何從數(shù)據(jù)中得出決策,創(chuàng)造出源源不斷的價(jià)
值的。數(shù)據(jù)量越發(fā)龐大,以術(shù)理事,AI煉金術(shù)可理清紛繁復(fù)雜的數(shù)據(jù);新問
題層出不窮,以術(shù)馭事,AI煉金術(shù)可將數(shù)據(jù)為我所用,優(yōu)化業(yè)務(wù)結(jié)果;面臨
抉擇猶豫不決,以術(shù)成事,AI煉金術(shù)可通過深度學(xué)習(xí)等人工智能模型驅(qū)動(dòng)決
策。接下來就讓我們了解一下,AI煉金術(shù)到底是如何從數(shù)據(jù)中創(chuàng)造出價(jià)值
的。從數(shù)據(jù)到價(jià)值的歷程
在人工智能的整個(gè)生態(tài)系統(tǒng)中,數(shù)據(jù)既是根本,也是重點(diǎn)。在人類社會(huì)
中,數(shù)據(jù)無處不在,而且生生不息,越來越多。我們每天的所看所感都可以
轉(zhuǎn)化為數(shù)據(jù),這些數(shù)據(jù)就是各種行為和現(xiàn)象的記錄。特別是在互聯(lián)網(wǎng)如此發(fā)
達(dá)的當(dāng)下,我們能夠接觸和獲取到的數(shù)據(jù)更為多維、多樣而且龐雜。當(dāng)然,這對(duì)于人工智能的運(yùn)用來說,完全是一件好事,因?yàn)槿斯ぶ悄艿倪\(yùn)行離不開
數(shù)據(jù)的支持。對(duì)于人工智能來說,數(shù)據(jù)更多,就相當(dāng)于煉油廠運(yùn)來了更多的
原油,人工智能就能夠更好地運(yùn)作,為人類的生產(chǎn)、生活增添價(jià)值。人工智
能通過數(shù)據(jù)驅(qū)動(dòng)決策而產(chǎn)生的變現(xiàn)是我們能夠真實(shí)看到的,比如優(yōu)化提升的
用戶體驗(yàn),實(shí)打?qū)嵉臉I(yè)績(jī)、利潤(rùn),或者是口袋里不斷飆升的年終獎(jiǎng)。
關(guān)于數(shù)據(jù)的重要性,我們先從奈飛(Netflix)的案例說起。奈飛最出名
的身份是世界最大的在線影片租賃服務(wù)商,但它同時(shí)也是美國(guó)的流媒體巨
頭,業(yè)務(wù)廣泛,也涉足影視劇拍攝。奈飛想在好劇頻出的美劇圈拍攝出一部
像《權(quán)力的游戲》《生活大爆炸》《破產(chǎn)姐妹》這樣的高人氣劇集,于是它
開始探索——究竟該怎么做呢?據(jù)統(tǒng)計(jì),奈飛在全世界的訂閱用戶總量達(dá)3
300萬;每天,用戶都會(huì)在奈飛的網(wǎng)站上產(chǎn)生3 000多萬個(gè)行為,訂閱用戶會(huì)
在網(wǎng)站上給出400多萬個(gè)評(píng)分和300多萬次搜索請(qǐng)求,詢問劇集播放時(shí)間等。
奈飛借助這些大數(shù)據(jù)進(jìn)一步分析——通過分析幾千萬用戶的觀影歷史、觀影
題材內(nèi)容、故事情節(jié)、演員選擇以及對(duì)不同影視劇的評(píng)分等數(shù)據(jù),決定拍攝
一部有關(guān)一位參議員的連續(xù)劇,這部劇就是政治題材的人氣美劇《紙牌
屋》。該劇一經(jīng)播出就獲得了巨大成功,在美國(guó)及40多個(gè)國(guó)家和地區(qū)成為最
熱門的在線劇集之一。因?yàn)檫@次新鮮的嘗試,奈飛前所未有地獲得了112項(xiàng)艾
美獎(jiǎng)提名,也讓美劇巨頭HBO(Home Box Offi ce)電視網(wǎng)18年來第一次失去
了劇集霸主的地位。
《紙牌屋》的驚人成就離不開奈飛數(shù)以億萬計(jì)的數(shù)據(jù)的支持。由此可
見,數(shù)據(jù)是新時(shí)代商業(yè)取勝的重要因素。就像上面說的,奈飛通過對(duì)大量受
眾數(shù)據(jù)的分析,采取合理決策方案,最終獲取了極大的效益和聲譽(yù)。所以數(shù)據(jù)是AI思維的基礎(chǔ),要從數(shù)據(jù)產(chǎn)生價(jià)值,就要利用人工智能通過對(duì)數(shù)據(jù)的深
度分析,引導(dǎo)決策者做出最優(yōu)決策,從而落地價(jià)值。
如何把數(shù)據(jù)變?yōu)閮r(jià)值,主要涉及兩個(gè)問題。第一個(gè)問題,什么樣的數(shù)據(jù)
在場(chǎng)景中有價(jià)值?無論是在電商行業(yè)、廣告行業(yè)、教育行業(yè),還是生產(chǎn)制造
行業(yè),企業(yè)的負(fù)責(zé)人都會(huì)不約而同地考慮他們要在網(wǎng)站或者設(shè)備、機(jī)器上收
集什么樣的數(shù)據(jù)。其實(shí),只要是有效數(shù)據(jù),都能為之所用,只不過要如何用
或者用來做什么各不相同罷了。第二個(gè)問題是,如何通過人工智能讓這些數(shù)
據(jù)產(chǎn)生價(jià)值?這個(gè)問題已經(jīng)得到了初步的解答:人工智能從誕生到現(xiàn)在已經(jīng)
經(jīng)歷了幾十個(gè)年頭,所以行業(yè)內(nèi)已經(jīng)有比較通用的模式應(yīng)用人工智能,從而
可以從數(shù)據(jù)中提取價(jià)值。
人工智能的應(yīng)用并非只對(duì)行業(yè)的格局產(chǎn)生影響,實(shí)際上,它與我們的日
常生活也息息相關(guān),F(xiàn)代人每天奔波于公司與家的兩點(diǎn)一線中,一旦有了節(jié)
假日這樣屬于自己的時(shí)間,大部分人都會(huì)選擇出門逛街看風(fēng)景、到商場(chǎng)購(gòu)
物,或是看一場(chǎng)熱映的電影,拋掉平日工作的緊張,讓身心徹底放松。所
以,我們都希望自己能夠得到全方位的引導(dǎo)和服務(wù),而不想再在這方面花費(fèi)
大量時(shí)間和精力了。但是,一般情況下,商家并不能很清楚地知道哪些顧客
需要什么樣的商品,所以盡管每天都有很多顧客路過店家門口,卻并不能實(shí)
現(xiàn)有效轉(zhuǎn)化。另一方面,消費(fèi)者難得有了一個(gè)放松休閑的機(jī)會(huì),卻因?yàn)闆]能
夠快速、準(zhǔn)確地找到相關(guān)商品或者服務(wù)而影響了大好心情。為解決這些問
題,人工智能就派上了用場(chǎng):商家可以通過人工智能對(duì)顧客數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)顧客需求,根據(jù)需求定期向顧客推送商品或者服務(wù)的信息;用戶接收到
信息,也不必為自己在休息時(shí)去哪里、做什么這樣的問題而絞盡腦汁,只需
要放假時(shí)直接去商家店里選擇自己心儀的商品和服務(wù)就可以了。最終的結(jié)果
很大概率是產(chǎn)生了交易。換言之,人工智能為商業(yè)活動(dòng)帶來了實(shí)際價(jià)值。
從AI思維角度來說,人工智能可以從數(shù)據(jù)中提取價(jià)值,可只有數(shù)據(jù)是不
夠的,數(shù)據(jù)量還必須充足。如果沒有對(duì)足夠的數(shù)據(jù)進(jìn)行分析,或者對(duì)數(shù)據(jù)的
利用不夠恰當(dāng),都可能導(dǎo)致決策失誤。決策一旦失誤,自然會(huì)影響到整個(gè)行
為最終訴諸的回報(bào),也就是我們所說的價(jià)值。
數(shù)據(jù)產(chǎn)生決策:為了懂你,我學(xué)了很多知識(shí)有了充足的數(shù)據(jù),就等于是為人工智能這個(gè)系統(tǒng)備足了原料,接下來我
們就來看一下,AI煉金術(shù)是如何從數(shù)據(jù)中挖掘出價(jià)值的。如圖3-1所示,這整
個(gè)過程包含了四個(gè)步驟。我們將通過全球知名的高端化妝品品牌蘭蔻使用人
工智能機(jī)器人促進(jìn)銷量的案例來進(jìn)行仔細(xì)分析。
圖3-1 從數(shù)據(jù)產(chǎn)生價(jià)值的過程示意圖
第一步,從數(shù)據(jù)產(chǎn)生決策。消費(fèi)者千千萬,每個(gè)人都有各自的喜好和適
用款,所以他們的行為是多樣的;而從人的單方面觀感上又很難判斷哪類
人、多少人喜歡怎樣的商品、怎樣的服務(wù),適合怎樣的款式。為此,蘭蔻引
入人工智能機(jī)器人,并使其化身為蘭蔻專柜導(dǎo)購(gòu)中的一員。要使人工智能機(jī)
器人勝任這個(gè)崗位需要做很多前期準(zhǔn)備,其中最重要的兩點(diǎn)是——第一,熟
記并靈活運(yùn)用所有產(chǎn)品信息、賣點(diǎn)和美妝知識(shí);第二,快速明確顧客需求,推薦給顧客真正需要的東西。從具體場(chǎng)景來說,蘭蔻專柜的大部分顧客是女性,但不同女性對(duì)化妝
品、護(hù)膚品的需求千差萬別。有的人注重爆款,有的人注重功效,有的人注
重成分,甚至有人買化妝品只是為了試色。對(duì)于過往的真人導(dǎo)購(gòu)來說,首
先,他們必須了解每一種產(chǎn)品的功效、成分、適用人群等,才能很好地應(yīng)對(duì)
顧客的層層“拷問”。其次,導(dǎo)購(gòu)還需要熟悉不同膚質(zhì)、不同膚色、不同臉
型的顧客適合的美妝產(chǎn)品,才能留住顧客的心。人工智能機(jī)器人導(dǎo)購(gòu)員如何
掌握這樣的“讀心術(shù)”呢?一方面,人工智能機(jī)器人通過與顧客進(jìn)行對(duì)話交
流,理解和預(yù)測(cè)出顧客的需求;另一方面,人工智能機(jī)器人還需要從多種來
源的數(shù)據(jù)中挖掘獲取美妝行業(yè)的知識(shí),并通過分析整合,為用戶進(jìn)行精準(zhǔn)的
推薦與引導(dǎo),讓顧客享受到愉悅的購(gòu)物體驗(yàn)。
決策到行動(dòng):為了提高顧客滿意度,我使盡渾身解數(shù)
第二步,從決策到具體行動(dòng)。從數(shù)據(jù)到?jīng)Q策的過程讓我們知道了不同用
戶的需求,為具體行動(dòng)提供了方向。具體行動(dòng)是要深入到個(gè)體,根據(jù)目標(biāo)用
戶的具體喜好來分析的。為了讓用戶的體驗(yàn)最優(yōu)化,人工智能機(jī)器人做足了
功課,不遺余力地提高顧客的滿意度。在給顧客進(jìn)行推介交流時(shí),人工智能
機(jī)器人可以像真人導(dǎo)購(gòu)一樣為大家進(jìn)行對(duì)話式個(gè)性化推薦。
在對(duì)話的場(chǎng)景下,人工智能機(jī)器人可以通過三種方式向顧客進(jìn)行推介。
首先是要理解顧客的語(yǔ)言來分析對(duì)方需求,例如,對(duì)方說:“我這幾天臉上
皺紋有點(diǎn)多,皮膚也很干,有什么產(chǎn)品推薦嗎?”人工智能機(jī)器人能夠根據(jù)
對(duì)這些語(yǔ)句的理解和分析,進(jìn)行智能推薦:“試試具有滋潤(rùn)功效的小黑
瓶!”其次,人工智能機(jī)器人可以通過人臉屬性識(shí)別來了解用戶需求。例
如,有顧客問:“我這個(gè)年紀(jì)適合用什么呀?”人工智能機(jī)器人能夠通過對(duì)
該顧客面部的掃描識(shí)別,發(fā)現(xiàn)對(duì)方有皺紋、年齡偏大,并非常情感化地回
復(fù):“皺紋不可怕,推薦塑顏緊致系列哦!”最后,基于前期大量的知識(shí)學(xué)
習(xí)和數(shù)據(jù)輸入,人工智能機(jī)器人能夠進(jìn)行多元數(shù)據(jù)挖掘與推薦。比如,當(dāng)有
顧客表露:“我要一只鬼怪色口紅送人!比斯ぶ悄軝C(jī)器人能夠?qū)⑦@些信息
與內(nèi)置的數(shù)據(jù)庫(kù)匹配,給出精準(zhǔn)引導(dǎo):“鬼怪色的色號(hào)是290,超美,在口紅
區(qū)!”或者當(dāng)顧客問道:“最近換季,有什么推薦呢?”人工智能機(jī)器人也
能根據(jù)所學(xué)知識(shí)為顧客解憂:“試試水光潤(rùn)系列,深入補(bǔ)水還能抗氧化,非
;,廣受好評(píng)哦!”有些顧客拿不準(zhǔn)自己的偏好,可能會(huì)問:“我想買個(gè)眼霜,最近流行的哪種比較好呀?”此時(shí),人工智能機(jī)器人會(huì)根據(jù)以往的消
費(fèi)者數(shù)據(jù),提供合理的推薦:“今天已經(jīng)有19個(gè)顧客小姐姐詢問過小黑瓶大
眼精華眼霜呢,要不要試試?”
無論是哪一類顧客、哪一種需求,人工智能機(jī)器人都能根據(jù)大量的數(shù)據(jù)
基礎(chǔ),依靠人工智能進(jìn)行分析,為顧客提供高質(zhì)量的推薦。這樣,在精準(zhǔn)給
到高質(zhì)量信息的情況下,人工智能機(jī)器人提高了顧客的滿意度。
個(gè)體產(chǎn)生結(jié)果:真是太能干了!
第三步,個(gè)體產(chǎn)生結(jié)果。在得到了這一系列的推薦后,顧客開始做出相
應(yīng)的行動(dòng)。在此之前,蘭蔻專柜的負(fù)責(zé)人曾表示:“有時(shí)候顧客太多,難免
有照顧不周的地方,如何提升服務(wù)質(zhì)量、給顧客最佳的體驗(yàn),是我們一直思
考的事情。”而當(dāng)人工智能機(jī)器人加入后,迎送賓客、為顧客解答疑問、推
薦化妝品、漫游行走尋找指定產(chǎn)品等工作都可以全權(quán)交給人工智能機(jī)器人去
做,并且這樣能給顧客帶來趣味性、多樣化的購(gòu)物體驗(yàn)。在場(chǎng)受到人工智能
機(jī)器人幫助的顧客都驚嘆:“真是太能干了!”
更準(zhǔn)確地來說,人工智能機(jī)器人在為導(dǎo)購(gòu)人員提供更好的幫助的同時(shí),也為顧客帶來了更智能的服務(wù),讓他們擁有“上帝之感”,開啟了顧客愉快
的購(gòu)物體驗(yàn)。在現(xiàn)場(chǎng),有位女士問:“能幫我找一下大粉水嗎?”“人工智
能機(jī)器人帶你去看看吧。”這位女士感嘆:“萬萬沒想到,接待自己的居然
是一個(gè)機(jī)器人!”
以往人們?nèi)セ瘖y品專賣店購(gòu)物,進(jìn)門不到三分鐘就會(huì)有好幾個(gè)美容導(dǎo)購(gòu)
員寸步不離地進(jìn)行推銷,即使有些人已經(jīng)有了選購(gòu)的目標(biāo),導(dǎo)購(gòu)員依然會(huì)跟
在身后不厭其煩地介紹。這些導(dǎo)購(gòu)員的過度熱情令人十分尷尬,也使得導(dǎo)購(gòu)
員這一角色備受爭(zhēng)議。但是如今,導(dǎo)購(gòu)機(jī)器人的出現(xiàn)解決了這類問題,同時(shí)
也滿足了顧客對(duì)咨詢、引導(dǎo)的需要。
實(shí)現(xiàn)價(jià)值:人工智能服務(wù)于人類的一次探索第四步,實(shí)現(xiàn)價(jià)值。說到價(jià)值,人工智能機(jī)器人的出現(xiàn),滿足了顧客的
購(gòu)物需求,給顧客帶來了美好的休閑體驗(yàn)。這對(duì)于商家來說又意味著什么
呢?或者說,商家從中獲得了什么呢?這次蘭蔻與人工智能機(jī)器人的跨界合
作,是美妝與人工智能的一次探索。目前,人工智能已經(jīng)落地多個(gè)行業(yè),有
效地輔助著人們的工作。有了“美妝知識(shí)+機(jī)器人”這樣的人工智能解決方
案,導(dǎo)購(gòu)能夠從基礎(chǔ)的重復(fù)性勞動(dòng)中解放出來,學(xué)習(xí)更多的專業(yè)知識(shí)和技
巧,提升個(gè)人服務(wù)能力。這也就意味著,商家能夠在減少許多人力成本的同
時(shí),更好地在導(dǎo)購(gòu)層面提升質(zhì)量。除此之外,人工智能機(jī)器人還可以基于人
臉屬性識(shí)別和顧客歷史消費(fèi)數(shù)據(jù)等,進(jìn)行精準(zhǔn)營(yíng)銷。比如,針對(duì)陌生的女性
顧客優(yōu)先推薦促銷信息,或者為有商品咨詢記錄的顧客提供定制化的商品介
紹、引導(dǎo)等購(gòu)物服務(wù)。這樣,給商家?guī)淼淖罱K的價(jià)值是,他們能夠獲取極
高的顧客購(gòu)買率。
人的認(rèn)知有時(shí)候是一個(gè)很主觀的過程,在化妝品領(lǐng)域更是如此?赡苓@
幾天周圍的人都在討論豆沙色的口紅或者玫瑰香的粉底液,你就直觀地認(rèn)為
他們一定喜歡這類化妝品,或者說全國(guó)、全世界范圍內(nèi)的顧客都會(huì)喜歡這個(gè)
款式。但有時(shí)候人們的討論焦點(diǎn)的觸發(fā)動(dòng)機(jī)并不是單一的,這些動(dòng)機(jī)在日常
的對(duì)話中并不能準(zhǔn)確體現(xiàn)出來,那么這樣的主觀揣測(cè)就未免過于武斷。有些
顧客之所以買豆沙色的口紅,是因?yàn)檫@款口紅剛好是她喜歡的演員或者偶像
代言的;有些顧客之所以買豆沙色的口紅,是因?yàn)閯偤糜刑滓路c之相配。
這種階段性的需求可能過段時(shí)間就不靈了。如果始終按照之前的需求為顧客
推薦,就可能會(huì)出現(xiàn)顧客需要粉底液而為她推薦防曬霜的“錯(cuò)配”現(xiàn)象。在
這一方面,人工智能可以精準(zhǔn)地抓取顧客在方方面面留下的跡象進(jìn)行組合判
斷,更全面、更精準(zhǔn)、更客觀地判斷出你究竟對(duì)哪種化妝品里的哪種因素
更“來電”。所以,我們要摒棄下意識(shí)的主觀感受,恰如其分地挖掘、利用
好數(shù)據(jù)。
這四步完成,實(shí)際上我們就走完了從數(shù)據(jù)到價(jià)值的一次旅程:人工智能
機(jī)器人通過對(duì)大量數(shù)據(jù)進(jìn)行學(xué)習(xí),了解顧客的需求,定向合理地推薦一些符
合受眾品位的化妝產(chǎn)品。對(duì)于顧客來說,他們能夠及時(shí)獲取最符合自己興趣
和心意的產(chǎn)品,滿足了自身愉悅購(gòu)物的需求;對(duì)于商家而言,顧客對(duì)感興趣
產(chǎn)品的咨詢和光顧次數(shù),就直接影響了顧客的購(gòu)買率。
這是一個(gè)從數(shù)據(jù)出發(fā),到價(jià)值為止的過程。但一次業(yè)績(jī)的提升并不是終
點(diǎn),人工智能還會(huì)把這一次的數(shù)據(jù)反饋到模型里,從而提升下一輪的決策質(zhì)量,也就是說,數(shù)據(jù)和人工智能會(huì)持續(xù)地為我們帶來價(jià)值。所以對(duì)于像蘭蔻
這樣的商家和企業(yè)來說,運(yùn)用人工智能其實(shí)就是了解顧客需求的過程,并能
夠有效地提升服務(wù)。
到這兒我們總結(jié)一下,AI思維的核心競(jìng)爭(zhēng)力是去平均化的能力。所謂的
平均化思維,指的是無差別化,每個(gè)人、每個(gè)產(chǎn)品都同質(zhì)化;而去平均化,則是肯定人與人、環(huán)境與環(huán)境的差異性,不同的人有不同的想法和喜好,根
據(jù)這些差異化需求產(chǎn)出差異化體驗(yàn)。我們可以通過數(shù)據(jù)和人工智能準(zhǔn)確理解
每個(gè)人的潛在動(dòng)機(jī),從而最優(yōu)化決策,達(dá)到各自理想的目標(biāo)。如能合理使
用,無疑將帶來更高的生產(chǎn)力和更合理的資源利用方式,產(chǎn)生新的價(jià)值。AI
煉金術(shù)便能從數(shù)據(jù)中產(chǎn)生價(jià)值,同時(shí)它也是AI思維的具象表現(xiàn)形式。
通過人工智能決策來實(shí)現(xiàn)價(jià)值的源頭是數(shù)據(jù),所以,數(shù)據(jù)的廣度和精確
度決定了人工智能能夠?yàn)槿祟愖龀龆啻蟮呢暙I(xiàn)。數(shù)據(jù)越多,越能更全面地反
映個(gè)體的實(shí)際行為與想法,人工智能的預(yù)測(cè)就會(huì)越精準(zhǔn)。如果賦予人類預(yù)測(cè)
的能力的話,我想大多數(shù)人都會(huì)選擇先預(yù)測(cè)一下自己的命運(yùn)。所謂“知生死
安天命”,隨著人類身體數(shù)據(jù)的累積,人工智能對(duì)病人的死亡時(shí)間預(yù)測(cè)的準(zhǔn)
確率也有望更加精準(zhǔn)。相關(guān)資料顯示,科學(xué)家通過人工智能解讀數(shù)據(jù),利用
200萬份電子病歷來進(jìn)行人工智能深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,全方位審查患者家族
史、用藥情況、各項(xiàng)體質(zhì)指數(shù)、食物攝入等因素,進(jìn)而能夠預(yù)測(cè)機(jī)體的未
來。目前,這一人工智能模型已經(jīng)能夠依據(jù)大量的數(shù)據(jù)提前12個(gè)月預(yù)測(cè)到患
者的死亡時(shí)間,準(zhǔn)確率達(dá)90%。研究團(tuán)隊(duì)還將這一預(yù)測(cè)結(jié)果與英國(guó)國(guó)家統(tǒng)計(jì)署
的死亡記錄、英國(guó)癌癥注冊(cè)記錄等數(shù)據(jù)庫(kù)的死亡數(shù)據(jù)進(jìn)行了比對(duì),之后又將
這套人工智能模型與兩項(xiàng)標(biāo)準(zhǔn)的預(yù)測(cè)方法進(jìn)行比較,結(jié)果顯示,這一新模型
的準(zhǔn)確率比之前的預(yù)測(cè)方法高了10.1%。
根據(jù)上面這些數(shù)據(jù),科學(xué)家們不僅能夠預(yù)測(cè)到很多原本無法定論的結(jié)
果,而且還能了解到影響人生命期限的多種因素,從而使人們根據(jù)這些結(jié)果
對(duì)自身生活習(xí)慣進(jìn)行調(diào)整,達(dá)到延長(zhǎng)生命的目的。例如,科學(xué)家在實(shí)驗(yàn)中對(duì)
受試者的水果、蔬菜、肉類、奶酪、谷物、魚類、酒精等食品攝入的量做了
考查,找到最利于生命體健康的飲食攝入比例,在病人治療期、康復(fù)期對(duì)其
飲食結(jié)構(gòu)進(jìn)行調(diào)整,使其達(dá)到促進(jìn)機(jī)體代謝健康的目的。這也是人工智能通
過數(shù)據(jù)進(jìn)行預(yù)測(cè)的價(jià)值所在。新制度經(jīng)濟(jì)學(xué)的鼻祖、諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者羅納德·科斯曾說
過:“如果你拷問數(shù)據(jù)到一定程度,它會(huì)坦白一切!贝髷(shù)據(jù)包羅萬象,能
夠?qū)⒃S多看似并不相關(guān)的事件聯(lián)系在一起,使我們能夠更加清晰明了地把握
事物發(fā)展的趨勢(shì),跟上瞬息萬變的社會(huì)潮流。誰(shuí)掌握了大數(shù)據(jù),誰(shuí)就掌握了
主動(dòng)權(quán),不僅能夠決策世事,更能夠成全自己。但數(shù)據(jù)就像一片汪洋大海,望不到邊際,我們自己很難游上岸;這時(shí)就需要人工智能做舟——長(zhǎng)風(fēng)破浪
會(huì)有時(shí),直掛云帆濟(jì)滄海。AI如何做出決策
前面我們講了從“數(shù)據(jù)”到“價(jià)值”的歷程,大數(shù)據(jù)的出現(xiàn)使人工智能
的決策更高效更聰明。數(shù)據(jù)加人工智能,為我們?cè)跊Q策時(shí)提供了無數(shù)個(gè)在以
前無法實(shí)現(xiàn)甚至是無法想象的可能性。那么人工智能是如何一步步地將“數(shù)
據(jù)”轉(zhuǎn)化為“決策”的呢?如圖3-2所示,從“數(shù)據(jù)”產(chǎn)生“決策”的具體過
程是這樣的:首先要通過對(duì)歷史數(shù)據(jù)的特征處理產(chǎn)生特征數(shù)據(jù),然后通過機(jī)
器學(xué)習(xí)產(chǎn)生預(yù)測(cè)模型,之后需要通過模型評(píng)估來產(chǎn)生回測(cè)效果。在回測(cè)中檢
驗(yàn)合格的模型就可以投入生產(chǎn),生產(chǎn)過程中如果有新的個(gè)體數(shù)據(jù)輸入,就會(huì)
通過生產(chǎn)模型得到預(yù)測(cè)分?jǐn)?shù),根據(jù)預(yù)測(cè)分?jǐn)?shù)的高低和其他因素進(jìn)行業(yè)務(wù)優(yōu)
化,產(chǎn)生針對(duì)個(gè)體數(shù)據(jù)的業(yè)務(wù)決策。模型本身也要受到監(jiān)控,監(jiān)控的目的是
產(chǎn)生質(zhì)量報(bào)告,來確保模型正常運(yùn)行。這一整套框架被稱為“人工智能決策
引擎”,接下來我們將對(duì)它進(jìn)行詳細(xì)了解。
圖3-2 人工智能決策引擎示意圖
數(shù)據(jù)和特征處理毋庸置疑,數(shù)據(jù)是當(dāng)下這個(gè)時(shí)代很重要的一種資產(chǎn)。我們經(jīng)常提到的大
數(shù)據(jù)有“3V”:Volume,即數(shù)據(jù)量,以往數(shù)據(jù)量少,以MB、GB為單位,但是
隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)不斷積累,現(xiàn)在數(shù)據(jù)量已經(jīng)發(fā)展到了以PB、EB、ZB
為單位表示;Variety,即多樣性,根據(jù)數(shù)據(jù)的結(jié)構(gòu)是否統(tǒng)一,將數(shù)據(jù)分為結(jié)
構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù);Velocity,即速度,指的是數(shù)
據(jù)的產(chǎn)生速度越來越快。
那么數(shù)據(jù)是如何產(chǎn)生的呢?首先,社會(huì)在發(fā)展、人類在生活,就會(huì)有源
源不斷的新數(shù)據(jù)涌現(xiàn)出來。無論是機(jī)器生產(chǎn)還是市場(chǎng)營(yíng)銷活動(dòng),都沉淀了越
來越多的數(shù)據(jù)。其次,隨著互聯(lián)網(wǎng)的發(fā)展,知識(shí)的權(quán)威性不斷下降,任何人
都可以成為信息的發(fā)布者,數(shù)據(jù)就這樣不斷地積累,數(shù)量越來越多。最后,隨著學(xué)科的不斷發(fā)展,人們描述同一類型事物的角度越來越多,例如隨著基
因科學(xué)的發(fā)展,現(xiàn)在用來描述基因的指標(biāo)維度非常多,比如說,每個(gè)人的
DNA(脫氧核糖核酸)分子是由約30億個(gè)堿基對(duì)按精確的順序排列而成的,一
個(gè)堿基對(duì)就對(duì)應(yīng)了一個(gè)維度,那么一個(gè)人的DNA分子就有幾十億個(gè)維度。像這
樣的例子其實(shí)還有很多,數(shù)據(jù)就這樣不斷積累到了一個(gè)非常龐大的數(shù)量。
通常,在各種各樣的業(yè)務(wù)過程中形成的歷史數(shù)據(jù)很雜亂,并且分散在不
同的數(shù)據(jù)庫(kù)和數(shù)據(jù)表里,不夠系統(tǒng)化。為了更好地利用它們,我們需要把它
們整合在一起,得到一套結(jié)構(gòu)明確、條理清晰、便于理解的系統(tǒng)化數(shù)據(jù)。比
如說現(xiàn)在需要處理一份在過去兩年時(shí)間里形成的顧客在不同商家的消費(fèi)行為
數(shù)據(jù),由于顧客消費(fèi)行為的多變性以及商家的多樣性,這份數(shù)據(jù)的數(shù)據(jù)量龐
大且類型多樣。而人工智能會(huì)對(duì)這些復(fù)雜的數(shù)據(jù)做特征處理,特征處理是通
過對(duì)原始數(shù)據(jù)的處理和加工,將原始數(shù)據(jù)維度轉(zhuǎn)換為特征數(shù)據(jù)的過程,特征
是數(shù)據(jù)中所呈現(xiàn)出來的重要特性,通常是通過數(shù)據(jù)維度的計(jì)算、組合或轉(zhuǎn)換
得到的。經(jīng)過特征處理,數(shù)據(jù)就被加工成了機(jī)器學(xué)習(xí)能夠理解的數(shù)據(jù)形式。
過去,特征處理都是通過單臺(tái)計(jì)算機(jī)進(jìn)行,處理效率比較低。2005年,由阿帕奇(Apache)基金會(huì)所開發(fā)的哈杜普(Hadoop)可以將多臺(tái)計(jì)算機(jī)連
接在一起形成計(jì)算機(jī)集群,提供分布式并行的特征處理和分析功能,實(shí)現(xiàn)對(duì)
復(fù)雜數(shù)據(jù)的快速、可靠的計(jì)算。由于其技術(shù)的高效性,對(duì)特征處理能力的提
高,特征處理變得越來越容易,所以特征處理的門檻越來越低。到2008年左
右,越來越多的公司意識(shí)到大數(shù)據(jù)時(shí)代分布式并行計(jì)算的重要性,同樣地,這也為人工智能處理大數(shù)據(jù)提供了完善的基礎(chǔ)設(shè)施。但特征處理的過程通常也是枯燥而繁重的,看不到直接有用的結(jié)果。如果卡在這步,對(duì)企業(yè)來說,人工智能就無法落地。
機(jī)器學(xué)習(xí)和優(yōu)化
做好了特征處理,下一步就是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí),就是在特征上建立
模型的過程,這里需要選擇合適的預(yù)測(cè)模型,運(yùn)用歷史數(shù)據(jù)學(xué)習(xí)出模型。機(jī)
器學(xué)習(xí)在各行各業(yè)都開始應(yīng)用,例如在零售領(lǐng)域,通過發(fā)放優(yōu)惠券來刺激老
顧客、吸引新顧客是常用的營(yíng)銷手段,但是隨機(jī)投放優(yōu)惠券往往效果不明
顯,在某種程度上還會(huì)打擾到顧客,這樣不僅造成了營(yíng)銷成本的浪費(fèi),還會(huì)
降低品牌的聲譽(yù)。為改善營(yíng)銷效果,一些零售商采用機(jī)器學(xué)習(xí)來進(jìn)行營(yíng)銷。
機(jī)器學(xué)習(xí)根據(jù)大量消費(fèi)數(shù)據(jù)學(xué)習(xí)出預(yù)測(cè)模型,能夠預(yù)測(cè)顧客是否需要某種類
型的優(yōu)惠券,以此來決定是否向該顧客投放優(yōu)惠券。這樣不但使真正需要的
顧客享受到了優(yōu)惠,還改善了商家自身的營(yíng)銷效果。
機(jī)器學(xué)習(xí)的過程,其實(shí)和人類通過經(jīng)驗(yàn)總結(jié)生活規(guī)律再來指導(dǎo)我們之后
的生活是相類似的。我們通過生活規(guī)律來指導(dǎo)的是以后遇到的事情,同樣
地,機(jī)器學(xué)習(xí)需要預(yù)測(cè)的也是將來。未雨綢繆,早為之所,商家可以根據(jù)機(jī)
器預(yù)測(cè)提前做很多事情來促進(jìn)顧客的消費(fèi),在最短的時(shí)間內(nèi)搶占市場(chǎng)份額,擴(kuò)大利潤(rùn),也為自己爭(zhēng)取更多時(shí)間,使自己更加靈活地應(yīng)對(duì)一些突如其來的
市場(chǎng)變 ......
作者:丁磊
出版時(shí)間:2020-05-01
ISBN:9787521716375
中信出版集團(tuán)制作發(fā)行
版權(quán)所有·侵權(quán)必究推薦序
“AI思維”——人工智能的落地指南
肖京
近年來,AI越來越成為萬眾矚目的焦點(diǎn)。隨著大數(shù)據(jù)、物聯(lián)網(wǎng)和5G(第5
代移動(dòng)通信技術(shù))等技術(shù)的發(fā)展,“萬物皆可AI”不再僅僅是一個(gè)美好的愿
景,人工智能早已進(jìn)入我們的生活,并作為核心驅(qū)動(dòng)力,對(duì)各行各業(yè)進(jìn)行了
深刻的塑造和改變,推動(dòng)著國(guó)家戰(zhàn)略、經(jīng)濟(jì)結(jié)構(gòu)和商業(yè)模式的升級(jí)革新?v
觀生活的方方面面,人工智能已經(jīng)和我們的日常生活連接在了一起,并且與
每個(gè)人都息息相關(guān)。智能革命是大勢(shì)所趨。
人工智能可以分為弱人工智能、強(qiáng)人工智能和超人工智能。目前人工智
能處在弱人工智能階段,這意味著人工智能的能力是針對(duì)特定領(lǐng)域的,它只
在某些方面比人強(qiáng)。因此,人工智能作為一個(gè)賦能的體系幫助行業(yè)升級(jí)換
代,一定要跟具體的應(yīng)用領(lǐng)域深度融合在一起。人工智能的應(yīng)用領(lǐng)域非常廣
泛,在零售、工業(yè)、金融、教育和醫(yī)療等行業(yè)中起著越來越重要的作用。人
工智能的落地也迫使人類社會(huì)重新分工,促使這些傳統(tǒng)行業(yè)迅速轉(zhuǎn)型與升
級(jí)。
我們?nèi)粘I畹姆椒矫婷娑夹枰獩Q策,不論是應(yīng)用于哪種業(yè)務(wù)場(chǎng)景下的
人工智能系統(tǒng),想要發(fā)揮作用,都需要通過模型來解讀數(shù)據(jù)并作用于業(yè)務(wù),達(dá)到優(yōu)化決策的效果。思維的高度決定了決策的質(zhì)量,因此,如果說人工智
能是未來社會(huì)發(fā)展趨勢(shì)的話,那么我們有必要做一些相關(guān)知識(shí)的普及和思維
的傳播。人工智能技術(shù)不僅可以改變我們的生活方式,當(dāng)它轉(zhuǎn)化為一種思維
時(shí),更能真正地為我們的人生帶來裨益。
我與丁磊博士在人工智能領(lǐng)域有頗多的交流,我們都認(rèn)為人工智能不應(yīng)
該是浮于表面的概念。人工智能具有深刻的內(nèi)涵,值得我們靜下心來研究,也值得生活中的每個(gè)人去理解。人人都能學(xué)AI,人人都能懂AI,AI也能為人
人所用。丁磊博士在人工智能領(lǐng)域工作近20年,總結(jié)出了一套頗具特色的人
工智能知識(shí)體系和思維方式——“AI思維”。AI思維是一種通過數(shù)據(jù)驅(qū)動(dòng)決策的思維模式,包括數(shù)據(jù)、模型、算力和業(yè)務(wù)模式四要素。從數(shù)據(jù)出發(fā),通
過模型和算力形成決策,最終在業(yè)務(wù)中產(chǎn)生價(jià)值。因此,AI思維的基礎(chǔ)在于
數(shù)據(jù),核心在于模型,實(shí)現(xiàn)在于算力,應(yīng)用在于業(yè)務(wù)模式。從這種意義上
說,本書深入淺出,從“道”“法”“術(shù)”“器”“用”“勢(shì)”幾個(gè)方面循
序漸進(jìn)地向讀者介紹了從數(shù)據(jù)中創(chuàng)造價(jià)值的“煉金術(shù)”。
毋庸置疑,人腦和人工智能在處理信息上存在相似之處,我們對(duì)事物的
認(rèn)識(shí)可以分為四個(gè)階段:信息、經(jīng)驗(yàn)、規(guī)律和思維。這是一個(gè)動(dòng)態(tài)的過程,從單個(gè)信息的聯(lián)系中形成經(jīng)驗(yàn),在經(jīng)驗(yàn)中發(fā)現(xiàn)規(guī)律,再提煉升華出思維。思
維階段,也是方法論層次的總結(jié),進(jìn)一步指導(dǎo)實(shí)踐,不斷找出更多的規(guī)律和
結(jié)論。人工智能的底層邏輯就是數(shù)學(xué)規(guī)律,萬丈高樓平地起,從底層邏輯中
衍生出人工智能的知識(shí)體系。人工智能落地意味著從數(shù)據(jù)中產(chǎn)生價(jià)值,在這
個(gè)過程中人工智能既是方法和工具,也是思維邏輯,可以指導(dǎo)行業(yè)的應(yīng)用和
發(fā)展。
未來的時(shí)代一定是智能化的時(shí)代,人工智能作為各個(gè)行業(yè)的風(fēng)口,也必
然會(huì)成為未來社會(huì)的發(fā)展趨勢(shì)!禔I思維》總結(jié)了人工智能落地實(shí)踐的全過
程,并且具有優(yōu)化各種業(yè)務(wù)的突出價(jià)值。而對(duì)于個(gè)人來說,AI思維可以幫助
我們更深入地理解我們所處的時(shí)代,把握時(shí)代的機(jī)遇和發(fā)展方向,最終幫助
我們更好地生活和工作。這是人工智能的使命,也是我們理解人工智能的意
義。
1. 此推薦序作者肖京博士,現(xiàn)任中國(guó)平安集團(tuán)首席科學(xué)家、集團(tuán)執(zhí)委,曾獲第九屆吳文俊人工
智能杰出貢獻(xiàn)獎(jiǎng)。前言
數(shù)字時(shí)代,既是機(jī)遇,也是挑戰(zhàn);ヂ(lián)網(wǎng)、大數(shù)據(jù)、人工智能的發(fā)展使
得生產(chǎn)、商業(yè)和生活的各個(gè)領(lǐng)域都發(fā)生了改變,新生信息層出不窮,知識(shí)總
量爆炸式增長(zhǎng)。面對(duì)這個(gè)日新月異的時(shí)代,我們——渺小的個(gè)體,有限的精
力,受限的知識(shí)面——唯有不斷更新自我,提升認(rèn)知,才不至于被激烈而殘
酷的競(jìng)爭(zhēng)所淘汰。
我們要改變?cè)械恼J(rèn)知方式,如果單靠知識(shí)填充,難以達(dá)到質(zhì)的改變,需要轉(zhuǎn)換思維模式。我一直相信,萬事萬物皆有規(guī)律,只有快速把握規(guī)律,才能理性認(rèn)識(shí)存在,提升思維能力,抓住時(shí)代脈搏。當(dāng)然,數(shù)字世界也不例
外,數(shù)據(jù)之中也有規(guī)律性。在利用人工智能(AI)發(fā)現(xiàn)和挖掘數(shù)據(jù)規(guī)律與價(jià)
值的實(shí)踐中,我認(rèn)識(shí)到人工智能不僅是一種技術(shù)方法,其中蘊(yùn)含了一種思維
邏輯,也就是AI思維,這才是人工智能的真正精髓,它集中體現(xiàn)在對(duì)數(shù)據(jù)理
解方面的優(yōu)勢(shì),能夠幫助我們突破認(rèn)知局限,從而找到自身的真正優(yōu)勢(shì),獲
得展現(xiàn)個(gè)體主動(dòng)策略優(yōu)勢(shì)的收益。
我與人工智能的故事早在20年前就開始了。世紀(jì)之交入學(xué)浙江大
學(xué),“形上謂道兮,形下謂器”的校歌時(shí)至今日仍不時(shí)回蕩在我的耳邊。我
對(duì)人工智能的探索便開始于在浙江大學(xué)讀書的階段。大學(xué)四年,我
從“器”的層面了解人工智能、機(jī)器學(xué)習(xí)、模糊數(shù)學(xué)以及神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
當(dāng)時(shí),越來越多的富媒體數(shù)據(jù)出現(xiàn)在互聯(lián)網(wǎng)上,我便猜測(cè)人工智能接下來的
使命是讓計(jì)算機(jī)自動(dòng)理解這些數(shù)據(jù),從而增進(jìn)用戶的效率和體驗(yàn)。讀博士
時(shí),我毫不猶豫地將當(dāng)時(shí)相對(duì)冷門的人工智能作為專業(yè)方向,因?yàn)槲疑钚湃?br/>
工智能將成為信息技術(shù)的下一范式。
我對(duì)AI思維的認(rèn)識(shí)和總結(jié),是從實(shí)踐中不斷豐富而來的。在美國(guó)博士畢
業(yè)后,我先后經(jīng)歷過高等研究院所、國(guó)際大型企業(yè)以及各個(gè)階段的創(chuàng)業(yè)公
司,服務(wù)過IBM(國(guó)際商業(yè)機(jī)器公司)、億客行(Expedia)、Orbitz(旅程
網(wǎng))和PayPal(貝寶)等公司。在硅谷,我也成為將人工智能運(yùn)用于深度商
業(yè)運(yùn)營(yíng)的早期實(shí)踐者和探路人之一。早在2011年,我領(lǐng)導(dǎo)建立的人工智能系
統(tǒng)在全球最大的在線旅游平臺(tái)億客行上線,通過電商網(wǎng)站訪客的行為信號(hào),精準(zhǔn)預(yù)測(cè)訪客線上消費(fèi)行為,并以此為基礎(chǔ)投放恰當(dāng)?shù)膹V告。這是業(yè)內(nèi)較
早、規(guī)模較大的電商行為預(yù)測(cè)和智能營(yíng)銷平臺(tái),至今仍優(yōu)化著全球數(shù)以億計(jì)
的用戶體驗(yàn)。后來,作為PayPal全球消費(fèi)者數(shù)據(jù)科學(xué)部的創(chuàng)立者和負(fù)責(zé)人,我在電商、支付和廣告領(lǐng)域通過人工智能和深度學(xué)習(xí)技術(shù),領(lǐng)導(dǎo)團(tuán)隊(duì)開發(fā)了
基于大數(shù)據(jù)的消費(fèi)者動(dòng)機(jī)預(yù)測(cè)引擎、精準(zhǔn)推薦引擎以及最佳行動(dòng)引擎,大幅
度提升了全球數(shù)百萬商家的贏利性和數(shù)億用戶的購(gòu)物體驗(yàn),并因此受邀在哈
佛大學(xué)、麻省理工學(xué)院等學(xué)校做專題演講。
在美國(guó)工作期間,我同樣關(guān)注國(guó)內(nèi)人工智能的應(yīng)用和發(fā)展,發(fā)現(xiàn)國(guó)內(nèi)人
工智能的研發(fā)與商業(yè)運(yùn)用之間存在脫節(jié)的問題。而后我應(yīng)邀回國(guó)工作,致力
于發(fā)掘人工智能在行業(yè)中新的增長(zhǎng)點(diǎn)。在百度金融任職首席數(shù)據(jù)科學(xué)家期
間,我負(fù)責(zé)金融領(lǐng)域的數(shù)據(jù)挖掘和變現(xiàn),通過大規(guī)模特征挖掘和深度學(xué)習(xí)技
術(shù),從海量的互聯(lián)網(wǎng)數(shù)據(jù)中提取金融相關(guān)變量,提升金融產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)
力,運(yùn)用人工智能幫助金融機(jī)構(gòu)升級(jí)換代,促進(jìn)普惠金融的健康發(fā)展。
從對(duì)人工智能模型的攻堅(jiān)克難到運(yùn)用人工智能幫助企業(yè)解決業(yè)務(wù)問題,在長(zhǎng)期實(shí)踐中,我逐漸體會(huì)到,人工智能作為一種技術(shù),可以用于商業(yè)活動(dòng)
中,處理數(shù)據(jù),提高效率,提升體驗(yàn)。但是,人工智能遠(yuǎn)不僅是一種技術(shù)。
當(dāng)下人人都在說人工智能,但往往都說不清。自從1956年達(dá)特茅斯會(huì)議“人
工智能”的概念正式提出,人工智能既經(jīng)歷過至暗時(shí)刻,也經(jīng)歷過輝煌歲
月。什么是人工智能?這是一個(gè)很多人在嘗試回答,但是又感覺力不從心的
問題。
提到人工智能,大眾的認(rèn)知普遍是無人駕駛、視覺識(shí)別、語(yǔ)音識(shí)別或者
是像AlphaGo(阿爾法圍棋)那樣的機(jī)器人等,但其實(shí)這些只是人工智能的具
體應(yīng)用,只是人工智能的冰山一角,卻在很多人心中成了人工智能的代名
詞,這說明目前對(duì)人工智能的認(rèn)識(shí)還有局限性。運(yùn)用于商業(yè)各個(gè)領(lǐng)域以及工
業(yè)生產(chǎn)、日常生活中的人工智能是有共通之處的,可以從“器”的層面總結(jié)
升華出“道”,即一套特有的思維模式——AI思維。人工智能不僅僅是一種
先進(jìn)技術(shù),其核心意義是一種分析數(shù)據(jù)的思維模式。深受我的合作導(dǎo)師、計(jì)
算機(jī)視覺之父黃煦濤等幾位學(xué)術(shù)大師的影響,我深信一切現(xiàn)象和對(duì)應(yīng)的數(shù)據(jù)
必有規(guī)律性,而AI思維就是發(fā)現(xiàn)和發(fā)掘這種規(guī)律性的強(qiáng)大工具。
AI思維,簡(jiǎn)單來說就是從大量數(shù)據(jù)中形成模型,進(jìn)而對(duì)未知情況做出最
佳預(yù)測(cè)的思維模式。這樣的預(yù)測(cè)無論對(duì)個(gè)人、組織還是社會(huì)整體,都有積極的意義,能夠避免經(jīng)驗(yàn)主義帶來的主觀、片面的判斷。AI思維的基礎(chǔ)在于數(shù)
據(jù),核心在于模型,實(shí)現(xiàn)在于算力,應(yīng)用在于業(yè)務(wù)模式。AI思維與大數(shù)據(jù)相
伴相生,恰如煉油的過程,大數(shù)據(jù)是原油,AI思維則是從原油中提煉產(chǎn)品產(chǎn)
生價(jià)值的“煉金術(shù)”。
AI思維也是對(duì)現(xiàn)有科學(xué)體系進(jìn)行“數(shù)據(jù)驅(qū)動(dòng)”升級(jí)的方法論。人工智能
給社會(huì)帶來的價(jià)值遠(yuǎn)不只嘩眾取寵的“黑科技”,也不只是給人們帶來便捷
或者幫助企業(yè)重塑商業(yè)模式,它最終能夠關(guān)乎民生的方方面面。無論是在零
售還是金融行業(yè),抑或是在醫(yī)療和教育領(lǐng)域,通過AI思維你都能更快速、更
直接、更準(zhǔn)確地預(yù)測(cè)個(gè)體的行為或表現(xiàn)結(jié)果,從而既能滿足行業(yè)發(fā)展本身的
需求,又能在實(shí)踐中創(chuàng)造出前所未有的價(jià)值,將先進(jìn)的經(jīng)驗(yàn)和知識(shí)惠及所有
人。想象一下,通過人工智能,所有的病人可以獲得全球最優(yōu)秀醫(yī)生的診斷
和治療,所有的孩子可以獲得全球最先進(jìn)的教育方法的培養(yǎng),我們生活的世
界將會(huì)變得怎么樣?“千百支蠟燭可以被一支蠟燭點(diǎn)燃,而那支蠟燭的生命
不會(huì)因此縮短!痹谌斯ぶ悄軙r(shí)代,每個(gè)人的數(shù)據(jù)都可以轉(zhuǎn)化為知識(shí),幫助
別人并由此受益。
我 閱 讀 過 很 多 面 向 大 眾 的 人 工 智 能 方 面 的 書 籍 , 其 中 講
述“器”和“用”的居多,很少涉及“道、法、術(shù)”層面。而且,“器”的
介紹較容易變成“動(dòng)物園”模式,僅僅介紹了人工智能算法,沒有總結(jié)上升
到理論和法則的高度,而“用”層面的案例也主要集中在智能機(jī)器人和無人
駕駛汽車等吸引眼球的領(lǐng)域,缺乏必要的系統(tǒng)化行業(yè)落地框架和實(shí)踐。這也
難怪讀者很容易將人工智能誤認(rèn)為是明天的科技,或?qū)⑷斯ぶ悄芫窒薜卣J(rèn)定
在幾個(gè)特定的領(lǐng)域。在這樣的理解下,很難把握人工智能的思想精髓,人工
智能對(duì)個(gè)人和社會(huì)的潛在影響也大打折扣。所以,本書試圖打破這種局限,分為八章,精心設(shè)計(jì)“道、法、術(shù)、器、用、勢(shì)”體系,旨在避免上述的問
題,既包括AI思維的方法論,也包括AI思維在行業(yè)中的應(yīng)用和發(fā)展,幫助讀
者從宏觀到微觀、從理論到實(shí)踐,一步步、一層層地通過系統(tǒng)性框架,逐漸
脫下人工智能神秘的外衣,幫助讀者理解AI思維的實(shí)質(zhì)以及對(duì)每個(gè)人的價(jià)值
和意義。這是我創(chuàng)作本書的初心,但也深知長(zhǎng)路漫漫,任重道遠(yuǎn)。
具體來說,本書第一章從“道”的層面闡述AI思維內(nèi)在邏輯和價(jià)值,用
AI思維來思考問題;第二章從“法”的層面介紹AI思維的底層邏輯,從規(guī)律
的角度了解AI思維;第三章從“術(shù)”的層面講解AI煉金術(shù)如何通過數(shù)據(jù)驅(qū)動(dòng)
決策,形成一套從數(shù)據(jù)到價(jià)值的完整方法論;第四章從“器”的層面引入人工智能落地所涉及的方法和模型,模型在AI思維中具有核心位置;第五、六、七章從“用”的層面分別介紹數(shù)字化賦能、人工智能平臺(tái)化思維和人工
智能實(shí)戰(zhàn)案例;第八章從“勢(shì)”的層面介紹人工智能落地過程中存在的挑戰(zhàn)
和相應(yīng)的對(duì)策,期待人工智能未來的發(fā)展。
本書的章節(jié)分別從不同角度逐一闡述AI思維的價(jià)值和意義,大部分內(nèi)容
都以“數(shù)據(jù)+人工智能+場(chǎng)景=價(jià)值”作為核心邏輯,希望任何一個(gè)不想在新經(jīng)
濟(jì)中落伍的人,在閱讀本書之后,都能理解AI思維,并對(duì)工作和生活有所助
益。第一章
AI思維是時(shí)代機(jī)遇
理論上……假如有這么一臺(tái)計(jì)算機(jī),能存儲(chǔ)世界上所有的事實(shí),同時(shí)擁
有完美的程序,能以數(shù)學(xué)方式表達(dá)世界所有不同部分之間的所有關(guān)系,我們
就能完美地預(yù)見未來。
—《原則》—
人工智能的概念自1956年的達(dá)特茅斯會(huì)議誕生至今,曾經(jīng)受到萬眾矚
目,也曾陷入低谷,黯淡無光;ヂ(lián)網(wǎng)、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、區(qū)塊鏈等新
技術(shù)如雨后春筍般不斷涌現(xiàn),但千帆過盡,人工智能仍然安如磐石,屹立不
倒。2016年人工智能機(jī)器人AlphaGo戰(zhàn)勝韓國(guó)九段圍棋國(guó)手李世石之后,人工
智能強(qiáng)勢(shì)進(jìn)入大眾視野。近年來,中、美、英、俄等越來越多的國(guó)家將人工
智能的發(fā)展上升到國(guó)家發(fā)展戰(zhàn)略和規(guī)劃,各行各業(yè)也都想利用人工智能搶占
先機(jī)、推陳出新,而普通人的生活也因?yàn)槿斯ぶ悄艿狞c(diǎn)綴而愈加便捷和豐
富,把不可能變成可能。
萬物皆可人工智能的時(shí)代已經(jīng)到來,如果不想淹沒在來勢(shì)洶涌的人工智
能浪潮里,墨守成規(guī)、故步自封顯然是行不通的,只能擁抱未來,提升認(rèn)
知,獲得助力。但是,你真的了解人工智能嗎?你知道人工智能是如何與商業(yè)碰撞迸發(fā)出火花的嗎?你知道人工智能如何從數(shù)據(jù)中產(chǎn)生價(jià)值的嗎?理解
事物,就要抓住其核心理念。AI思維就是人工智能的核心理念。那么首先,我們要從“道”的層面理解AI思維內(nèi)在邏輯和價(jià)值,從AI思維的角度,理解
人工智能。大賺1 000億美元的秘密
如果你讀過《從0到1》這本書,應(yīng)該對(duì)PayPal這個(gè)公司有所了解——硅
谷創(chuàng)投教父、PayPal創(chuàng)始人彼得·蒂爾便是這本書的作者。另外,PayPal黑
幫(PayPal Mafi a)的說法也由來已久。2002年的時(shí)候,eBay(億貝)以15
億美元的價(jià)格收購(gòu)了PayPal,當(dāng)時(shí)PayPal公司的許多重要員工紛紛選擇創(chuàng)
業(yè),自立門戶。PayPal也因此成為硅谷史上創(chuàng)業(yè)者群體最多的一家公司,這
些人被稱為PayPal黑幫。黑幫成員們創(chuàng)建了領(lǐng)英(LinkedIn)、YouTube(優(yōu)
兔)、Yelp(美國(guó)最大點(diǎn)評(píng)網(wǎng)站)、Space X(太空探索技術(shù)公司)和特斯拉
(Tesla)等多家大名鼎鼎的公司,有著十分強(qiáng)大的社會(huì)影響力。
PayPal是美國(guó)一家提供在線支付服務(wù)的公司。馬云當(dāng)年受PayPal的啟
發(fā),創(chuàng)立了支付寶。PayPal近幾年市值的增幅非常顯著,遠(yuǎn)高于同期紐交所
和納斯達(dá)克的增幅。PayPal公司2015年的市值接近400億美元,到2019年上半
年市值增加至3倍多,已經(jīng)快1 300億美元了——這個(gè)體量的市值,在美股互
聯(lián)網(wǎng)公司里位居前十。
PayPal能如此快速發(fā)展起來,很大程度上是得益于人工智能系統(tǒng)提供的
強(qiáng)大動(dòng)力。我在2012年初加入PayPal公司,負(fù)責(zé)建立了PayPal全球數(shù)據(jù)科學(xué)
平臺(tái)。當(dāng)時(shí)PayPal對(duì)數(shù)據(jù)的加工和利用還相對(duì)比較滯后,不能跟谷歌這樣的
搜索引擎公司相提并論。值得慶幸的是,在2012年,PayPal公司把營(yíng)銷、廣
告、數(shù)字化方向的人工智能團(tuán)隊(duì)收攏在一起,整合構(gòu)建了在硅谷都頗有影響
力的PayPal數(shù)據(jù)科學(xué)部。而后,數(shù)據(jù)科學(xué)部經(jīng)過數(shù)年的努力,在PayPal用戶
端內(nèi)容的個(gè)性化呈現(xiàn)、為商家定制的“千人千面”廣告推薦,以及在核心產(chǎn)
品體驗(yàn)的提升上,全都通過人工智能進(jìn)行了系統(tǒng)性的升級(jí)改造。
當(dāng)時(shí),雖然PayPal在全世界大多數(shù)國(guó)家和地區(qū)都有用戶,可最大的市場(chǎng)
還是在美國(guó),但是美國(guó)國(guó)內(nèi)的用戶數(shù)已經(jīng)非常飽和,短時(shí)間內(nèi)無法再有太大
的增量。既然開發(fā)新用戶的難度很大,PayPal決定另辟蹊徑,那就是增加每
位用戶的交易額。為了增加用戶的交易額,PayPal數(shù)據(jù)科學(xué)部的任務(wù)就是為
PayPal所有的用戶精準(zhǔn)推薦商家和商品。理想情況下,PayPal想知道用戶在每一個(gè)時(shí)間點(diǎn)可能會(huì)有哪些需求:比
如為了周五晚上聚會(huì),你打算到日用品網(wǎng)站購(gòu)買些派對(duì)用品;或者周日中
午,你會(huì)想去餐廳吃一頓大餐。有了關(guān)于這些需求的預(yù)測(cè)后,通過定向推薦
全渠道精準(zhǔn)的廣告,PayPal可以把消費(fèi)者和最能打動(dòng)他們的產(chǎn)品或服務(wù)連接
在一起,從而提高每位用戶的消費(fèi)金額,實(shí)現(xiàn)巨大的增量商業(yè)價(jià)值。
知易行難,PayPal用了兩年多的時(shí)間,才成功地建立了自己的人工智能
平臺(tái)。這個(gè)平臺(tái)主要由消費(fèi)者動(dòng)機(jī)預(yù)測(cè)引擎、精準(zhǔn)推薦引擎以及優(yōu)化客戶生
命周期的最佳行動(dòng)引擎構(gòu)成,而這幾個(gè)引擎均部署在大數(shù)據(jù)平臺(tái)之上,跟海
量的底層數(shù)據(jù)銜接,面對(duì)動(dòng)態(tài)的業(yè)務(wù)需求能夠自動(dòng)地構(gòu)建解決方案。
其中,動(dòng)機(jī)預(yù)測(cè)引擎通過人工智能,預(yù)測(cè)用戶在某一個(gè)時(shí)間點(diǎn)的行為,包括點(diǎn)擊廣告、兌現(xiàn)優(yōu)惠券、購(gòu)買商品等;精準(zhǔn)推薦引擎連接用戶和他可能
感興趣的商家或商品,做出恰當(dāng)?shù)耐扑];最佳行動(dòng)引擎則通過人工智能優(yōu)化
在每一個(gè)時(shí)間點(diǎn),商家采用什么樣的策略,能夠最有效地提升用戶的價(jià)值。
三個(gè)引擎相互結(jié)合,就有了精準(zhǔn)理解消費(fèi)者行為的能力,就像找到打開寶庫(kù)
的“芝麻開門”,把最恰當(dāng)?shù)纳唐泛蜕碳曳⻊?wù)送到消費(fèi)者面前。
人工智能平臺(tái)為PayPal帶來了成倍的交易增長(zhǎng)速度。通過人工智能的精
準(zhǔn)預(yù)測(cè)、推薦和優(yōu)化,PayPal的營(yíng)銷活動(dòng)平均響應(yīng)率提升了2~3倍,部分營(yíng)銷
活動(dòng)的點(diǎn)擊率和兌現(xiàn)率超過5倍,總體投資回報(bào)率(ROI)也得到大幅提升,對(duì)公司基本面產(chǎn)生很大的影響。但是,通常來說,人工智能對(duì)公司的影響并
不一定立刻體現(xiàn),而是隨著時(shí)間的推移,逐步釋放出來。當(dāng)人工智能平臺(tái)已
經(jīng)有一定的規(guī)模以后,所帶來的業(yè)務(wù)加速的增量會(huì)變得更大。2014年底,PayPal實(shí)現(xiàn)了19.4億美元的利潤(rùn),比2012年底提升了近30%;2015年的利潤(rùn)甚
至超過了母公司eBay。隨后PayPal從eBay剝離,單獨(dú)上市,至今市值已經(jīng)增
長(zhǎng)了數(shù)倍。
2018年我接受第一財(cái)經(jīng)的采訪,發(fā)表過一篇訪談文章《最好的數(shù)據(jù)科學(xué)
家,就是把自己給“干掉”》。為什么數(shù)據(jù)科學(xué)家要把自己“干掉”呢?人
工智能提升業(yè)績(jī)依賴的主要是平臺(tái),而不是僅僅靠幾位優(yōu)秀的數(shù)據(jù)科學(xué)家。
當(dāng)然,搭建一個(gè)平臺(tái)需要專業(yè)而盡職的團(tuán)隊(duì),但是落地投產(chǎn)以后,優(yōu)秀的人
工智能平臺(tái)可以獨(dú)立運(yùn)行,而不再依賴于某位數(shù)據(jù)科學(xué)家本身。換句話說,人工智能平臺(tái)就像給機(jī)械化的工廠裝上了一個(gè)“大腦”,在保持高生產(chǎn)效率
的情況下,還能千人千面地提供個(gè)性化的產(chǎn)品服務(wù),這就是人工智能平臺(tái)化的魅力所在,也是數(shù)據(jù)科學(xué)家被“干掉”的原因所在。如果一個(gè)企業(yè)已經(jīng)形
成了人工智能平臺(tái)化的運(yùn)營(yíng)方式——正如PayPal對(duì)用戶的人工智能精準(zhǔn)推薦
體系,可以實(shí)時(shí)對(duì)全球的三億用戶進(jìn)行智能推薦,這套體系是可以持續(xù)發(fā)揮
價(jià)值的,并且隨著時(shí)間的推移,用戶的黏性越來越強(qiáng),數(shù)據(jù)的積累越來越
多,這個(gè)價(jià)值會(huì)釋放得更加厲害。
現(xiàn)今很多人使用的今日頭條、抖音也有內(nèi)容推薦系統(tǒng),它們推薦的內(nèi)容
確實(shí)是有黏性的。隨著用戶的使用,積累和沉淀的數(shù)據(jù)越來越多,平臺(tái)內(nèi)容
的推薦也就越來越精準(zhǔn),這樣就會(huì)贏得更多用戶的青睞。所以,在以人工智
能為核心的智能經(jīng)濟(jì)里,只要在恰當(dāng)?shù)姆较蛏辖⒘讼鄳?yīng)的人工智能平臺(tái)和
體系,人工智能就會(huì)通過不斷的學(xué)習(xí)形成正向的反饋。正向反饋對(duì)應(yīng)的是業(yè)
績(jī)更加快速的增長(zhǎng),最終形成一個(gè)極具規(guī)模的疊加效應(yīng),而不是簡(jiǎn)單的線性
增長(zhǎng)。這樣的疊加效應(yīng),依賴于人工智能平臺(tái)本身的演化,并隨著時(shí)間的推
移產(chǎn)出更多的增量?jī)r(jià)值。
利己也利競(jìng)爭(zhēng)對(duì)手
億客行是全球最大的在線旅游公司之一,業(yè)務(wù)遍及全球,2007年通過與
藝龍的合作正式進(jìn)入中國(guó)市場(chǎng)。在人工智能的支持下,億客行在廣告變現(xiàn)領(lǐng)
域滿載而歸。2010年時(shí),億客行的廣告營(yíng)收在1億美元左右,這個(gè)數(shù)字對(duì)于行
業(yè)巨頭來說不是特別大。2011年,我?guī)蛢|客行開發(fā)了一套人工智能系統(tǒng)。這
套系統(tǒng)上線以后,億客行的廣告營(yíng)收獲得了大幅度的提升。在這個(gè)過程中,億客行堅(jiān)持了一件事情:通過人工智能系統(tǒng)預(yù)測(cè)用戶在網(wǎng)站上產(chǎn)生購(gòu)買行為
的概率,也就是預(yù)測(cè)一個(gè)訪客在網(wǎng)站上轉(zhuǎn)化為交易用戶的概率。
人工智能具體預(yù)測(cè)什么事情呢?如果用戶打開億客行網(wǎng)站或者在手機(jī)
App(應(yīng)用程序)上搜索一個(gè)行程,比如從北京到洛杉磯的航班,億客行的人
工智能系統(tǒng)可以實(shí)時(shí)地預(yù)測(cè)這個(gè)用戶的真正行為目標(biāo)和意圖。系統(tǒng)在用戶點(diǎn)
擊“搜索”按鈕的這一瞬間觸發(fā)幾百個(gè)用戶相關(guān)的行為數(shù)據(jù)維度的分析,非
常迅速地產(chǎn)出預(yù)測(cè)結(jié)果,通常在幾十毫秒內(nèi)完成。如果這個(gè)用戶真正要購(gòu)票
的話,人工智能不會(huì)給你彈出廣告,免得打擾用戶,干擾即將發(fā)生的交易;
如果用戶只是試探性查詢,只是想要對(duì)比下不同網(wǎng)站的購(gòu)票價(jià)格,人工智能
就會(huì)給用戶彈出競(jìng)爭(zhēng)性的廣告。什么是競(jìng)爭(zhēng)性的廣告呢?這些廣告主本身并沒有入駐億客行,所以這些
競(jìng)爭(zhēng)性廣告相當(dāng)于是從站外引入的。正因?yàn)檫@些站外商家和本網(wǎng)站主營(yíng)內(nèi)容
相似,對(duì)于想要比價(jià)或者試探性查詢的客戶來說,這類廣告是具有高意向性
的廣告,廣告的點(diǎn)擊率遠(yuǎn)高于平均水平,所以這類競(jìng)爭(zhēng)性廣告的賣價(jià)比一般
的展示性廣告,也就是我們經(jīng)常在網(wǎng)站頁(yè)面上看到的橫幅廣告也要高很多。
這個(gè)模式成立的關(guān)鍵點(diǎn)在于,億客行通過人工智能預(yù)測(cè)引擎,可以很準(zhǔn)確地
預(yù)測(cè)出來億客行網(wǎng)站的某個(gè)訪客是真正來購(gòu)票的,還是只是來億客行對(duì)比下
價(jià)格,對(duì)比完就離開,到別的網(wǎng)站去買票的。
這個(gè)預(yù)測(cè)引擎搭建完成以后,它的直接效果是把大量不購(gòu)買的網(wǎng)站流量
做了廣告的變現(xiàn)。有統(tǒng)計(jì)數(shù)據(jù)表明,這類不購(gòu)買的用戶占了總訪客數(shù)的97%。
用戶既然來網(wǎng)站只是看看,并不購(gòu)買,那么,網(wǎng)站給用戶推薦一個(gè)相關(guān)類型
廣告,用戶只要點(diǎn)擊了廣告,廣告主就會(huì)給網(wǎng)站付費(fèi)。同時(shí),預(yù)測(cè)引擎也做
到了完備的風(fēng)險(xiǎn)控制,否則如果用戶真來網(wǎng)站上購(gòu)買產(chǎn)品,而網(wǎng)站給用戶推
薦了競(jìng)爭(zhēng)性的廣告,對(duì)網(wǎng)站來說就會(huì)造成虧損。
用戶如果真的打算去國(guó)外游玩,在億客行上搜游玩行程,多半看不到這
種競(jìng)爭(zhēng)性廣告,因?yàn)閮|客行的廣告策略不允許降低網(wǎng)站本身的交易額。但是
如果用戶只是搜著玩兒,或者看完價(jià)格以后要到別的旅游網(wǎng)站或者航空公司
去購(gòu)票,用戶多半會(huì)看到這類競(jìng)爭(zhēng)性的廣告,而用戶的每次廣告點(diǎn)擊都會(huì)給
億客行帶來收入。
億客行的人工智能系統(tǒng)能夠預(yù)測(cè)出來哪些人會(huì)購(gòu)買,哪些人不會(huì)買,從
而做到精準(zhǔn)的廣告推薦,這樣既增加了額外的廣告收益,又控制了潛在的對(duì)
網(wǎng)站本身交易的風(fēng)險(xiǎn)。由于人工智能對(duì)每位訪客的意圖做出了準(zhǔn)確的預(yù)測(cè),這套人工智能廣告系統(tǒng)在2011年上線之后,億客行的廣告營(yíng)收穩(wěn)步增長(zhǎng),到
2018年已經(jīng)超過10億美元。
億客行部署的人工智能預(yù)測(cè)引擎,是人工智能商業(yè)化一個(gè)早期的實(shí)踐,后來這個(gè)系統(tǒng)的延伸版用在更多的在線交易場(chǎng)景下,也被美國(guó)風(fēng)險(xiǎn)投資商經(jīng)
緯創(chuàng)投、紅點(diǎn)創(chuàng)投等國(guó)際知名風(fēng)投公司所追捧。通過人工智能的精準(zhǔn)預(yù)測(cè),網(wǎng)站實(shí)時(shí)了解到用戶的真正意圖,把更恰當(dāng)?shù)膬?nèi)容呈現(xiàn)給用戶,從而做到網(wǎng)
站經(jīng)營(yíng)者、廣告主和用戶的多方共贏。
BAT 做金融的秘密武器人工智能在金融領(lǐng)域中也大有可為。舉一個(gè)例子,假如一個(gè)人剛踏入社
會(huì),參加工作時(shí)間很短,每個(gè)月收入不高。如果他去銀行申請(qǐng)貸款,會(huì)得到
什么樣的答復(fù)呢?因?yàn)槭杖胩,銀行沒有很多流水記錄,貸款申請(qǐng)會(huì)被拒
絕,這很可能是當(dāng)前銀行基于現(xiàn)有數(shù)據(jù)做出的決定。
但是,讓我們換一個(gè)視角來看,同樣是這個(gè)人,在大數(shù)據(jù)的棱鏡下,他
經(jīng)常參加網(wǎng)絡(luò)課程和社會(huì)福利活動(dòng),愛好音樂和閱讀,喜歡軟件開發(fā)的交
流。如果給這么一個(gè)人審批,作為金融機(jī)構(gòu)的審批人員,會(huì)不會(huì)批準(zhǔn)他的申
請(qǐng)呢?在這種視角下,金融機(jī)構(gòu)很有可能會(huì)給他提供一些信貸服務(wù),因?yàn)樗?br/>
的興趣愛好廣泛,行為健康向上。雖然在金融領(lǐng)域沒有強(qiáng)大的數(shù)據(jù)支持,但
是他在社交和專業(yè)活動(dòng)等方面正面且穩(wěn)定的行為,可以作為金融機(jī)構(gòu)審批信
貸的參照依據(jù)。金融行業(yè)審批貸款的趨勢(shì)是使用更多種類的非金融屬性數(shù)
據(jù),通過人工智能來解讀這些數(shù)據(jù),使其能預(yù)測(cè)一個(gè)人的信用和風(fēng)險(xiǎn)水平,從而服務(wù)金融機(jī)構(gòu)的風(fēng)險(xiǎn)控制需求。
如何通過人工智能深度分析大數(shù)據(jù)并在金融場(chǎng)景下使用,是一批想進(jìn)入
金融領(lǐng)域的互聯(lián)網(wǎng)公司面臨的問題。在阿里和騰訊都投身金融業(yè)務(wù)之后,百
度在2015年才姍姍來遲,正式開發(fā)金融業(yè)務(wù)。當(dāng)時(shí)百度的金融業(yè)務(wù)并不被業(yè)
界所看好,一個(gè)很重要的原因是,雖然百度有很多關(guān)于互聯(lián)網(wǎng)用戶的行為數(shù)
據(jù),卻不像消費(fèi)數(shù)據(jù)那樣與金融有強(qiáng)相關(guān)性,怎樣通過這些看似與金融無關(guān)
的數(shù)據(jù)去開展金融業(yè)務(wù),是百度進(jìn)入金融行業(yè)時(shí)亟須解決的一大難題。百度
想到的是,通過人工智能將二者聯(lián)系起來。
2016年初,百度高層找到我,希望我?guī)椭俣仍谛刨J場(chǎng)景用好人工智
能。也就是說,通過人工智能去精準(zhǔn)預(yù)測(cè)用戶在金融上的表現(xiàn)。所謂金融上
的表現(xiàn),通俗來講,就是一個(gè)用戶借了錢后有多大的可能性會(huì)逾期不還。如
果用戶還錢概率很高,那么這個(gè)信貸業(yè)務(wù)就能夠賺錢。但是如果逾期不還的
人數(shù)較多,那這個(gè)業(yè)務(wù)就肯定要賠。我需要幫助百度解決的問題,就是用人
工智能預(yù)測(cè)用戶借款后會(huì)不會(huì)按時(shí)還錢。
舉一個(gè)具體例子,如果某位小企業(yè)主的公司出現(xiàn)了經(jīng)營(yíng)問題,他想找金
融機(jī)構(gòu)申請(qǐng)一筆個(gè)人貸款,那這筆貸款對(duì)金融機(jī)構(gòu)來說風(fēng)險(xiǎn)很高,因?yàn)樗?br/>
可能逾期不還。通過借款人的行為數(shù)據(jù)可以分析得知,貸款是大概率用作個(gè)
人的流轉(zhuǎn),還是要用作企業(yè)經(jīng)營(yíng)。這是兩類不同類型的借款,借款人如果打
著個(gè)人借款的幌子去填企業(yè)的坑,對(duì)金融機(jī)構(gòu)來說風(fēng)險(xiǎn)相當(dāng)高。在這種場(chǎng)景下,人工智能通過對(duì)大量行為數(shù)據(jù)和金融表現(xiàn)數(shù)據(jù)的分析,可以得出相應(yīng)的
結(jié)論,因而對(duì)這些人來說,如果他們來申請(qǐng)個(gè)人貸款,金融機(jī)構(gòu)就應(yīng)該拒
貸,不把錢借給他。此外,還有很多在金融上有重要意義的數(shù)據(jù),例如,借
款人是一個(gè)日常生活穩(wěn)定的人,還是一個(gè)居無定所的人。通過人工智能的深
度分析,借款人的不同行為在金融上都對(duì)應(yīng)了不同的逾期和風(fēng)險(xiǎn)概率,這些
概率成為金融決策規(guī)則的一部分,幫助金融機(jī)構(gòu)更安全地提供信貸服務(wù),同
時(shí)擴(kuò)大放貸規(guī)模。雖然人工智能做出的預(yù)測(cè)不可能百分之百地準(zhǔn)確,但是我
們已經(jīng)可以實(shí)現(xiàn)非常高的準(zhǔn)確率,這對(duì)金融業(yè)務(wù)的開展仍然有相當(dāng)大的幫
助。
當(dāng)時(shí)我估算過,風(fēng)險(xiǎn)控制上的預(yù)測(cè)準(zhǔn)確率每提升1個(gè)點(diǎn),帶來的增額收入
接近1億元;谶@樣一個(gè)人工智能風(fēng)險(xiǎn)管理體系,在控制風(fēng)險(xiǎn)的情況下,把
流量逐漸打開用于金融業(yè)務(wù),度小滿金融(原百度金融)與金融機(jī)構(gòu)合作的
資產(chǎn)規(guī)模不斷增長(zhǎng),在一年左右的時(shí)間里累計(jì)發(fā)放貸款超過3 800億元,為50
多家銀行合作伙伴創(chuàng)造了近100億的利息收入,真正讓人工智能賺錢,且風(fēng)險(xiǎn)
可控。
傳統(tǒng)金融機(jī)構(gòu)的人工智能轉(zhuǎn)型
人工智能的一個(gè)重要意義在于它能幫助各行各業(yè)轉(zhuǎn)型升級(jí)。例如對(duì)于銀
行而言,如何能夠低成本精準(zhǔn)獲客是一大痛點(diǎn)。截至2018年末,我國(guó)商業(yè)銀
行機(jī)構(gòu)數(shù)量已經(jīng)達(dá)到了4 000家以上,其中國(guó)有大型商業(yè)銀行5家、郵儲(chǔ)銀行1
家、股份制商業(yè)銀行12家、城市商業(yè)銀行134家、住房?jī)?chǔ)蓄銀行1家、民營(yíng)銀
行17家、農(nóng)村商業(yè)銀行1 262家、農(nóng)村合作銀行33家、農(nóng)村信用社965家、村
鎮(zhèn)銀行1 562家、外資法人銀行39家,銀行間的同業(yè)競(jìng)爭(zhēng)十分激烈。而互聯(lián)網(wǎng)
金融公司的興起無疑更增加了銀行拓展客戶與業(yè)務(wù)增長(zhǎng)的難度;ヂ(lián)網(wǎng)金融
平臺(tái)以效率高、體驗(yàn)好吸引客戶,銀行如果止步不前,不注重提高用戶體
驗(yàn),由此造成的客戶流失可能會(huì)越來越明顯。
另一方面,隨著商業(yè)銀行不良貸款率的居高不下,信用卡業(yè)務(wù)、貸款業(yè)
務(wù)的風(fēng)險(xiǎn)控制也成為銀行關(guān)注重點(diǎn)。根據(jù)銀保監(jiān)會(huì)發(fā)布的銀行業(yè)主要監(jiān)管指
標(biāo)數(shù)據(jù),2019年一季度末,商業(yè)銀行不良貸款余額2.16萬億元,較上年末增加957億元,不良貸款率為1.80%。隨著銀行業(yè)務(wù)擴(kuò)張、客戶下沉,客戶的金
融屬性越發(fā)稀疏,貸款業(yè)務(wù)的風(fēng)險(xiǎn)控制也成為痛點(diǎn)。
2018年,我參與領(lǐng)導(dǎo)了百度與中國(guó)農(nóng)業(yè)銀行的“金融大腦”項(xiàng)目,在客
戶畫像、精準(zhǔn)營(yíng)銷、信用評(píng)價(jià)、風(fēng)險(xiǎn)監(jiān)控、智能投顧和智能客服等方面為農(nóng)
業(yè)銀行提供人工智能服務(wù),從營(yíng)銷、風(fēng)控到運(yùn)營(yíng)、決策,全領(lǐng)域?yàn)檗r(nóng)業(yè)銀行
的智能化轉(zhuǎn)型賦能。
金融大腦平臺(tái)是農(nóng)業(yè)銀行的核心人工智能系統(tǒng),以它為核心的人工智能
金融平臺(tái)解決方案,為農(nóng)業(yè)銀行打造了全領(lǐng)域的人工智能能力體系,這在業(yè)
內(nèi)是首舉。金融大腦平臺(tái)包括感知引擎和思維引擎兩大服務(wù)引擎,實(shí)現(xiàn)統(tǒng)一
的智能服務(wù),在大范圍多場(chǎng)景下集成了人工智能核心技術(shù)。感知引擎和思維
引擎就像人的左腦和右腦,讓計(jì)算機(jī)程序像人一樣不但能看、聽、說,還能
針對(duì)外部環(huán)境的變化做出最優(yōu)的決策,幫助農(nóng)業(yè)銀行更好地開展金融業(yè)務(wù)。
其中,感知引擎可以進(jìn)行人臉識(shí)別、活體識(shí)別、OCR(光學(xué)字符識(shí)別)、語(yǔ)音
識(shí)別、自然語(yǔ)言處理、語(yǔ)音合成,在保證銀行業(yè)務(wù)安全可靠的同時(shí),不斷提
升用戶的體驗(yàn)。思維引擎則基于機(jī)器學(xué)習(xí),在營(yíng)銷和風(fēng)控的核心業(yè)務(wù)領(lǐng)域,幫助農(nóng)業(yè)銀行在快速變化的市場(chǎng)環(huán)境中高效、準(zhǔn)確地做出決策,提升業(yè)務(wù)效
果。
作為農(nóng)業(yè)銀行人工智能的核心系統(tǒng),金融大腦為智能應(yīng)用提供人工智能
基礎(chǔ)能力的支撐。在智能營(yíng)銷領(lǐng)域,思維引擎構(gòu)建精準(zhǔn)營(yíng)銷模型庫(kù),實(shí)現(xiàn)多
渠道協(xié)同的智能化系統(tǒng)營(yíng)銷,助力信用卡年新增發(fā)卡連續(xù)突破1 000萬張。智
能推薦營(yíng)銷響應(yīng)率達(dá)到自然增長(zhǎng)的4倍有余,單次營(yíng)銷活動(dòng)可為行內(nèi)節(jié)約營(yíng)銷
費(fèi)用1 000萬元以上。舉個(gè)例子,對(duì)于銀行機(jī)構(gòu)來說,一個(gè)通常的廣告推送渠
道就是發(fā)短信。整天收到來自不同銀行的各種各樣的短信,用戶會(huì)十分反
感,因此對(duì)于銀行而言,短信一定要發(fā)得精準(zhǔn)。短信發(fā)得不精準(zhǔn)會(huì)導(dǎo)致兩個(gè)
結(jié)果,一是用戶被騷擾了,可能會(huì)退訂短信,或者對(duì)銀行產(chǎn)生負(fù)面的認(rèn)知;
二是發(fā)送短信也有成本,雖然單條短信價(jià)格很低,但是隨著量級(jí)的上升,成
本也會(huì)變得可觀。在中國(guó)農(nóng)業(yè)銀行,我們通過對(duì)大量過往用戶行為習(xí)慣的分
析,建立了精準(zhǔn)的營(yíng)銷響應(yīng)模型。這個(gè)模型可以幫助我們發(fā)現(xiàn)哪些用戶看到
營(yíng)銷短信之后,會(huì)產(chǎn)生積極的行為和反饋。這些產(chǎn)生響應(yīng)的用戶才是營(yíng)銷活
動(dòng)應(yīng)該選取的目標(biāo)用戶。這樣基于人工智能的營(yíng)銷讓短信只發(fā)送給高意圖人
群,不會(huì)打擾其他用戶,降低了營(yíng)銷成本。在智能風(fēng)控領(lǐng)域,農(nóng)業(yè)銀行的信用分模型和反欺詐模型提供的服務(wù),實(shí)
現(xiàn)了實(shí)時(shí)、精準(zhǔn)的智能化風(fēng)控,有效防控了風(fēng)險(xiǎn)。其中,信用分模型可以預(yù)
測(cè)識(shí)別出風(fēng)險(xiǎn)客戶,比如在自助申請(qǐng)和自動(dòng)審批的網(wǎng)貸產(chǎn)品“網(wǎng)捷貸”準(zhǔn)入
場(chǎng)景中識(shí)別出92%的不良客戶。反欺詐模型在日均7 000萬筆的掌銀(掌上銀
行)交易過程中,可提供毫秒級(jí)響應(yīng)的實(shí)時(shí)監(jiān)控,每天平均預(yù)警交易可達(dá)1萬
筆,有效地保障了交易安全。
以上講述了4個(gè)我親身參與的行業(yè)巨頭的案例,其中既有比較傳統(tǒng)的銀行
業(yè),通過人工智能實(shí)現(xiàn)成功轉(zhuǎn)型;也有互聯(lián)網(wǎng)科技業(yè),通過人工智能大規(guī)模
增加效益。無論在傳統(tǒng)行業(yè)還是在新興產(chǎn)業(yè),數(shù)據(jù)和人工智能都產(chǎn)出了史無
前例的商業(yè)價(jià)值。當(dāng)然,從數(shù)據(jù)到價(jià)值的躍變涉及方方面面的許多環(huán)節(jié),需
要相互配合、相互銜接,無論哪個(gè)環(huán)節(jié)出現(xiàn)問題不能有效解決,都會(huì)阻礙最
終價(jià)值的產(chǎn)生,不少人工智能項(xiàng)目也因此以失敗告終。我在多年的行業(yè)實(shí)踐
過程中,總結(jié)出一套行之有效的人工智能方法論——AI思維——來解決這些
問題。這幾個(gè)案例只是一個(gè)鋪墊,算是了解AI思維的熱身環(huán)節(jié),后面我們會(huì)
從概念到實(shí)操等各個(gè)角度,以及金融、零售等多個(gè)行業(yè),具體詳細(xì)地闡釋根
據(jù)多年行業(yè)經(jīng)驗(yàn)?zāi)毝傻腁I思維。尋找你的“阿爾法”
世界的變化越來越快,10年前的許多知識(shí)已經(jīng)被貼上了“落后”的標(biāo)
簽;10年前毫不費(fèi)力空手套白狼的賺錢思維,現(xiàn)在卻不再行之有效。我們總
在抱怨這個(gè)時(shí)代的趨勢(shì)變幻莫測(cè),難以把握,卻沒有人靜下心來尋找問題的
根源。其實(shí),問題的根源正在于我們的認(rèn)知。人類的認(rèn)知是有局限性的,不
僅受到個(gè)人知識(shí)背景和社會(huì)經(jīng)歷的影響,更受制于自身的喜忌偏好。書本上
的知識(shí)是權(quán)威的,但更新太慢,實(shí)際操作價(jià)值較低。他人的經(jīng)驗(yàn)看起來頗有
一番道理,但每個(gè)人的情況不同,別人的經(jīng)驗(yàn)在你身上也許就失效了。世界
變化這么快,我們?cè)鯓硬拍懿煌5厮⑿抡J(rèn)知呢?
大多數(shù)人可能會(huì)選擇去上編程課或者英語(yǔ)補(bǔ)習(xí)班,或者在知識(shí)付費(fèi)的時(shí)
代中多學(xué)幾門網(wǎng)課,多加幾個(gè)“知識(shí)星球”,以達(dá)到“刷新認(rèn)知”的目的。
但是問題在于,如此獲得的知識(shí),大多是碎片化的。也許會(huì)有人去讀MBA(工
商管理碩士),但動(dòng)輒百萬的學(xué)費(fèi)讓許多人望而生畏。很多方式是在原本平
庸的思維里機(jī)械地填充信息,并不會(huì)使我們的認(rèn)知產(chǎn)生質(zhì)的變化。
要從質(zhì)的層面去做認(rèn)知提升,不僅要提升認(rèn)知能力,還應(yīng)該轉(zhuǎn)化思維模
式。而我們要談的AI思維,是一種時(shí)代前沿的思維模式,也許能夠?yàn)槟闾峁?br/>
一種新的路徑。AI思維可以在一定程度上解決我們的認(rèn)知局限性的問題,幫
助我們進(jìn)行認(rèn)知升級(jí)。它不同于目前很多人對(duì)人工智能的認(rèn)知,他們眼中的
人工智能等同于機(jī)器人、無人駕駛、人臉識(shí)別或者語(yǔ)音識(shí)別等,但這只是人
工智能的具體應(yīng)用,只是人工智能的冰山一角。我們要闡述的是AI思維,可
以說是人工智能的真正精髓,是人工智能冰山的內(nèi)核,它能夠幫助我們找到
自身真正的優(yōu)勢(shì),獲得真正展現(xiàn)我們個(gè)體主動(dòng)策略優(yōu)勢(shì)的超額收益,從而使
我們的生活和事業(yè)蒸蒸日上。
赫布理論:人腦學(xué)習(xí)的機(jī)制
AI思維與人腦思維有些相似,為了讓你更好地理解,首先,我們需要知
道人腦的學(xué)習(xí)機(jī)制。在各類經(jīng)驗(yàn)學(xué)習(xí)的過程中,無論是視覺、聽覺,還是更復(fù)雜的決策,人腦都有著它獨(dú)特的思維機(jī)制。
為了研究總結(jié)大腦的思維機(jī)制,加拿大生理心理學(xué)家唐納德·赫布在
1949年提出了赫布理論。赫布理論表明,人腦中有許多神經(jīng)元,前一個(gè)神經(jīng)
元通過突觸——一個(gè)連接不同神經(jīng)元的結(jié)構(gòu)——持續(xù)向后一個(gè)神經(jīng)元產(chǎn)生刺
激。在這樣的情況下,兩個(gè)神經(jīng)元之間的傳遞效能增加,形成細(xì)胞回路;如
果這種刺激持續(xù)重復(fù),突觸傳遞的效能不斷增加,人腦就記住了這兩個(gè)事物
之間存在的聯(lián)系。比方說,我們?cè)谏蠈W(xué)的時(shí)候,打鈴就代表要上課或者下
課,也就是說當(dāng)鈴聲響起時(shí),一個(gè)神經(jīng)元被激發(fā),而同一時(shí)間出現(xiàn)的上課或
下課的場(chǎng)景會(huì)激發(fā)附近的一個(gè)神經(jīng)元,經(jīng)過多次這樣的刺激之后,它們之間
的聯(lián)系會(huì)被默認(rèn)下來,這就是人腦的學(xué)習(xí)機(jī)制。這種學(xué)習(xí)模式又稱作“赫布
型學(xué)習(xí)”,人無時(shí)無刻不在接觸新的事物,建立事物之間的聯(lián)系和規(guī)律,人
的大腦也是無時(shí)無刻不在進(jìn)行著赫布型學(xué)習(xí)。
宏觀上,人們從經(jīng)驗(yàn)中受到刺激時(shí),人腦就學(xué)習(xí)到了事物之間的相關(guān)
性,從而總結(jié)出相關(guān)的規(guī)律。如圖1-1所示,經(jīng)驗(yàn)改變了人腦的回路,通過習(xí)
得的規(guī)律,我們可以快速分類新的問題,從而形成判斷乃至做出決策。所
以,人類對(duì)新問題的判斷,來自過往的經(jīng)驗(yàn)。
圖1-1 人類習(xí)得規(guī)律示意圖
有人估計(jì)過,人腦通過神經(jīng)元的激活來閱讀理解信息的速度是每天
1MB(兆字節(jié))左右。然而,信息的產(chǎn)生速度至少是每天2.5EB 。所以,人
腦通過神經(jīng)元的激活來處理信息的速度,遠(yuǎn)遠(yuǎn)跟不上新信息產(chǎn)生的速度。換
言之,我們的認(rèn)知是有限的,如果你還是以每天1MB的速度來處理信息、解讀
這個(gè)世界,那么注定跟不上這個(gè)不斷更新的時(shí)代步伐。
羊群效應(yīng)人腦不但處理信息的速度非常有限,而且常常不經(jīng)思考便追隨大眾的想
法。經(jīng)濟(jì)學(xué)里有一個(gè)專門描述經(jīng)濟(jì)個(gè)體從眾跟風(fēng)心理的名詞——羊群效應(yīng),將人類與羊群遇事的反應(yīng)相類比。羊雖然看起來也是成群結(jié)隊(duì),但是十分散
亂,最?吹降木褪撬鼈兒翢o目的地左沖右撞。然而在羊群之中,一旦有一
只羊先行,其他的羊也會(huì)不假思索地跟隨,也不管前面是否有狼或者身旁是
否有更好的草。反觀人類自身,羊群效應(yīng)所導(dǎo)致的盲從行為往往會(huì)讓人陷入
騙局或遭到失敗。每個(gè)人的認(rèn)知都有局限性,做出的判斷有可能是不準(zhǔn)確
的。那么,在羊群效應(yīng)下的人盲目相信別人的認(rèn)知,跟隨別人的做法,做出
來的判斷不準(zhǔn)確的可能性更大,也不能為其帶來收益或者規(guī)避風(fēng)險(xiǎn)。
人類的群居性使得與他人的交互成為人類生存的前提。因此,人的認(rèn)知
必然受他人的影響。相應(yīng)地,人的大腦在處理信息時(shí),會(huì)或多或少地受到外
部環(huán)境的影響。這種影響有時(shí)是有意識(shí)的,有時(shí)是無意識(shí)的,往往使得人的
認(rèn)知缺乏客觀性,甚至不由自主地從眾,得出與周圍多數(shù)人一致的結(jié)論。此
外,人的認(rèn)知還受到自身能力的限制。這種能力一方面體現(xiàn)于人的記憶力,也就是說,成為我們認(rèn)知的信息基礎(chǔ)能有多少;另一方面則體現(xiàn)于已有的技
能和工具,以及它們?cè)诙啻蟪潭壬夏転槲覀兊恼J(rèn)知過程提供服務(wù)。
正是因?yàn)槿祟惖恼J(rèn)知存在這些無法避免的問題,思維方法才顯得愈加重
要。我們的思維決定了我們的認(rèn)知過程,決定了我們?nèi)绾螐臍v史經(jīng)驗(yàn)中形成
對(duì)當(dāng)前事物的看法和對(duì)未來的預(yù)判。我們每天都面臨著許多決策:在哪安家
落戶,和誰(shuí)共度余生,如何出類拔萃……小的決策也許會(huì)影響你一天的心
情,大的決策則會(huì)影響幾年甚至是一生的生活質(zhì)量。一種好的思維能最大限
度地把我們的認(rèn)知能力從束縛中解放出來,幫助我們做出最優(yōu)的決策,而AI
思維正是這樣一種能夠解放我們認(rèn)知能力的強(qiáng)大思維。
AI思維
如前所述,過往的經(jīng)驗(yàn)確實(shí)能幫助我們做決策,尤其當(dāng)我們不得不基于
模糊的信息進(jìn)行判斷時(shí),經(jīng)驗(yàn)?zāi)馨l(fā)揮巨大的作用。然而,在信息爆炸、算法
決策高度發(fā)達(dá)的今天,光靠以往經(jīng)驗(yàn)做判斷、做決策的思維模式已經(jīng)顯現(xiàn)出
弊端,掌握著大量數(shù)據(jù)和科學(xué)決策工具的人,早已成為你前面的領(lǐng)跑者。落后于時(shí)代的思維,帶來的是慢于時(shí)代發(fā)展的速度,其產(chǎn)生的收益必定比他人
低,而且會(huì)越來越低。
本質(zhì)上,人工智能模擬的是人腦,但又不同于人腦。AI思維是從數(shù)據(jù)產(chǎn)
生模型,如果遇到新的輸入,人工智能就能通過模型做出準(zhǔn)確的預(yù)測(cè)。AI思
維與人腦思維的相似點(diǎn)在于,AI思維也是通過對(duì)過往的分析習(xí)得規(guī)律,得出
結(jié)論,但是AI思維分析過往數(shù)據(jù)的過程是不同的。
那么數(shù)據(jù)是什么?數(shù)據(jù)是人類經(jīng)驗(yàn)的數(shù)字化形式。如圖1-2所示,就像人
從經(jīng)驗(yàn)中獲得規(guī)律一樣,人工智能能夠根據(jù)數(shù)據(jù)形成模型。一旦遇到新場(chǎng)景
的輸入,模型就能做出判斷、產(chǎn)生預(yù)測(cè)。人工智能的這種思維能夠充分利用
數(shù)據(jù),盡量減少主觀臆斷,以我們想達(dá)到的目標(biāo)為中心,挖掘規(guī)律,形成模
型,運(yùn)用模型,產(chǎn)生預(yù)測(cè)。人工智能就好比一個(gè)可預(yù)知未來的水晶球,掌握
了AI思維,你就可以做出科學(xué)意義上最佳的決策,產(chǎn)出前所未有的收益。
圖1-2 人工智能習(xí)得規(guī)律示意圖
就像過去的互聯(lián)網(wǎng)思維一樣,在互聯(lián)網(wǎng)出現(xiàn)之前,一個(gè)人只能與周圍的
幾十個(gè)人產(chǎn)生聯(lián)系,而有了互聯(lián)網(wǎng)之后,與世界各地任何人、無數(shù)人產(chǎn)生聯(lián)
系成為可能。而人工智能出現(xiàn)之前,人只能借助過往經(jīng)驗(yàn)或者周遭環(huán)境等有
限的信息做出判斷;而借助人工智能,人們能夠發(fā)現(xiàn)和挖掘無數(shù)的相關(guān)信息
和數(shù)據(jù)來做預(yù)測(cè)和決策,而做出最優(yōu)決策也是AI思維的一大特點(diǎn)。從廣義上
來看,人工智能具有感知、認(rèn)知和決策的能力。決策就是通過上述模式而產(chǎn)
生的,比如在股市中,人工智能可以根據(jù)歷史數(shù)據(jù)生成模型,然后來指導(dǎo)股
市決策。人工智能的感知和認(rèn)知功能包括感知圖像、理解語(yǔ)言、識(shí)別語(yǔ)義信
息等,它的邏輯和股市決策是一樣的,也是一種預(yù)測(cè),只是預(yù)測(cè)的目標(biāo)不一
樣。例如,人工智能在進(jìn)行人臉識(shí)別時(shí),也是根據(jù)許多人臉數(shù)據(jù)生成模型,然后遇到一個(gè)新的人臉數(shù)據(jù),這個(gè)模型就能判斷出它是否是特定的那個(gè)人
臉。在商業(yè)世界里有一個(gè)名詞阿爾法(alpha)收益。經(jīng)常買基金的朋友應(yīng)該
都知道,阿爾法收益是相對(duì)于貝塔(beta)收益而言的,貝塔收益是一種基
準(zhǔn)收益,而阿爾法收益是在貝塔收益期望之上的超額收益,是積極操作所帶
來的投資回報(bào)。就好比我們理財(cái)一樣,央行的基準(zhǔn)活期年利率是0.35%,就是
說我們有1萬元放在銀行存活期,一年可以賺到35元,而央行年利率提高
0.1%,我們就多賺10元錢,這個(gè)就類似于貝塔收益。但是我們用這1萬元錢去
買余額寶、理財(cái)通、股票,投資房產(chǎn),可能收益翻倍,這個(gè)多出來的收益,就是我們積極操作所帶來的阿爾法收益。1%的阿爾法就意味著比市場(chǎng)帶來的
投資回報(bào)多了1%。毋庸置疑,無論在哪個(gè)市場(chǎng),你都希望能跑贏它,都希望
能找到屬于自己的正向阿爾法。AI思維的作用就在于它能帶著你的認(rèn)知更上
一層樓,賦予你跑贏大盤、產(chǎn)生高阿爾法的能力。
相較于人腦1MB的處理速度,人工智能可以用任意高的算力為你工作,而
且不分晝夜,不知疲勞。人工智能的能力和速度,足以幫助我們尋找到夢(mèng)寐
以求的阿爾法。有了人工智能,你還擔(dān)心跟不上時(shí)代變遷的步伐嗎?
股市:智能投顧發(fā)現(xiàn)阿爾法
傳統(tǒng)上,一個(gè)金融分析師配一個(gè)程序員,就是量化交易在金融公司的常
規(guī)形式。分析師出策略,程序員把策略轉(zhuǎn)寫為代碼,輸入到交易程序里。但
問題在于,策略是分析師自己設(shè)計(jì)的,它實(shí)際上還是一種主觀策略。如果在
量化交易中投入人工智能,就能使機(jī)器自己通過歷史數(shù)據(jù)生成策略模型,進(jìn)
而預(yù)測(cè)將來的走勢(shì),從而尋找金融市場(chǎng)的阿爾法,F(xiàn)在很多的智能投顧,就
是通過這樣的模式來運(yùn)作的。
那么讓我們來看一下,人工智能是如何在投資顧問領(lǐng)域創(chuàng)造出價(jià)值的。
英仕曼集團(tuán)是全球最大的對(duì)沖基金公司之一,它從2014年就開始使用智能投
顧進(jìn)行自動(dòng)交易決策,并且獲得了巨大收益。2015年8月,美元暴跌,全球股
市暴跌,引發(fā)大量拋售。但英仕曼的智能投顧在此之前就洞察了市場(chǎng),并迅
速?gòu)南碌蝎@利。而在美國(guó)股市下跌約3%后,該系統(tǒng)又發(fā)現(xiàn)了買入的機(jī)會(huì),重新回到市場(chǎng)。人工智能參與決策,為英仕曼集團(tuán)規(guī)模最大的一只基金貢獻(xiàn)
了大約一半的利潤(rùn)。通過AI思維,英仕曼集團(tuán)在動(dòng)蕩的股票市場(chǎng)中跑贏了其
他公司,產(chǎn)出了大量的阿爾法。那為什么英仕曼集團(tuán)依靠人工智能就能夠在慘烈的股市中殺出重圍并大
量獲利呢?具體來說,傳統(tǒng)的金融投資還是要靠策略分析師這樣的專業(yè)人士
來做判斷,但是由于人固有的認(rèn)知局限性和經(jīng)驗(yàn)的限制性,在面對(duì)一些大的
變動(dòng)時(shí),也會(huì)出現(xiàn)不知所措的情況,這時(shí)做出的判斷往往有一定的主觀性。
但人工智能具有強(qiáng)大的計(jì)算能力和信息分析處理能力,能夠快速準(zhǔn)確地分析
金融資產(chǎn)在歷史上的表現(xiàn)數(shù)據(jù)和各種外部環(huán)境等各種因素,例如宏觀經(jīng)濟(jì)、就業(yè)情況、社媒輿情等,然后根據(jù)分析結(jié)果預(yù)測(cè)金融資產(chǎn)的未來表現(xiàn),從而
避免金融分析師決策的主觀性和局限性。
房市:美國(guó)房產(chǎn)網(wǎng)站Zillow股價(jià)兩年漲七倍的秘密
杜甫詩(shī)云:“安得廣廈千萬間,大庇天下寒士俱歡顏!敝袊(guó)人自古以
來就講究安土重遷,對(duì)房子鐘情千年。不論經(jīng)濟(jì)發(fā)展如何波動(dòng),房?jī)r(jià)不但居
高不下,還一路水漲船高。不論別的行業(yè)發(fā)展如何不景氣,人們對(duì)于買房的
熱情毫不衰減。房子對(duì)于人們的重要性不言而喻,房子是人生的一筆重要投
資這件事也毋庸置疑。所以,選房和買房也要尋找房屋市場(chǎng)的阿爾法。
在買賣雙方的房地產(chǎn)交易市場(chǎng)上,什么東西是最重要的?毫無疑問是全
面而準(zhǔn)確的房產(chǎn)信息。在傳統(tǒng)的房地產(chǎn)中介業(yè)中,由于房主不清楚自己房屋
的市場(chǎng)價(jià)值,買主也不是很了解理想房屋的實(shí)際價(jià)值,房屋買賣市場(chǎng)的買家
和賣家都一頭霧水,十分茫然。中介公司便利用這種信息不對(duì)稱從中抽取豐
厚的傭金。這種情況持續(xù)了多年,直到2006年,一家房產(chǎn)網(wǎng)站Zillow橫空出
世,在美國(guó)一上線便引發(fā)了轟動(dòng)。因?yàn)樗峁┑姆课輧r(jià)值評(píng)估業(yè)務(wù),解決了
房屋買賣市場(chǎng)這種信息不對(duì)稱的問題,并給予客戶充分的知情權(quán),這在一定
程度上顛覆了傳統(tǒng)的中介業(yè)。
Zillow的房屋價(jià)值評(píng)估業(yè)務(wù)是憑借其自行研發(fā)的人工智能系統(tǒng)建立起來
的,其具體運(yùn)作過程如下:利用Zillow上的房屋估值系統(tǒng)Zestimate,可以了
解到房屋的地理位置、建筑面積、臥室數(shù)量、衛(wèi)生間數(shù)量、房屋照片、周邊
環(huán)境等多維度的數(shù)據(jù),再結(jié)合類似房屋的價(jià)值范圍、歷史價(jià)格、價(jià)格折扣、價(jià)值波動(dòng)等數(shù)據(jù),通過人工智能模型,計(jì)算出房屋目前的市值以及未來的升
值空間。對(duì)于房主來說,他們可以清楚自己房屋的估值,對(duì)于自己的房屋有一個(gè)合理的定價(jià)和預(yù)期,而對(duì)于買家來說,他們也能夠以合適的價(jià)格買到稱
心如意的房屋,形成共贏的局面。
目前,Zillow公司已經(jīng)運(yùn)用這些模型為超過1億個(gè)美國(guó)房屋提供了房屋估
值!度A爾街日?qǐng)?bào)》曾將Zillow的估價(jià)和美國(guó)1 000個(gè)房屋的實(shí)際售價(jià)進(jìn)行比
較,結(jié)果顯示,兩者的中值偏差為7.8%,接近于Zillow自己估算的7.2%。這
就是AI思維的一個(gè)實(shí)例,從中我們也能看到人工智能的優(yōu)勢(shì),不僅可以處理
大量復(fù)雜、凌亂、看似沒有規(guī)律的數(shù)據(jù),也可以避免一些人為的主觀因素,做出客觀的最佳決策。
婚事:約會(huì)和戀愛的科學(xué)決策
柏拉圖說過,每個(gè)人都被上帝分成了兩半,被分開的人太多了,我們很
難找到正確的另一半,但是我們?nèi)匀幌胝覍さ椒Q心如意的人生伴侶。有人相
信緣分,但如果每天宅在家里,社交圈不大,可挑選的范圍也必然受限。隨
著互聯(lián)網(wǎng)的發(fā)展,人們的交流渠道拓寬了,又出現(xiàn)了新的交友方式——在線
約會(huì)。新事物的產(chǎn)生又伴隨著新的問題。互聯(lián)網(wǎng)時(shí)代在線約會(huì)的核心問題在
于可挑選的對(duì)象太多,用戶常常不知道誰(shuí)是對(duì)的人,不知道到底該從何開
始。這時(shí),為了幫助用戶更好地找到稱心如意的對(duì)象,提供智能匹配就顯得
尤其重要。
以前提供這種匹配服務(wù)的是傳統(tǒng)的媒婆,但是媒婆手里的單身人士數(shù)量
是有限的,也就是說,她的用戶數(shù)量很少,所以她可以對(duì)這些用戶的信息了
如指掌,可以輕松地對(duì)這些用戶的信息進(jìn)行評(píng)估,然后給每個(gè)人提供一個(gè)最
佳匹配。然而,當(dāng)我們處理數(shù)百萬的用戶信息時(shí),在一個(gè)超大的候選庫(kù)里選
擇最佳的約會(huì)對(duì)象時(shí),人工的判斷就顯得不現(xiàn)實(shí),而且也不那么準(zhǔn)確了。因
此,在數(shù)據(jù)大爆發(fā)的現(xiàn)在進(jìn)行婚配,我們十分需要借助AI思維來為用戶找到
最有可能的匹配。
美國(guó)的婚戀網(wǎng)站eHarmony開發(fā)了一種基于人工智能的智能匹配系統(tǒng)來解
決這些問題。那智能匹配是什么呢?簡(jiǎn)單來說,就是通過掌握的約會(huì)人的信
息來評(píng)估不同人之間的約會(huì)相容性,從而建立起相應(yīng)的匹配。你可能會(huì)
對(duì)“約會(huì)相容性”這個(gè)詞有疑問,約會(huì)相容性指的是約會(huì)雙方的相似度以及二者相互接納的滿意程度。建立在約會(huì)相容性基礎(chǔ)上的匹配約會(huì),有最大的
可能性獲得成功,并獲得長(zhǎng)期的滿意度。
那這個(gè)智能匹配系統(tǒng)是如何運(yùn)行的呢?首先,根據(jù)相容性分級(jí)來減少潛
在匹配池。相容性分級(jí)由用戶提交的心理自測(cè)結(jié)果以及年齡、所在地等構(gòu)
成,若用戶之間出現(xiàn)年齡意向不符合或者所在地相隔太遠(yuǎn)等情況,就會(huì)從彼
此的匹配池中刪除,為以后的匹配削減一些不必要的信息。其次,基于文
本、圖像和其他維度的統(tǒng)計(jì)數(shù)據(jù)等,通過人工智能生成潛在人選之間的相容
性。最后,相容性低的人就會(huì)被篩選掉,相容性高的人就會(huì)被匹配到一起,這樣就可以為每位用戶找到最佳的約會(huì)人選;閼傩袠I(yè)大量的數(shù)據(jù)表明,即
使在婚戀這個(gè)看似非常主觀的領(lǐng)域,人工智能也能為它服務(wù)的人群帶來阿爾
法。
也許你以為自己不可能擺脫“羊群”,不敢與眾不同;也許你以為自己
只能成為一波又一波的“韭菜”,面對(duì)股市一片紅海畏縮不前;也許你以為
自己打拼半生,也買不到一套合適的心愛的房子;也許你以為你終其一生也
找不到屬于自己的合適伴侶,只能隨隨便便找個(gè)人將就。但看完這本書你會(huì)
知道,這些都是你的“以為”,都是你認(rèn)知的局限性。或許,在五年前、十
年前,這些“你以為”是真的,但現(xiàn)在,有了人工智能,有了AI思維,我們
就能突破認(rèn)知的天花板,跟上時(shí)代的步伐,找到屬于自己的阿爾法。AI思維的核心價(jià)值
文字出現(xiàn)以前,人們結(jié)繩記事。這種不夠清晰的記載方式使人們對(duì)宇宙
和世界的認(rèn)知一直停滯不前。后來,人們發(fā)明了文字,世界開始清亮,宇宙
不再混沌,人類的思維逐漸變得清晰。從這層意義上說,人工智能和文字一
樣,都是承載和提升思維的工具。文字推動(dòng)原始社會(huì)走向文明,AI思維賦予
現(xiàn)代社會(huì)更多發(fā)展的可能性。
基于人工智能的個(gè)性化學(xué)習(xí)方案讓你在短時(shí)間內(nèi)掌握更多需要的知識(shí),基于人工智能的智能匹配社交幫你更容易找到靈魂伴侶,基于人工智能的房
屋評(píng)價(jià)系統(tǒng)讓買房不再是糊涂的選擇,基于人工智能的戰(zhàn)略規(guī)劃讓國(guó)家的發(fā)
展充滿了更多的可能性?梢哉f,AI思維是這樣一種“修身齊家治國(guó)平天
下”的思維方法。要想掌握AI思維,需要了解的事情有很多。我們不妨先從
AI思維的要素開始,開啟這段新的旅程。
AI思維的要素
人工智能早在1956年美國(guó)的達(dá)特茅斯會(huì)議上就被提出,但直到2016年,才開始被大眾熟知,近幾年才開始被普遍運(yùn)用在社會(huì)生活中的各行各業(yè)。這
是為什么呢?原因在于,以前很多人工智能所必需的要素還沒有發(fā)展起來。
隨著互聯(lián)網(wǎng)的普及,人們對(duì)于人工智能的研究更加深入,這幾年這些要素有
了突飛猛進(jìn)的發(fā)展。那么,AI思維得以實(shí)現(xiàn),需要依賴于哪些要素呢?
第一個(gè)要素就是大數(shù)據(jù)。
我們處在一個(gè)數(shù)據(jù)井噴的年代,無論是企業(yè)業(yè)務(wù)環(huán)節(jié)產(chǎn)生的數(shù)據(jù),還是
個(gè)人移動(dòng)設(shè)備里面的數(shù)據(jù),信息量都非常大,并且這個(gè)數(shù)據(jù)量在近幾年呈爆
炸式增長(zhǎng)。如圖1-3所示,根據(jù)智研咨詢發(fā)布的《2017—2023年中國(guó)大數(shù)據(jù)應(yīng)
用行業(yè)市場(chǎng)全景調(diào)查及未來前景預(yù)測(cè)研究報(bào)告》,全球數(shù)據(jù)總量的年增長(zhǎng)率
將維持在50%左右;并預(yù)測(cè),到2020年,全球的數(shù)據(jù)總量將達(dá)到40ZB(1ZB=1
萬億GB)。我們想想20年以前,個(gè)人計(jì)算機(jī)里面的數(shù)據(jù)可能只有區(qū)區(qū)幾十兆,而現(xiàn)在的數(shù)據(jù)都是以TB或者PB作為單位的數(shù)量級(jí)。我們知道AI思維建立
在對(duì)數(shù)據(jù)學(xué)習(xí)的基礎(chǔ)上,數(shù)據(jù)越多,人工智能學(xué)會(huì)的東西越多,人工智能做
出的判斷決策就越準(zhǔn)確,越具有實(shí)用性。所以說,大數(shù)據(jù)的形成是AI思維的
一個(gè)要素。
圖1-3 全球數(shù)據(jù)總量統(tǒng)計(jì)圖
第二個(gè)要素是模型。
我們的大腦由許多神經(jīng)網(wǎng)絡(luò)連接而成,每天能幫助我們做各種各樣的決
策。早期的人工智能模型包括人工神經(jīng)網(wǎng)絡(luò),它本質(zhì)上是對(duì)大腦,也就是我
們自有神經(jīng)網(wǎng)絡(luò)的模擬。這種模型在20世紀(jì)80年代就已經(jīng)被發(fā)明出來了,它
能夠幫助我們從數(shù)據(jù)中提煉出知識(shí)。而今我們?cè)谌斯ど窠?jīng)網(wǎng)絡(luò)的基礎(chǔ)上有了
更深的研究,產(chǎn)生了一系列的深度學(xué)習(xí)模型,其實(shí)可以把深度學(xué)習(xí)模型理解
為傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型的加強(qiáng)版。一般的人工智能模型隨著數(shù)據(jù)量的增加,預(yù)測(cè)效果會(huì)提升,但很快達(dá)到瓶頸。而深度學(xué)習(xí)的預(yù)測(cè)效果隨著數(shù)據(jù)量的增
加,會(huì)持續(xù)提升。深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力決定了它能夠更好地模擬人類大腦的運(yùn)算機(jī)
制,它最擅長(zhǎng)的是理解和識(shí)別圖像、視頻、聲音、文本這樣的數(shù)據(jù)。通過對(duì)
圖像進(jìn)行深度學(xué)習(xí),它實(shí)現(xiàn)了人臉識(shí)別,比如支付寶刷臉支付;通過對(duì)聲音
的深度學(xué)習(xí),實(shí)現(xiàn)了音頻自動(dòng)轉(zhuǎn)換為文字,比如訊飛聽見能夠一鍵錄音轉(zhuǎn)文
字;通過對(duì)文本的深度學(xué)習(xí),人工智能已經(jīng)能夠獨(dú)立創(chuàng)作,比如微軟的人工
智能機(jī)器人小冰出版了原創(chuàng)詩(shī)集《陽(yáng)光失了玻璃窗》。
深度學(xué)習(xí)不但能為人工智能提供技術(shù)支撐,其發(fā)展也為人工智能在各個(gè)
領(lǐng)域的應(yīng)用提供了無限的可能。ImageNet是計(jì)算機(jī)視覺領(lǐng)域很著名的一個(gè)圖
像識(shí)別競(jìng)賽,是該領(lǐng)域的“奧賽”。很多專家、學(xué)者都會(huì)參與,微軟、谷
歌、百度等科技公司也是該比賽中的佼佼者。在ImageNet競(jìng)賽中,隨著深度
學(xué)習(xí)的發(fā)展,圖像識(shí)別能力有了很大的提升,從2010年到2015年這5年間,錯(cuò)
誤率從30%左右縮減到5%。5%的錯(cuò)誤率已經(jīng)基本上匹配了人對(duì)圖像識(shí)別的錯(cuò)誤
率,這促進(jìn)了人工智能在更為廣闊的圖像識(shí)別領(lǐng)域的應(yīng)用。除了圖像識(shí)別以
外,語(yǔ)音識(shí)別的發(fā)展也依賴于深度學(xué)習(xí)。20世紀(jì)50年代,第一個(gè)語(yǔ)音識(shí)別系
統(tǒng)Andry只能夠識(shí)別10個(gè)英文數(shù)字;而現(xiàn)在,深度學(xué)習(xí)助力語(yǔ)音識(shí)別,應(yīng)用于
市場(chǎng)上的語(yǔ)音識(shí)別系統(tǒng)對(duì)普通話的識(shí)別準(zhǔn)確率高達(dá)95%,百度、搜狗、訊飛的
語(yǔ)音識(shí)別的錯(cuò)誤率維持在3%,比人類識(shí)別語(yǔ)音5.7%的錯(cuò)誤率更低,這為人工
智能在語(yǔ)音識(shí)別的各個(gè)領(lǐng)域展開布局提供了強(qiáng)有力的支持。所以說,深度學(xué)
習(xí)的不斷發(fā)展也促進(jìn)了人工智能應(yīng)用的不斷普及。
第三個(gè)要素是算力。
AI思維的實(shí)現(xiàn)需要很強(qiáng)的計(jì)算能力的支撐。我們想到計(jì)算能力,首先想
到的可能是電腦、手機(jī)等智能設(shè)備,它們能提供一部分算力。對(duì)我們做人工
智能來說,這樣的算力是不夠的。我們需要一個(gè)大規(guī)模的計(jì)算機(jī)集群,需要
成百臺(tái)上千臺(tái)計(jì)算機(jī)連接在一起,進(jìn)行大規(guī)模的運(yùn)算。谷歌X實(shí)驗(yàn)室推出的谷
歌大腦就是將16 000臺(tái)計(jì)算機(jī)的處理器連接在一起,這樣強(qiáng)大的算力使其具
有強(qiáng)大的自主學(xué)習(xí)能力,成為全球最大的人工智能大腦之一。
除了計(jì)算機(jī)集群,算力還需要GPU的架構(gòu)。GPU全稱是Graphics
Processing Unit,就是我們常說的圖形處理器,是一種專門在電腦和移動(dòng)設(shè)
備上進(jìn)行圖像運(yùn)算工作的微處理器。與之相對(duì)應(yīng)的是CPU,即中央處理器,其
功能主要是解釋計(jì)算機(jī)指令以及處理計(jì)算機(jī)軟件中的數(shù)據(jù)。GPU的架構(gòu)有別于
傳統(tǒng)CPU的架構(gòu),能夠很好地支持深度學(xué)習(xí)模型的運(yùn)算。你可能對(duì)GPU這個(gè)名稱很陌生,其實(shí)你可能早已接觸過它。如果你是一名電子游戲愛好者,不管
你玩王者榮耀還是和平精英,都需要GPU的支持來實(shí)現(xiàn)游戲中人物的移動(dòng)及其
他圖像變換。GPU現(xiàn)在已經(jīng)發(fā)展到了第四代,它提供的強(qiáng)大算力能夠支撐人工
智能的開展以及落地。
強(qiáng)大算力的加持,使人工智能有了更為廣闊的發(fā)展空間。例如,2019年8
月,人類在強(qiáng)大算力的支持下首次成功重建了果蠅大腦神經(jīng)元的3D模型。果
蠅一直以來都是生物學(xué)領(lǐng)域公認(rèn)的研究動(dòng)物,但為什么一直到2019年才建出
第一個(gè)果蠅大腦神經(jīng)元的3D模型呢?因?yàn)楣壍拇竽X有10萬多個(gè)神經(jīng)元,要
想建立一個(gè)完整的3D模型,需要強(qiáng)大的算力支持,而這個(gè)條件是先前并不具
備的。2019年,在谷歌、劍橋大學(xué)以及霍華德·修斯醫(yī)學(xué)研究所的合作下,研究人員將果蠅的大腦切割成7 042個(gè)40納米的超薄切片,并用透射電子顯微
鏡生成切片的圖像。這些圖像像素高達(dá)40萬億以上,數(shù)量共計(jì)2 100萬張。數(shù)
千塊谷歌開發(fā)的深度學(xué)習(xí)加速芯片Cloud TPU(Tensor Processing Unit)為
這些圖片數(shù)據(jù)的處理提供了算力,最終才生成了人類歷史上第一個(gè)果蠅大腦
神經(jīng)元的3D模型。
第四個(gè)要素是業(yè)務(wù)模式。
我們知道,人工智能要落地,必須在一個(gè)場(chǎng)景中去實(shí)踐它。例如,在金
融領(lǐng)域,傳統(tǒng)上我們的銀行機(jī)構(gòu)只對(duì)征信良好的用戶發(fā)放貸款,而征信記錄
不良的用戶就得不到相應(yīng)的貸款服務(wù)。單純使用人力去判斷一個(gè)用戶的信用
是件費(fèi)時(shí)費(fèi)力的事情,工作效率極其低下。但通過人工智能,我們能在很短
的時(shí)間內(nèi)對(duì)用戶的信用狀況進(jìn)行分析和判斷,決定是否向其提供貸款服務(wù)。
這樣不但減輕了銀行工作人員的工作負(fù)擔(dān),還提高了工作效率;谌斯ぶ
能迅速準(zhǔn)確且不知疲倦的特點(diǎn),它還能為更多更大的用戶人群提供貸款服
務(wù),擴(kuò)大業(yè)務(wù)范圍;谶@些人的大數(shù)據(jù),通過人工智能模型和算力,還能
對(duì)用戶的信用狀況進(jìn)行分級(jí),不但能夠判斷是否提供貸款,還能判斷向這個(gè)
用戶提供多少金額最合適。人工智能為金融機(jī)構(gòu)的工作提供了參考依據(jù),這
就是一種基于人工智能的業(yè)務(wù)模式。實(shí)際上,這樣的商業(yè)模式,把傳統(tǒng)的銀
行和金融機(jī)構(gòu)的業(yè)務(wù)模式推廣到了更大的用戶群,幫助我們實(shí)現(xiàn)了普惠金融
的理想。當(dāng)然,除此之外,人工智能還能運(yùn)用在更多的領(lǐng)域,還有更多的創(chuàng)
新業(yè)務(wù)模式。正是因?yàn)橛辛诉@些創(chuàng)新業(yè)務(wù)模式,人工智能才能順利地在各行
各業(yè)落地,幫助企業(yè)產(chǎn)出價(jià)值。如前所述,AI思維的基礎(chǔ)在于數(shù)據(jù),而核心在于模型,實(shí)現(xiàn)在于算力,應(yīng)用在于業(yè)務(wù)模式。只有大數(shù)據(jù)、模型、算力、業(yè)務(wù)模式這四個(gè)要素同時(shí)存
在,并行發(fā)展,人工智能的價(jià)值才能得以體現(xiàn),AI思維才算完整。這是從具
體要素角度對(duì)AI思維的闡述,下面我們從認(rèn)識(shí)論的角度展開對(duì)AI思維價(jià)值的
理解。
DIKW金字塔
認(rèn)識(shí)論是關(guān)于知識(shí)來源和知識(shí)判斷的理論,認(rèn)識(shí)論將人們的認(rèn)識(shí)過程定
義為DIKW金字塔,認(rèn)為認(rèn)識(shí)分為四個(gè)層次,如圖1-4所示,最底下一層是數(shù)據(jù)
( data ) , 數(shù) 據(jù) 上 面 是 信 息 ( information ) , 信 息 上 面 是 知 識(shí)
(knowledge),知識(shí)再上面是智慧(wisdom)。DIKW金字塔的名字就是取了
每一層的首字母組合而成的。在DIKW金字塔中,越靠下的層級(jí)包含的內(nèi)容就
越多,每往上一層,內(nèi)容就比下一層更加凝練,更富有價(jià)值。原始數(shù)據(jù)雖然
數(shù)量龐大,但有用的信息全都淹沒其中。信息是由數(shù)據(jù)加工處理而成,信息
在實(shí)踐中被升華提煉產(chǎn)生了知識(shí),而智慧又是對(duì)知識(shí)的凝聚總結(jié),它是金字
塔的塔尖,能夠長(zhǎng)久地影響人類。圖1-4 DIKW金字塔示意圖
需要強(qiáng)調(diào)的是,所謂信息,指的是根據(jù)業(yè)務(wù)需求處理好的有特定意義的
數(shù)據(jù)。從數(shù)據(jù)到信息的轉(zhuǎn)換是傳統(tǒng)信息處理中比較專注的領(lǐng)域,通過數(shù)據(jù)庫(kù)
系統(tǒng)和數(shù)據(jù)處理軟件,把相對(duì)粗糙的數(shù)據(jù)轉(zhuǎn)化為信息。而從數(shù)據(jù)和信息到知
識(shí),是AI思維所涉及的領(lǐng)域,這個(gè)轉(zhuǎn)化過程與數(shù)據(jù)庫(kù)運(yùn)算不同,因?yàn)樗皇?br/>
機(jī)械的數(shù)據(jù)規(guī)整和變換,而是通過人工智能完成的,是認(rèn)識(shí)層面一個(gè)巨大的
躍遷。
AI思維的關(guān)鍵在于生成知識(shí)。你可能會(huì)問,人工智能為什么產(chǎn)生的
是“知識(shí)”呢?首先我們要知道,知識(shí)就是人類對(duì)物質(zhì)世界以及精神世界探
索的結(jié)果總和,也就是對(duì)規(guī)律的總結(jié)。我們?cè)谇懊嬷v過,AI思維中的模型可
以類比人腦思維中的規(guī)律,也就是說,模型體現(xiàn)出來的就是知識(shí)本身。隨著
數(shù)據(jù)源源不斷地更新,模型體現(xiàn)出的知識(shí)也會(huì)不斷刷新,針對(duì)新的輸入產(chǎn)生
預(yù)測(cè),為我們的決策提供支持。
著名統(tǒng)計(jì)學(xué)家拉瑟福德·羅杰斯(Rutherford Rogers)曾說過:“我們
被淹沒在信息中,急切需要知識(shí)!被ヂ(lián)網(wǎng)的發(fā)展使我們突破了時(shí)間和空間
的限制,能夠獲得來自世界各地的信息。但在信息爆炸的今天,我們對(duì)信息
的獲取是呈平方數(shù)增長(zhǎng)的,在獲取大量信息的同時(shí),我們無法辨別哪些信息
是對(duì)的,哪些信息是有用的,產(chǎn)生了深深的“知識(shí)焦慮”。而現(xiàn)在人工智能
做的就是把大量無序的信息變成有用的知識(shí),緩解人們的“知識(shí)焦慮”。
AI思維帶來認(rèn)知化革命
在當(dāng)代,數(shù)據(jù)是一種重要資產(chǎn)。數(shù)據(jù)反映了事物的原理和規(guī)律,當(dāng)你找
到它的規(guī)律后,就可以去預(yù)測(cè)未來的事情。如果將數(shù)據(jù)比作原油,那么人工
智能就是從原油中提煉各種高價(jià)值產(chǎn)品的加工廠,它的重要性可見一斑。從
數(shù)據(jù)中發(fā)現(xiàn)知識(shí)、洞察和規(guī)律,這本身不是一個(gè)新的概念,幾百年前就有過
這樣的實(shí)踐——譬如說,開普勒從幾百頁(yè)關(guān)于天體位置的數(shù)據(jù)中,提煉并總
結(jié)出了天體運(yùn)動(dòng)的三定律,至今仍被使用,F(xiàn)在,在AI思維的幫助下,我們
借助大規(guī)模計(jì)算的方法,從海量的數(shù)據(jù)中自動(dòng)地學(xué)習(xí)知識(shí)和規(guī)律。那么,從
實(shí)際應(yīng)用的角度出發(fā),作為一個(gè)數(shù)據(jù)驅(qū)動(dòng)的決策框架,AI思維都帶來了哪些
價(jià)值?首先,數(shù)據(jù)驅(qū)動(dòng)的人工智能框架可以帶來個(gè)性化的體驗(yàn)。人工智能可以
根據(jù)用戶的歷史瀏覽記錄、成交記錄對(duì)用戶的喜好建立模型,得出各商品或
內(nèi)容和用戶喜好的相近程度,并把相近程度排行最高的商品或內(nèi)容推薦給用
戶。例如,當(dāng)我們進(jìn)入一些購(gòu)物網(wǎng)站,可能會(huì)發(fā)現(xiàn)許多這樣個(gè)性化的體驗(yàn),若你之前購(gòu)買過衣服,它可能會(huì)給你推薦其他的搭配商品,若你之前購(gòu)買過
圖書,它可能會(huì)給你推送同類型書單。數(shù)據(jù)驅(qū)動(dòng)下的人工智能框架帶來的個(gè)
性化體驗(yàn)讓網(wǎng)站不再千篇一律,網(wǎng)站給出的每一條推薦都是根據(jù)用戶需求調(diào)
整和優(yōu)化后得出的,真正實(shí)現(xiàn)了千人千面的精準(zhǔn)體驗(yàn)。對(duì)于用戶來說,這樣
省去了他們檢索的時(shí)間,還更加符合他們的需求,帶來了更好的用戶體驗(yàn),對(duì)于網(wǎng)站來說,這樣可以提高網(wǎng)站的瀏覽量、點(diǎn)擊率,還能提高商品的銷
量。此外,人工智能帶來的這種個(gè)性化體驗(yàn)也能為我們的生活提供更多的便
利,帶來更多的幸福感,例如現(xiàn)在的智能家居系統(tǒng),可以提供自動(dòng)控溫等貼
心服務(wù),提升了家居的安全性、便利性、舒適性,并且環(huán)保節(jié)能,讓你感覺
到這就是最適合你的,為你量身定做的家。
其次,數(shù)據(jù)驅(qū)動(dòng)的人工智能框架可以帶來細(xì)粒度的行業(yè)策略。行業(yè)策略
細(xì)粒度意味著企業(yè)的經(jīng)營(yíng)會(huì)更加精細(xì)化。例如,企業(yè)可以把一個(gè)產(chǎn)品的目標(biāo)
客戶群簡(jiǎn)單地劃分為一定年齡范圍的男性或女性,但這樣的客戶群劃分顯然
沒有針對(duì)性。利用數(shù)據(jù)驅(qū)動(dòng)的人工智能框架進(jìn)行目標(biāo)客戶群劃分,得到的結(jié)
果更加詳細(xì),比如我們不僅可以考慮基于年齡、性別這樣的因素,還可以交
叉考慮包含更多維度,例如興趣愛好、行為習(xí)慣等的目標(biāo)客戶群,從而得到
細(xì)粒度的營(yíng)銷策略。以視頻軟件芒果TV為例,為了提高視頻的點(diǎn)擊率,芒果
TV運(yùn)用人工智能來判斷向用戶推送視頻的類型和內(nèi)容。比如,追求放松娛樂
的白領(lǐng)一族會(huì)收到《快樂大本營(yíng)》的相關(guān)推送,喜愛燒腦解密的年輕人群會(huì)
看到《明星大偵探》的相關(guān)廣告。而隨著用戶觀看視頻數(shù)量的上升,人工智
能的推送方案也會(huì)更加個(gè)性化,細(xì)化到滿足每一個(gè)用戶的需求。與傳統(tǒng)方式
相比,人工智能提供的細(xì)粒度視頻推送方案為芒果TV提高了30%的點(diǎn)擊率,真
正實(shí)現(xiàn)了精細(xì)化運(yùn)營(yíng)。
最后,數(shù)據(jù)驅(qū)動(dòng)的人工智能框架可以帶來知識(shí)和洞察。我們?nèi)W(xué);蛘
從經(jīng)驗(yàn)中可以學(xué)習(xí)到知識(shí),而數(shù)據(jù)驅(qū)動(dòng)的人工智能框架可以賦予我們持續(xù)高
效地從數(shù)據(jù)中學(xué)習(xí)知識(shí)、挖掘洞察的能力。這些知識(shí)和洞察可能不是列在教
科書上的條條框框,但卻一定是從數(shù)據(jù)中實(shí)時(shí)地、最大體量同時(shí)也是最有效
獲取的,并能夠運(yùn)用于業(yè)務(wù)實(shí)踐中。例如美國(guó)哈佛大學(xué)地球與行星科學(xué)系的布倫丹·米德(Brendan Meade)教授團(tuán)隊(duì)通過深度學(xué)習(xí)分析了來自世界各地
的地震數(shù)據(jù)集,發(fā)現(xiàn)了余震發(fā)生的規(guī)律,在此基礎(chǔ)上開發(fā)了一套能夠預(yù)測(cè)余
震的智能系統(tǒng)。這套系統(tǒng)為避免余震二次傷害,順利進(jìn)行災(zāi)后救援和恢復(fù)工
作提供了很大的幫助。
AI思維不是捷徑,但它卻可以幫你更加快速地抓住事情的本質(zhì),找出用
戶的需求,洞察世事的發(fā)展,進(jìn)行準(zhǔn)確的預(yù)測(cè),產(chǎn)出更大的價(jià)值。這是科學(xué)
探索的目標(biāo)動(dòng)力,也是人類實(shí)踐的追求所在。
著名的科技思想家凱文·凱利(Kevin Kelly)說人工智能是認(rèn)知化。如
果說電力化帶來了人工的動(dòng)力,那么認(rèn)知化帶來了人工的智能。大量的實(shí)踐
表明,在感知方面,包括視覺、聽覺、語(yǔ)言理解等,人工智能可以接近人
腦。前文已經(jīng)提到過,現(xiàn)在的圖像識(shí)別錯(cuò)誤率已經(jīng)控制在5%,基本和人腦識(shí)
別錯(cuò)誤率持平;在專業(yè)決策方面,在海量數(shù)據(jù)的支持下,人工智能甚至可以
超越人腦。例如,在金融風(fēng)控領(lǐng)域,通過人工智能輸出模型的KS值(通常用
來衡量風(fēng)險(xiǎn)識(shí)別有效性的一個(gè)指標(biāo)),可以做到40%~50%甚至更高,有效地控
制住風(fēng)險(xiǎn)。基于人工智能的快速信貸審批,效果可以超越傳統(tǒng)的人工方法。
在傳統(tǒng)出版業(yè),一個(gè)編輯編輯一本書至少需要一個(gè)月的時(shí)間,但全球最大的
中文期刊網(wǎng)龍?jiān)雌诳_發(fā)了一個(gè)人工智能編輯平臺(tái)“知識(shí)樹”,它是一個(gè)能
夠根據(jù)定義內(nèi)容自動(dòng)編輯圖書的智能系統(tǒng),可以在一天之內(nèi)完成一本圖書的
編輯工作,極大地提高了圖書編輯工作的效率,縮短了圖書出版的周期。
AI思維是一種“數(shù)據(jù)驅(qū)動(dòng)決策”的思維,它不慫恿你去追逐虛無縹緲的
白日夢(mèng),而是教你學(xué)會(huì)用數(shù)據(jù)籌碼四兩撥千斤。不論你研究的是什么領(lǐng)域,從事的是什么職業(yè),通過AI思維,你都能從數(shù)據(jù)中理出頭緒,更加快速、直
接、準(zhǔn)確地預(yù)測(cè)出研究對(duì)象的行為或者結(jié)果。繩鋸木斷,水滴石穿,掌握了
以小博大的AI思維,你不但是一個(gè)夢(mèng)想家,也能成為一個(gè)真正創(chuàng)造價(jià)值的實(shí)
干家。
1. BAT即百度、阿里巴巴、騰訊。
2. 1EB=1 024PB=1 048 576TB=1 099 511 627 776MB。第二章
AI思維的底層邏輯
當(dāng)愛因斯坦說“上帝不擲骰子”的時(shí)候,他錯(cuò)了。鑒于黑洞給予我們的
暗示,上帝不僅擲骰子,而且往往將骰子擲到我們看不見的地方以迷惑我
們。
—《時(shí)間簡(jiǎn)史》—
本章旨在講清楚AI思維中的“法”,即法則和規(guī)律,也就是從數(shù)學(xué)規(guī)律
的角度,闡述AI思維的底層邏輯。AI思維,尤其是其核心——模型,是在數(shù)
學(xué)和統(tǒng)計(jì)算法基礎(chǔ)上發(fā)展起來的,必然受到數(shù)學(xué)和統(tǒng)計(jì)規(guī)律的制約。只有理
解了這些制約,才能理解人工智能與生俱來的局限性,只有了解了這些局限
性,我們才能揚(yáng)長(zhǎng)避短地使用AI思維,更好地享受人工智能給我們帶來的實(shí)
際價(jià)值。無論在日常生活還是在商業(yè)活動(dòng)中,我們知道,從來就沒有解決一
切問題的“銀彈”,任何事情都不能一蹴而就。社會(huì)對(duì)人工智能不切實(shí)際的
預(yù)期,多半來自對(duì)其底層邏輯的一知半解。很多時(shí)候大家沒有聽說過,也無
暇去理解人工智能實(shí)用性背后的法則。并且,在眾多的商業(yè)包裝下,人們?cè)?br/>
來越多地去追捧短平快的“成果”和高流量的媒體曝光,而不去關(guān)注支撐應(yīng)
用的基礎(chǔ)性邏輯。這種“知其然而不知其所以然”的做法,不會(huì)帶來長(zhǎng)遠(yuǎn)的發(fā)展,所以,在深入講述AI思維的“術(shù)”和“器”之前,我們必須先來理解
它的底層邏輯,任何想運(yùn)用AI思維解決實(shí)際問題的人都應(yīng)該知曉并從中獲得
啟發(fā)。模型的泛化能力
首先,我們來回顧一下AI思維。AI思維能夠幫助我們捕捉數(shù)據(jù)的本質(zhì)特
征,根據(jù)數(shù)據(jù)的特征形成模型。在新場(chǎng)景中針對(duì)新的輸入信息,模型就能做
出判斷、產(chǎn)生預(yù)測(cè)。模型使用的一大類場(chǎng)景是分類,也就是預(yù)測(cè)新的輸入所
對(duì)應(yīng)的類別。那么,什么是分類呢?如果我們手里有一張照片,你要做的是
判斷這種張照片里是否有動(dòng)物出現(xiàn),你通過眼睛獲得了這張照片的視覺特
征,這時(shí),你的大腦已經(jīng)下意識(shí)地做出了一個(gè)判斷、一個(gè)分類。這個(gè)問題的
回答結(jié)果就只能是“有”或者“沒有”,這是一種分類,叫作二分類問題。
但是并不是所有的分類都可以用是與否這樣一分為二的判斷來解決,還
有很多東西需要人們?nèi)シ直嫠鼘儆诙喾N類別中的哪一類。我們還是拿這張照
片舉例。當(dāng)你已經(jīng)判斷出這張照片里有一只小動(dòng)物后,你還需要判斷這是一
只什么動(dòng)物。你會(huì)根據(jù)這只動(dòng)物的體型、體毛、耳朵、眼睛、嘴巴等特征,判斷它是貓、狗、兔子,還是其他什么動(dòng)物。這也是一種分類,叫作多分類
問題。
在日常生活中,我們每個(gè)人都避免不了和他人對(duì)話,我們要說,要表
達(dá),也要聆聽、理解他人的話。其實(shí)我們識(shí)別對(duì)話中的聲音信號(hào),從中提取
所說的字和詞語(yǔ),也是一個(gè)分類的過程。商務(wù)印書館的《現(xiàn)代漢語(yǔ)詞典》是
目前較權(quán)威的大型現(xiàn)代漢語(yǔ)詞典,第7版收錄的詞將近7萬條,其中包括了
字、詞、短語(yǔ)、熟語(yǔ)、成語(yǔ)等。也就是說,在我們聆聽的時(shí)候,為了理解這
些聲音信號(hào)的意義,我們的大腦都在將它們中的片段分類成這些字或詞之
一,這就是一個(gè)多分類的過程。但是有的時(shí)候,我們也會(huì)混淆一些讀音比較
相近的詞,比如說“建議”和“堅(jiān)毅”、“升起”和“盛氣”,這說明人腦
的分類也不是完美無瑕的。
我們的視覺要對(duì)看見的東西進(jìn)行分類,我們的聽覺要對(duì)聽見的東西進(jìn)行
分類,我們的味覺要對(duì)嘗到的東西進(jìn)行分類……感官的分類可以幫助我們更
加完整地認(rèn)識(shí)這個(gè)世界。可見,對(duì)外界事物的分類能力是人們認(rèn)知的重要組
成部分,可以說,每時(shí)每刻我們都在對(duì)現(xiàn)實(shí)世界中的輸入信號(hào)做出分類,分
類的準(zhǔn)確與否直接影響我們生活和工作中決策的質(zhì)量和效果。正如人一樣,分類也是人工智能進(jìn)行感知和認(rèn)知的重要工具。在機(jī)場(chǎng)部
署的人工智能模型可以識(shí)別出通過安檢的人是否和證件上的照片一致,刷臉
打卡的人工智能模型也在很多機(jī)構(gòu)運(yùn)用起來,無須戴工卡便可知道人的身
份,許多手機(jī)的刷臉支付功能可以識(shí)別出你是否是該手機(jī)的主人來決定是否
支付,極大地提高了資金的安全性。在語(yǔ)音識(shí)別領(lǐng)域,主流的人工智能識(shí)別
模型對(duì)常見詞語(yǔ)輸入分類的準(zhǔn)確率已超過97%。除了感知圖像、聲音領(lǐng)域,人
工智能模型的分類還可以用在更多的場(chǎng)景,做出人類都難以達(dá)到的準(zhǔn)確預(yù)
測(cè)。例如,在營(yíng)銷領(lǐng)域,人工智能模型需要預(yù)測(cè)客戶的喜好度和傾向性等,相當(dāng)于對(duì)未知客戶行為的分類。在金融信貸領(lǐng)域,人工智能模型能對(duì)客戶的
風(fēng)險(xiǎn)進(jìn)行評(píng)級(jí),也就是對(duì)客戶將來風(fēng)險(xiǎn)度的預(yù)測(cè),從而將客戶分為高風(fēng)險(xiǎn)和
低風(fēng)險(xiǎn)客戶,并輔以不同的策略?梢哉f,通過分類,許多常見的問題都可
以在人工智能的分類框架下進(jìn)行考慮。
分類模型的數(shù)學(xué)基礎(chǔ)
向量指一個(gè)同時(shí)具有大小和方向,且滿足平行四邊形法則的幾何對(duì)象,如圖2-1所示。簡(jiǎn)單地說,向量是有序的數(shù)字列表。人工智能中用到的數(shù)據(jù)一
般是以向量的形式表示的。按一定的次序排列在一起的變量(x1,x2…
xn),依次表示事物的各種特征。舉個(gè)例子,我們打算用過去一年在服裝、飲食、住房、出行、健身、娛樂、美容、奢侈品這8個(gè)類別的消費(fèi)金額來研究
一個(gè)人的消費(fèi)習(xí)慣。那么,這8個(gè)數(shù)字構(gòu)成了一個(gè)八維的向量:(x1,x2,x3,x4,x5,x6,x7,x8),其中每一個(gè)變量對(duì)應(yīng)了一個(gè)類別的消費(fèi)金額。
不同類型的人,上述向量的數(shù)值也不同,美食愛好者的x2有比較高的數(shù)值,高消費(fèi)地區(qū)的租房客的x3會(huì)比較高,注重外貌容顏的人x7比較高……圖2-1 向量示意圖
這里面的每一個(gè)變量叫作向量的一個(gè)維度,人工智能中的向量也常被叫
作特征向量,因?yàn)樗枋隽耸挛锏奶卣。要注意的是,向量中變量是按照?br/>
定順序排列的,順序變了,向量也就變了。我們舉例的向量只有八維,是一
個(gè)簡(jiǎn)化的例子,在現(xiàn)實(shí)中,人工智能處理的向量通常是高維的,在商業(yè)應(yīng)用
中可以達(dá)到上百維、上千維甚至更多,在處理基因數(shù)據(jù)時(shí),可以達(dá)到百萬維
以上。正因?yàn)槿斯ぶ悄芸梢岳斫飧呔S度的向量,而不是像人腦一樣只能分析
少數(shù)幾個(gè)變量,所以人工智能會(huì)給我們帶來更深入、更有效的知識(shí)和洞察。
在數(shù)學(xué)上,分類要做的是,將一個(gè)預(yù)測(cè)函數(shù)作用在個(gè)體的特征向量上,得到想要的輸出結(jié)果。如前所述,人工智能中個(gè)體的數(shù)據(jù)是以向量形式來表
示的。以圖片識(shí)別為例,為了識(shí)別圖片中的物體種類,首先我們要建立一個(gè)
預(yù)測(cè)函數(shù)f,預(yù)測(cè)函數(shù)f作用在圖片的特征向量x上,得到一個(gè)類別f(x),比
如說“小貓”“小狗”或者“兔子”。當(dāng)然,在現(xiàn)實(shí)中的圖片識(shí)別應(yīng)用中,人工智能可以識(shí)別出任意類別物體的圖片。
這個(gè)看似簡(jiǎn)單的過程其實(shí)是非常強(qiáng)大和靈活的,基本上所有人工智能分
類的過程都可以抽象成這樣,其中預(yù)測(cè)的目標(biāo)是跟具體業(yè)務(wù)相關(guān)、需要提前
獲知的信息。就像之前提到的億客行案例一樣,網(wǎng)站需要預(yù)測(cè)一個(gè)訪客的價(jià)
值高低。如果我們可以準(zhǔn)確地識(shí)別一個(gè)訪客是否具有高購(gòu)買的可能性,并將
其應(yīng)用于電商領(lǐng)域,根據(jù)訪客價(jià)值定制營(yíng)銷策略,就能取得優(yōu)秀的阿爾法。讓我們來看看如何設(shè)計(jì)高價(jià)值用戶預(yù)測(cè)的分類模型。首先,我們需要收
集歷史上具有高價(jià)值或者低價(jià)值客戶的標(biāo)記,以及各自行為的特征向量。這
個(gè)分類問題的目標(biāo)是將任何一個(gè)新的訪客分為兩類之一。所謂高價(jià)值、低價(jià)
值就是看客戶一定時(shí)間里在網(wǎng)站的購(gòu)買額度,超過一定金額的定為高價(jià)值客
戶,反之則是低價(jià)值客戶。這樣,我們有了模型訓(xùn)練所需的數(shù)據(jù)集,可以根
據(jù)這些數(shù)據(jù)訓(xùn)練的模型預(yù)測(cè)一個(gè)網(wǎng)站訪客價(jià)值的高低,即使之前他沒有在網(wǎng)
站上消費(fèi)過。既然這個(gè)模型的作用這么大,那么我們接下來就具體看一下,它是如何被訓(xùn)練出來的,又是如何進(jìn)行預(yù)測(cè)的。
模型的訓(xùn)練和預(yù)測(cè)
在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)是產(chǎn)生模型的途徑和方法論。和我們的學(xué)習(xí)
一樣,分類問題的機(jī)器學(xué)習(xí)框架也分為訓(xùn)練和預(yù)測(cè)這兩個(gè)最基本的環(huán)節(jié)。
訓(xùn)練環(huán)節(jié)中需要給定一個(gè)訓(xùn)練集,通過訓(xùn)練集中的標(biāo)記樣本{(x1,y1),…,(xN,yN)}訓(xùn)練出一個(gè)預(yù)測(cè)函數(shù)f,也就是我們的預(yù)測(cè)模型。標(biāo)
記樣本是由第1個(gè)到第N個(gè)輸入數(shù)據(jù)x以及與其相對(duì)應(yīng)的輸出數(shù)據(jù)y組成的。在
預(yù)測(cè)環(huán)節(jié)中,我們要對(duì)在訓(xùn)練環(huán)節(jié)中形成的預(yù)測(cè)模型輸入一個(gè)新樣本x,使用
f輸出預(yù)測(cè)值y=f(x)。需要注意的是,在訓(xùn)練環(huán)節(jié)中,由于樣本是給定的,所以樣本的標(biāo)記是已知的,但在預(yù)測(cè)環(huán)節(jié)中,使用的都是新數(shù)據(jù),所以樣本
的標(biāo)記是未知的。
任何分類模型都要經(jīng)過這兩個(gè)環(huán)節(jié)。在訓(xùn)練環(huán)節(jié)中,機(jī)器通過分析訓(xùn)練
集學(xué)習(xí)模型,發(fā)現(xiàn)其中的規(guī)律,并以預(yù)測(cè)模型f的形式產(chǎn)出。在預(yù)測(cè)環(huán)節(jié)中,碰到新的樣本,即使模型先前沒有見過這個(gè)樣本,仍然能夠輸出相應(yīng)的分
類。正如人的思維方法是從經(jīng)驗(yàn)中學(xué)習(xí)規(guī)律,人工智能通過訓(xùn)練環(huán)節(jié)從數(shù)據(jù)
中學(xué)習(xí)模型。訓(xùn)練環(huán)節(jié)使用了何種模型,以及模型訓(xùn)練的質(zhì)量,決定了模型
的有效性,其中最重要的指標(biāo)是模型在新樣本上的預(yù)測(cè)效果。
如果一個(gè)模型能夠?qū)π聵颖具M(jìn)行有效的預(yù)測(cè),就可以在實(shí)際使用中產(chǎn)生
效益。比如,一個(gè)模型成功地預(yù)測(cè)了某位用戶購(gòu)買某款商品的概率為80%,那
么商家可以積極地向該用戶推送自家的該商品,用戶經(jīng)常接收到自己喜歡的
商品的信息,下單的概率也會(huì)有所上升。成功地預(yù)測(cè)出用戶是否會(huì)購(gòu)買,幫
助商家提高銷量,這樣的模型才是有實(shí)際意義的。泛化能力是模型的核心
一個(gè)模型能帶來多大的價(jià)值,取決于模型預(yù)測(cè)的準(zhǔn)確率有多高。而模型
預(yù)測(cè)的準(zhǔn)確率又依賴于模型的泛化能力(generalization ability)。也就
是說,在一定程度上,模型的泛化能力決定了一個(gè)模型最終能迸發(fā)出多大的
能量。那么泛化能力到底是什么呢?
泛化能力是用來描述模型對(duì)新樣本的預(yù)測(cè)能力的。我們?cè)谌粘I钪幸?br/>
稱之為舉一反三或?qū)W以致用的能力。機(jī)器學(xué)習(xí)的目的是學(xué)到隱含在數(shù)據(jù)背后
的規(guī)律,對(duì)具有同一規(guī)律、訓(xùn)練集以外的數(shù)據(jù),模型也能給出合適的預(yù)測(cè)。
這就是泛化能力的表現(xiàn)。
泛化能力體現(xiàn)了模型智能水平的高低,如果一個(gè)模型只在訓(xùn)練數(shù)據(jù)上能
準(zhǔn)確地分類,作用是很小的,因?yàn)檫@充其量是模型“記住”了各種輸入和對(duì)
應(yīng)的類別,在新的場(chǎng)景中沒有辦法做出準(zhǔn)確預(yù)測(cè)。
在進(jìn)一步講泛化之前,我想先講一個(gè)故事。我有一對(duì)情侶朋友,女生是
一個(gè)中國(guó)姑娘,叫郭霓禾,男生是英國(guó)人,叫安德費(fèi)汀。郭霓禾是一個(gè)牙科
醫(yī)生,她診病的程序十分煩瑣,一個(gè)簡(jiǎn)單的牙疼,她會(huì)給病人量體溫、測(cè)視
力、檢查血壓,有時(shí)甚至還要檢查心電圖,除此之外,她還會(huì)詢問病人一些
無關(guān)的信息,比如身高、體重以及最近吃過什么。她飽讀各種醫(yī)學(xué)類書籍,還研究過各種偏方,最后再結(jié)合她的臨床經(jīng)驗(yàn),總結(jié)出一些獨(dú)特的治病規(guī)
律。如果一個(gè)新的病人的所有指標(biāo)符合她總結(jié)出來的規(guī)律,她才能判斷這個(gè)
人的患病情況,如果情況不符合,她就無法做出判斷。比如有一次一個(gè)病人
牙疼,經(jīng)過檢查和詢問,她發(fā)現(xiàn)這個(gè)病人體溫37℃,視力0.8,身高1.7米,體重70千克,是在吃了西紅柿之后智齒開始發(fā)炎。于是她就總結(jié)出一個(gè)體溫
37℃、視力0.8、身高1.7米、體重70千克的人會(huì)在吃了西紅柿之后引發(fā)智齒
發(fā)炎的規(guī)律。剛剛好,安德費(fèi)汀也符合這幾個(gè)條件,有一次安德費(fèi)汀智齒也
發(fā)炎了,但因?yàn)榘驳沦M(fèi)汀沒有吃西紅柿,郭霓禾認(rèn)為他不符合自己總結(jié)出的
規(guī)律,診斷安德費(fèi)汀的牙疼不是因?yàn)橹驱X發(fā)炎引起的。而安德費(fèi)汀是一個(gè)股
票投資分析師,對(duì)于自己的經(jīng)驗(yàn)和能力十分自信,他認(rèn)為憑借自己的經(jīng)驗(yàn),只需要看一下股票的走勢(shì),就可以判斷一只股票到底是應(yīng)該買入還是賣出。
他根本不考慮政策、大盤環(huán)境、主力資金進(jìn)出等變化因素,每天只看一下電腦屏幕上股票的漲跌狀況就做決定。這樣的判斷顯然十分不科學(xué),導(dǎo)致了他
的大部分積蓄都被套牢在股市。
郭霓禾和安德費(fèi)汀兩個(gè)人都各有特點(diǎn)。郭霓禾對(duì)待事情很認(rèn)真,看事情
很全面,但是由于她顧及的事情太多太細(xì),有時(shí)可能會(huì)過度重視一些無關(guān)緊
要的特質(zhì),總結(jié)出一些沒有作用的規(guī)律,比如那些奇怪的指標(biāo)與智齒發(fā)炎其
實(shí)并沒有關(guān)系,只是那個(gè)病人剛好在智齒發(fā)炎前是那樣的身體狀態(tài),剛好吃
了西紅柿,這樣過度關(guān)注無關(guān)因素反而妨礙了病因的評(píng)估。安德費(fèi)汀則正好
相反,他看事情太片面,沒有綜合考慮影響股市漲跌的因素,導(dǎo)致他的判斷
和股市的實(shí)際情況產(chǎn)生了很大的偏差,成為被迫割肉那一批人。
故事講完了,我想告訴你,郭霓禾和安德費(fèi)汀其實(shí)都是我虛構(gòu)的朋友,他們的名字其實(shí)就是過擬合(overfi tting)與欠擬合(underfi tting)的
諧音。過擬合和欠擬合是兩類統(tǒng)計(jì)學(xué)現(xiàn)象,有這兩種現(xiàn)象的模型,不具備良
好的泛化能力。
在統(tǒng)計(jì)模型中,由于模型太過復(fù)雜而擬合了訓(xùn)練樣本中的噪聲,以至于
輸出的結(jié)果與真實(shí)值相差很大,就像郭霓禾診斷病人一樣,這就是過擬合。
欠擬合則剛好相反,是由于模型過于簡(jiǎn)單,以至于得到的模型難以擬合訓(xùn)練
數(shù)據(jù),就像安德費(fèi)汀沒有考慮到影響股市的其他因素,而導(dǎo)致判斷錯(cuò)誤。
我們總是希望在機(jī)器學(xué)習(xí)訓(xùn)練時(shí),機(jī)器學(xué)習(xí)模型能在新樣本上有很好的
表現(xiàn)。過擬合時(shí),模型過于復(fù)雜,把訓(xùn)練樣本學(xué)得過分好了,就很可能把一
些訓(xùn)練樣本自身的特性當(dāng)成所有潛在樣本的共性。這樣一來,模型的泛化性
能就下降了。欠擬合時(shí),模型又過于簡(jiǎn)單,無法很好地學(xué)到訓(xùn)練樣本的一般
性質(zhì),所以不論在訓(xùn)練數(shù)據(jù)還是預(yù)測(cè)數(shù)據(jù)中,表現(xiàn)都很差。
過擬合就是過多學(xué)習(xí)了一些不必要的數(shù)據(jù)特征。比如你的模型需要區(qū)分
男人和女人,模型學(xué)習(xí)了訓(xùn)練樣本中所有男人和女人的特征。如果訓(xùn)練樣本
中的女人剛好都穿了紅色的衣服,過擬合的模型就可能會(huì)把穿紅色衣服作為
區(qū)分男人和女人的一個(gè)特征。我們都知道,穿什么顏色的衣服并不能作為區(qū)
分人的一個(gè)特征,這時(shí)模型學(xué)習(xí)的這個(gè)特征就屬于過度學(xué)習(xí)。過度學(xué)習(xí)不僅
毫無作用,甚至還會(huì)對(duì)模型的預(yù)測(cè)結(jié)果產(chǎn)生誤導(dǎo),比如出現(xiàn)了一個(gè)新的預(yù)測(cè)
樣本,是一個(gè)穿紅色衣服的男人,模型很有可能會(huì)根據(jù)他穿了紅色衣服這個(gè)
特征就把他識(shí)別為女人。欠擬合與過擬合正好相反,它對(duì)于訓(xùn)練樣本的特征
學(xué)習(xí)得不夠充分,導(dǎo)致訓(xùn)練出來的模型不能很好地進(jìn)行預(yù)測(cè)。而且,由于欠擬合的模型沒能很好地捕捉到數(shù)據(jù)特征,它不但不能對(duì)新的樣本數(shù)據(jù)進(jìn)行預(yù)
測(cè),在訓(xùn)練集中的樣本數(shù)據(jù)時(shí)表現(xiàn)也不是很好。比如你要參加一場(chǎng)考試,考
試前做了許多模擬題,發(fā)現(xiàn)有一些知識(shí)點(diǎn)你還不明白,在模擬題中你有部分
題目做不出來,這就是沒有很好地掌握訓(xùn)練樣本的規(guī)律。當(dāng)你要對(duì)新樣本進(jìn)
行預(yù)測(cè)時(shí),也就是當(dāng)你去參加這場(chǎng)考試時(shí),考試結(jié)果也不會(huì)很好。不論是過
擬合還是欠擬合,都會(huì)使模型不能很好地輸出預(yù)測(cè)結(jié)果,所以,在機(jī)器學(xué)習(xí)
中,這兩種現(xiàn)象都是需要極力避免的。
圖2-2形象地展示了擬合的幾種情況。我們有一些數(shù)據(jù)樣本,大致呈二次
函數(shù)形式,可以看出,用二次函數(shù)來做擬合最合適的是圖2-2中間的圖像。但
是如果我們不采用二次函數(shù)呢?比如,我們用線性的函數(shù)來擬合它,我們可
以得到如圖2-2中左圖的直線,這顯然沒有很好地?cái)M合訓(xùn)練樣本數(shù)據(jù),更不用
說預(yù)測(cè)數(shù)據(jù)了。我們用高次函數(shù)來擬合,可能會(huì)得到如圖2-2右圖那樣的曲
線,顯然,這并不是我們想要的模型,它把個(gè)別數(shù)據(jù)的偶然偏離也當(dāng)成了共
性,而過度擬合了進(jìn)去。
圖2-2 函數(shù)擬合示意圖
通常,解決欠擬合的方法包括:(1)增加新特征,也可以考慮加入特征
各種形式的組合,來增大模型可操作的空間;(2)嘗試非線性模型,比如非
線性支持向量機(jī)(SVM)、決策樹、深度神經(jīng)網(wǎng)絡(luò)(DNN)等模型。
解決過擬合的方法包括:(1)交叉檢驗(yàn),即拿出大部分樣本進(jìn)行模型訓(xùn)
練,留小部分樣本用模型進(jìn)行預(yù)測(cè),并通過調(diào)節(jié)這小部分樣本上的預(yù)測(cè)誤差
來得到較優(yōu)的模型參數(shù);(2)特征選擇,從已有特征中選擇部分特征以減少
模型所用特征數(shù);(3)正則化,即為原始模型引入額外信息來限制模型的復(fù)
雜度;(4)增加訓(xùn)練數(shù)據(jù)在一定程度上可以避免過擬合。真正的泛化能力需要回避過擬合和欠擬合,一個(gè)好的模型必須真正把握
數(shù)據(jù)的底層規(guī)律,既不比數(shù)據(jù)本身復(fù)雜,也不比數(shù)據(jù)本身簡(jiǎn)單。人工智能行
業(yè)的趨勢(shì)是要用越來越復(fù)雜的模型來嘗試做出更好的泛化效果,這需要我們
更加謹(jǐn)慎地看待:如果訓(xùn)練數(shù)據(jù)量不夠多,或者并不支持復(fù)雜的模型假設(shè),那么,很有可能我們只是在過擬合,而不是在產(chǎn)出優(yōu)質(zhì)可泛化的模型。什么
樣的模型既不過擬合,也不欠擬合,是運(yùn)用AI思維時(shí)需要考慮的核心問題。方差和偏差的權(quán)衡
我想大家都聽說過差不多先生的故事。差不多先生做什么事情都是馬馬
虎虎,差不多就好,但是最后差不多先生就因?yàn)檫@差一點(diǎn)的“差不多”害死
了自己。我想,誰(shuí)都不想“差一點(diǎn)”,包括人工智能。當(dāng)機(jī)器學(xué)習(xí)建立了一
個(gè)模型,當(dāng)然希望這個(gè)模型有很好的預(yù)測(cè)效果,但是很多時(shí)候我們發(fā)現(xiàn),這
個(gè)模型還是差一點(diǎn),它在預(yù)測(cè)方面會(huì)出現(xiàn)或多或少的問題。而這個(gè)“差一
點(diǎn)”的問題很多時(shí)候是出在“偏差”和“方差”這兩個(gè)方面。并且在實(shí)踐中
我們發(fā)現(xiàn),這個(gè)“差一點(diǎn)”是可以彌補(bǔ)的,只要權(quán)衡好偏差和方差之間的關(guān)
系,就能夠幫助我們更好地運(yùn)用AI思維解讀數(shù)據(jù)。那么,什么是偏差,什么
是方差呢?我們?nèi)绾尾拍軝?quán)衡好偏差和方差之間的關(guān)系呢?
偏差和方差概述
在機(jī)器學(xué)習(xí)中,機(jī)器從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到模型。任何有監(jiān)督的機(jī)器學(xué)習(xí)
的目標(biāo)都是在給定訓(xùn)練數(shù)據(jù)的情況下,對(duì)輸入變量和輸出變量之間的映射關(guān)
系(下文稱為“真實(shí)函數(shù)”)進(jìn)行最佳估算。既然是估算,肯定就會(huì)有誤
差。通常,機(jī)器學(xué)習(xí)的預(yù)測(cè)誤差可分為三部分:偏差、方差以及不可減少的
誤差。其中,不可減少的誤差是無論采用什么模型都不可能被減少的誤差,因?yàn)檫@種誤差是由未知變量引起的。比如一個(gè)預(yù)測(cè)用戶是否會(huì)買車的模型能
根據(jù)用戶的收入、職業(yè)、年齡、家庭狀況等一系列數(shù)據(jù)進(jìn)行預(yù)測(cè),但是這個(gè)
預(yù)測(cè)不一定完全精準(zhǔn)。因?yàn)橐粋(gè)用戶是否會(huì)買車不只會(huì)受這些變量的影響,還會(huì)受生活方式等的影響,而像生活方式這樣的變量通常是不可知的,因此
這種誤差是不可減少的,但是,偏差和方差是可以通過機(jī)器學(xué)習(xí)模型進(jìn)行影
響的。
偏差描述的是在使用不同的訓(xùn)練數(shù)據(jù)時(shí),預(yù)測(cè)值的平均值與真實(shí)值之間
的差距,即模型本身的精準(zhǔn)度,反映的是模型本身的擬合能力。偏差的產(chǎn)生
是因?yàn)闉榱耸拐鎸?shí)函數(shù)更容易學(xué)習(xí),而對(duì)模型的假設(shè)做了簡(jiǎn)化。偏差高意味
著模型是欠擬合的。方差衡量的是在使用不同的訓(xùn)練數(shù)據(jù)時(shí),真實(shí)函數(shù)的估算值所改變的
量,也就是預(yù)測(cè)值的波動(dòng)情況,它反映的是模型的穩(wěn)定性。方差的產(chǎn)生是因
為為了使模型的預(yù)測(cè)結(jié)果更加符合真實(shí)數(shù)據(jù),而對(duì)模型提出了更加復(fù)雜的假
設(shè)。方差高意味著模型是過擬合的。
下面我們用一個(gè)更直觀的例子來說明一下偏差和方差。假如有一個(gè)視力
不好的人想要學(xué)習(xí)射擊,那么他不管練習(xí)多少次,也不能打中靶心。但是如
果這個(gè)人的視力很好,對(duì)環(huán)境的敏感度很高,瞄準(zhǔn)時(shí)還能考慮到風(fēng)速、風(fēng)向
等環(huán)境因素,那么經(jīng)過訓(xùn)練后,他就很容易打中靶心。如果我們此時(shí)給他換
一個(gè)環(huán)境,而他不能迅速適應(yīng)這個(gè)環(huán)境的話,他的射擊也不會(huì)有之前那樣高
的命中率。
在這個(gè)例子中,靶心代表的是真實(shí)值,若這個(gè)人視力不好,他的擬合能
力相對(duì)而言就不高,無論怎么練習(xí)都不能很好地命中靶心,也就是預(yù)測(cè)值和
真實(shí)值之間存在差距,產(chǎn)生了偏差。假如這個(gè)人視力沒有問題,而且他能夠
根據(jù)環(huán)境因素來改變射擊的方式以此來提高命中靶心的概率,也就是為了使
輸出更好地符合真實(shí)值,而提出了更多的條件假設(shè),但是他又沒有完全掌握
這種方式,環(huán)境一發(fā)生變化他的命中率就會(huì)下降,這就說明了提出的假設(shè)越
多,穩(wěn)定性就越低,就越容易產(chǎn)生方差。
在圖2-3中,第一行的兩個(gè)靶,射擊的痕跡都十分靠近靶心,說明其擬合
能力比較好,也就是偏差;第一列的兩個(gè)靶,射擊的痕跡都十分集中,這
說明其穩(wěn)定性非常好,也就是方差小。圖2-3 偏差與方差示意圖
在數(shù)學(xué)領(lǐng)域有一個(gè)概念叫作“參數(shù)”。在研究問題時(shí),我們經(jīng)常會(huì)在模
型中引入一些變量來描述數(shù)據(jù)的變化,這些變量就是參數(shù)。一般來說,在機(jī)
器學(xué)習(xí)中,參數(shù)化的模型會(huì)有相對(duì)較高的偏差,這樣它們學(xué)習(xí)起來很快,也
更容易理解,但是高偏差就意味著它對(duì)模型做了很多的假設(shè),在訓(xùn)練過程
中,不是每個(gè)數(shù)據(jù)都可以完美擬合,因此,這個(gè)模型就不那么靈活。反之,如果這個(gè)模型對(duì)真實(shí)函數(shù)提出的假設(shè)很少,那么這個(gè)模型的偏差就很低,幾
乎能擬合每一個(gè)數(shù)據(jù),但是這樣的模型近乎一種對(duì)數(shù)據(jù)的記錄,預(yù)測(cè)性能就
不足了。低偏差機(jī)器學(xué)習(xí)模型的例子包括:決策樹、K-最近鄰和支持向量
機(jī)。高偏差機(jī)器學(xué)習(xí)模型的例子包括:線性回歸、線性判別分析和邏輯回
歸。
用機(jī)器學(xué)習(xí)模型是通過訓(xùn)練數(shù)據(jù)來對(duì)真實(shí)函數(shù)進(jìn)行估算,模型或多或少
都會(huì)產(chǎn)生一定的方差。理想情況是,訓(xùn)練數(shù)據(jù)集的改變對(duì)真實(shí)函數(shù)的估算結(jié)
果不會(huì)產(chǎn)生很大影響,這意味著該模型能夠很好地計(jì)算出輸入和輸出變量之
間隱藏的底層映射。如果模型的方差過高,訓(xùn)練數(shù)據(jù)對(duì)其產(chǎn)生的具體影響明
顯,那么訓(xùn)練的細(xì)節(jié)就會(huì)較大地影響到描述映射函數(shù)的具體參數(shù)。如果模型
的方差較低,訓(xùn)練數(shù)據(jù)對(duì)其產(chǎn)生的具體影響很小,那么訓(xùn)練的細(xì)節(jié)對(duì)描述映
射函數(shù)的具體參數(shù)的影響也會(huì)很小。泛化誤差:偏差和方差的權(quán)衡
任何有監(jiān)督的機(jī)器學(xué)習(xí)模型的目標(biāo)都是做到低偏差和低方差,也就是說
該模型應(yīng)達(dá)到很好的預(yù)測(cè)性能。但是在機(jī)器學(xué)習(xí)中,偏差和方差二者又不可
兼得,偏差減少必將增加方差,方差減少必將增加偏差。造成這種現(xiàn)象的原
因是,當(dāng)我們想要盡量減少模型的偏差時(shí),我們就會(huì)盡可能多地保證模型在
訓(xùn)練樣本上的準(zhǔn)確度,但是這樣學(xué)習(xí)出的模型就會(huì)過度擬合,反而降低了其
預(yù)測(cè)能力,增加了模型的不確定性,也就是方差增加了;相反,我們?cè)谧非?br/>
模型的低方差時(shí),會(huì)增加許多對(duì)模型的假設(shè)和限制,雖然這提高了模型的穩(wěn)
定性,但是忽視了擬合程度,偏差也隨之提高了。所以為了模型能夠擁有更
好的預(yù)測(cè)能力,我們需要權(quán)衡偏差和方差的關(guān)系。
我們通過在具體情況下選擇模型的復(fù)雜度來達(dá)到偏差和方差的權(quán)衡,尋
找這個(gè)權(quán)衡的過程就叫作泛化誤差的優(yōu)化。研究發(fā)現(xiàn),模型的泛化誤差可以
通過偏差的平方、方差以及不可減少的誤差相加而得出:
模型的泛化誤差=偏差2
+方差+不可減少的誤差
模型的泛化誤差還可以通過更加形象的方式來表示,如圖2-4所示,隨著
模型復(fù)雜程度的上升,模型的偏差越小,方差越大,圖2-4中最上方的那條
線,表示的就是模型的泛化誤差。我們要找的方差和偏差的最佳權(quán)衡點(diǎn)就是
圖中虛線所在之處,此時(shí)模型的復(fù)雜程度處于最佳狀態(tài),模型的泛化能力最
好。圖2-4 模型的泛化誤差示意圖
我們從圖2-4中可以很容易地發(fā)現(xiàn),偏差和方差之間是存在沖突的。雖然
大多數(shù)情況下,我們不能計(jì)算實(shí)際的偏差和方差項(xiàng),但是對(duì)偏差和方差的把
握為模型預(yù)測(cè)性能的優(yōu)化提供了思維框架。
模型的復(fù)雜度:VC維度
前面我們講到,模型的偏差和方差與模型的復(fù)雜度是有關(guān)系的。模型的
偏差會(huì)隨著模型復(fù)雜度的上升而下降,而模型的方差會(huì)隨著模型復(fù)雜度的上
升而上升。那我們是怎么來定義和量化一個(gè)模型的復(fù)雜度的呢?為了定義和
量化一個(gè)模型的復(fù)雜度,我們引入一個(gè)新的概念:VC維度(Vapnik-
Chervonenkis Dimension)。VC維度是根據(jù)提出者統(tǒng)計(jì)學(xué)家弗拉基米爾·萬
普尼克(VladimirVapnik)和數(shù)學(xué)家亞歷克塞·澤范蘭杰斯(Alexey
Chervonenkis)的名字來命名的。大自然的智慧是無窮的,它賦予我們聰慧的大腦,也在冥冥之中提示我
們尋找規(guī)律,讓我們首先從大自然的角度來理解VC維度。海豚經(jīng)過訓(xùn)練可以
打乒乓球、鉆火圈,被稱為世界上最聰明的動(dòng)物,海豚大腦的重量占海豚體
重的1.7%。平時(shí)我們總會(huì)用“蠢萌”這個(gè)詞來形容的狗,它的大腦重量?jī)H占
它體重的0.8%。經(jīng)過對(duì)多種動(dòng)物大腦重量占它體重比例的研究以及這些動(dòng)物
日常表現(xiàn)的觀察,科學(xué)家們提出,大腦重量占體重的比重越大的動(dòng)物越聰
明。人類大腦的重量占人體重的2.1%,是地球上所有生物中占比最大的,這
也充分證明了上述觀點(diǎn)。大腦占的比重越大,說明腦細(xì)胞相對(duì)就越多,也就
是大腦的復(fù)雜度越高。如果從VC維度的角度來看,大腦的VC維度越高,就越
聰明。
接下來,讓我們從理論的角度來了解一下VC維度。首先我們需要了解一
下分類器。分類是AI思維考慮的重要問題:比如我們要將顧客分為高購(gòu)買價(jià)
值和低購(gòu)買價(jià)值兩類,以此來決定我們的精準(zhǔn)營(yíng)銷方案。在人工智能中,這
些數(shù)據(jù)的分類是通過分類器進(jìn)行的,而分類器的復(fù)雜程度取決于它能夠準(zhǔn)確
分類的數(shù)據(jù)的多少。假如現(xiàn)在要用分類器為一組數(shù)據(jù)點(diǎn)分類,那么這種分類
器的VC維度的定義就是:對(duì)于每個(gè)可能的數(shù)據(jù)點(diǎn)的標(biāo)記,單個(gè)分類器可最多
分類的數(shù)據(jù)點(diǎn)個(gè)數(shù)。但是需要注意的是,這里有一個(gè)隱含條件,就是不要求
對(duì)在同一直線上的點(diǎn)分類。比如:如圖2-5中前三張圖所示,在二維空間上,一個(gè)線性分類器的VC維度是3,因?yàn)樗梢詫?duì)任意三個(gè)點(diǎn)進(jìn)行準(zhǔn)確分類,無論
它們?nèi)绾闻帕。但是如圖2-5中第四張圖所示,單個(gè)線性分類器無法對(duì)四個(gè)點(diǎn)
進(jìn)行準(zhǔn)確分類,即使它們不共線。
圖2-5 二維空間線性分類器示意圖
如果要判斷分類器的VC維度就要看它能夠?qū)讉(gè)不共線的點(diǎn)進(jìn)行分類。
通過上述圖片所示,我們可以直觀地看出來,二維空間中單個(gè)線性分類器可
以分類的最大數(shù)量是3,所以這種線性分類器的VC維度是3。而隨著分類器能準(zhǔn)確分類數(shù)據(jù)的增多,VC維度也會(huì)相應(yīng)地增加。因此,VC維度是描述模型復(fù)
雜程度的一種方法。
VC維度是反映泛化誤差與訓(xùn)練誤差關(guān)系的重要指標(biāo),正如以下公式所
示:
其中N指的是訓(xùn)練樣本數(shù)量,d指的就是VC維度,δ指的是一個(gè)概率相關(guān)
的參數(shù)。雖然這個(gè)公式看似十分復(fù)雜,但是僅從數(shù)量關(guān)系的角度看,VC維度
與泛化誤差和訓(xùn)練誤差的差值呈現(xiàn)正相關(guān),VC維度越大,泛化誤差和訓(xùn)練誤
差的差值就越大。而我們現(xiàn)在已經(jīng)知道了VC維度代表的就是模型的復(fù)雜度,所以模型的復(fù)雜度與泛化誤差和訓(xùn)練誤差的差值也呈現(xiàn)這樣一個(gè)正相關(guān)關(guān)
系。那么,模型VC維度的法則在現(xiàn)實(shí)中有什么意義呢?
首先我們要知道,VC維度并不是越大越好,但是根據(jù)上述公式可以發(fā)
現(xiàn),訓(xùn)練樣本的數(shù)量位于分母位置,VC維度位于分子位置,如果分子分母的
數(shù)量同時(shí)擴(kuò)大,也就是說訓(xùn)練樣本數(shù)量和VC維度同時(shí)擴(kuò)大,泛化誤差和訓(xùn)練
誤差的差值可能并不會(huì)發(fā)生顯著改變。換言之,如果在訓(xùn)練樣本的數(shù)量越來
越多的情況下,提升VC維度,也就是使用更加復(fù)雜的模型可能是一個(gè)更加合
理的選擇。所以,模型VC維度的大小是要根據(jù)訓(xùn)練數(shù)據(jù)的多少來進(jìn)行選擇
的。只有選擇了合適的VC維度模型,人工智能才能產(chǎn)出實(shí)際價(jià)值,為各行各
業(yè)提供優(yōu)質(zhì)的服務(wù)。
我們現(xiàn)在使用的人工智能都是經(jīng)過了漫長(zhǎng)的發(fā)展才達(dá)到現(xiàn)在可以普遍應(yīng)
用的水平,例如語(yǔ)音識(shí)別從1952年就已經(jīng)出現(xiàn)了,但當(dāng)時(shí)的語(yǔ)音識(shí)別建立在
一個(gè)數(shù)據(jù)量很小的基礎(chǔ)上,所以當(dāng)時(shí)它只能識(shí)別出10個(gè)英文數(shù)字的發(fā)音,雖
然這是語(yǔ)音識(shí)別的開端,具有劃時(shí)代的意義,但它也確實(shí)不能進(jìn)入應(yīng)用階
段。隨著語(yǔ)音識(shí)別馬不停蹄地發(fā)展,訓(xùn)練語(yǔ)料庫(kù)越來越大,相應(yīng)地,語(yǔ)音識(shí)
別模型的VC維度也在不斷升高,隨之而來的是語(yǔ)音識(shí)別的錯(cuò)誤率也越來越
低。目前,主流智能語(yǔ)音識(shí)別的準(zhǔn)確率已經(jīng)超過97%,比通常人工轉(zhuǎn)錄的準(zhǔn)確
率還要高。我們之前提到過的圖像識(shí)別領(lǐng)域的“奧賽”ImageNet比賽也反映出這樣
的趨勢(shì)。從2000年開始,每年冠軍參賽模型的VC維度都在不斷上升,與之相
對(duì)應(yīng)的,冠軍模型識(shí)別圖片的錯(cuò)誤率在不斷下降,在這背后,冠軍模型面對(duì)
的其實(shí)是數(shù)據(jù)量越來越大的現(xiàn)狀。不論是在語(yǔ)音識(shí)別、圖像識(shí)別還是在其他
人工智能應(yīng)用上,都體現(xiàn)了這個(gè)規(guī)律:幾十年前,數(shù)據(jù)量很小,人工智能技
術(shù)剛剛起步,模型不需要很高的VC維度來處理數(shù)據(jù),所以當(dāng)時(shí)建立的一些模
型都很簡(jiǎn)單。但隨著時(shí)代的發(fā)展,數(shù)據(jù)量的增加,為更好地解決層出不窮且
越來越復(fù)雜的問題,提供更優(yōu)質(zhì)的服務(wù),近幾年新建立的模型都呈現(xiàn)出VC維
度越來越高、復(fù)雜程度越來越高的趨勢(shì)。
與此同時(shí),各種新興行業(yè)也通過VC維度的提升有了新的發(fā)展。2019年8月
2日,騰訊人工智能實(shí)驗(yàn)室研發(fā)的人工智能系統(tǒng)叫作絕悟,它在王者榮耀世界
冠軍杯中戰(zhàn)勝了職業(yè)選手,證明了現(xiàn)在的人工智能也可達(dá)到電競(jìng)職業(yè)玩家的
水平。8月3日,絕悟在中國(guó)國(guó)際數(shù)碼互動(dòng)娛樂展覽會(huì)(ChinaJoy)上參與的
504場(chǎng)1對(duì)1人機(jī)對(duì)戰(zhàn)中,獲勝率為99.8%,輸?shù)舻哪且粓?chǎng)是輸給了國(guó)內(nèi)最頂尖
的專業(yè)玩家。絕悟之所以能取得如此高的勝率,正是因?yàn)檫x擇了具有合適VC
維度的模型。
這些年,中國(guó)電競(jìng)在世界級(jí)比賽中也獲得了不俗的成績(jī):2018年雅加達(dá)
亞運(yùn)會(huì)電子競(jìng)技表演賽中斬獲2金1銀、“英雄聯(lián)盟”S8全球總決賽捧得冠軍
獎(jiǎng)杯。這說明中國(guó)電競(jìng)業(yè)正在逐步崛起,電競(jìng)職業(yè)選手的能力也逐漸逼近世
界水平。這時(shí)如果發(fā)明出電競(jìng)?cè)斯ぶ悄埽矔?huì)希望它達(dá)到世界級(jí)水平。但
是,電競(jìng)?cè)斯ぶ悄芩媾R的問題是十分復(fù)雜的。以王者榮耀為例,它作為
一個(gè)團(tuán)隊(duì)作戰(zhàn)游戲,雙方每方5位參與者要在英雄搭配、技能應(yīng)用、路徑調(diào)換
及團(tuán)隊(duì)協(xié)作等方面面臨大量、持續(xù)而且即時(shí)的選擇,其操作可能性高達(dá)1020
000
種。因此,絕悟在訓(xùn)練過程中選擇的是VC維度極高的深度強(qiáng)化學(xué)習(xí)模型。
在短短半個(gè)月的訓(xùn)練周期內(nèi),絕悟每天的訓(xùn)練強(qiáng)度相當(dāng)于人類訓(xùn)練440年的
量。與此同時(shí),絕悟在訓(xùn)練中用了384塊GPU。在這樣高等級(jí)算力的支持下,VC維度高的模型的訓(xùn)練下,絕悟的電子競(jìng)技能力直線上升,達(dá)到了世界級(jí)電
子競(jìng)技選手的水平。
“權(quán)衡”二字出自南朝劉勰的《文心雕龍》:“權(quán)衡損益,斟酌濃
淡!惫湃嗽缫迅嬖V我們,要懂得權(quán)衡才能找到處理事情的最佳方法。通過
權(quán)衡偏差和方差平衡模型的復(fù)雜程度和穩(wěn)定程度,找到最合適的模型;通過權(quán)衡各種條件,找到最合適的VC維度,這樣打造出來的模型才是真正能解決
問題的模型。弱水三千只取一瓢飲,雖然選擇很多,我們只要最合適的那一
個(gè)。這和AI思維是一脈相承的,通過權(quán)衡各種復(fù)雜條件做出最佳的決策,不
但可以幫助我們解決各種復(fù)雜的商業(yè)問題,還能使我們?cè)诩ち业男袠I(yè)競(jìng)爭(zhēng)中
脫穎而出。相關(guān)性和因果性
伏爾泰說過:“雪崩的時(shí)候,沒有一片雪花是無辜的!蹦茄┥绞请S著
片片雪花的飄落而崩塌,還是因?yàn)槟菆?chǎng)忽降的大雪而崩塌?笛卡兒說
過:“我思故我在。”那我們是隨著思考而越發(fā)感覺到自己的存在,還是真
的因?yàn)槲覀冊(cè)谒伎疾庞辛俗陨淼拇嬖?駱駝到底是隨著稻草的增多而被壓
垮,還是因?yàn)樽詈笠桓静萏炼瓜?關(guān)于相關(guān)性和因果性的思考一直以
來都存在,機(jī)器學(xué)習(xí)模型發(fā)現(xiàn)的便是輸入變量和預(yù)測(cè)目標(biāo)之間的相關(guān)性。相
關(guān)性不同于因果性,因果性對(duì)應(yīng)的是傳統(tǒng)科學(xué)研究的范疇,相關(guān)性則是AI思
維所關(guān)注的理念。相關(guān)性對(duì)于我們研究許多變量因子之間的相互關(guān)系有著很
大的幫助。
事實(shí)上,將兩個(gè)一起出現(xiàn)的事物關(guān)聯(lián)起來是人類與生俱來的學(xué)習(xí)能力。
比如說,人都怕衰老,因?yàn)樗ダ弦馕吨牧魇;人們到了一定年紀(jì)就會(huì)
喜歡照鏡子,去看是不是自己臉上哪個(gè)區(qū)域又出現(xiàn)了皺紋,或者白發(fā)是不是
又增多了,因?yàn)榘装l(fā)和皺紋是衰老的跡象,這對(duì)于大部分人來說可能都不是
個(gè)好消息。我們一看到臉上有皺紋、頭上有白發(fā),就知道人開始進(jìn)入衰老
期,其實(shí)就是因?yàn)槲覀儗櫦y、白發(fā)與衰老建立起了聯(lián)系,根據(jù)這個(gè)聯(lián)系在
腦海中反映出它們之間的相關(guān)性。但是,從科學(xué)角度來說,并不是“皺
紋”“白發(fā)”帶來了人體的衰老,它們只是衰老的表象,人體衰老的根本原
因在于細(xì)胞代謝能力的降低。也就是說,皺紋和衰老之間并不存在因果性,僅僅是內(nèi)涵及外在表現(xiàn)形式的一種相關(guān)性。
人體是一個(gè)復(fù)雜的存在,除了會(huì)經(jīng)受自然衰老以外,還會(huì)生各種各樣的
疾病。在流行病學(xué)領(lǐng)域,相關(guān)性也比因果性常見得多。例如,最近很多上班
族覺得自己氣血不足,所以在他們中間流行起了“泡枸杞、吃紅棗”的養(yǎng)生
法。這是為什么呢?難道就因?yàn)樯习嘧迕刻於嫉脤?duì)著電腦、手機(jī)十幾個(gè)小
時(shí),又恰恰顯出了氣色差、無力等貧血跡象,就能說明是輻射引起的貧血
嗎?這些社交媒體制造的類似焦慮言論背后,其實(shí)埋著將相關(guān)性歪曲為因果
性的雷。雖然不排除某種性質(zhì)的貧血跟電子產(chǎn)品的輻射有一定關(guān)聯(lián),但貧血
和人們使用電子產(chǎn)品的比例并不能斷定兩者之間的因果性。實(shí)際上,白領(lǐng)群體的“貧血”概率與機(jī)體的運(yùn)動(dòng)代謝下降和飲食結(jié)構(gòu)的
不合理有關(guān)。白領(lǐng)群體長(zhǎng)時(shí)間坐在工位上,對(duì)著電腦、手機(jī),身體代謝變
慢,血?dú)庹{(diào)動(dòng)不起來,這才導(dǎo)致了醫(yī)學(xué)上的貧血現(xiàn)象。此外,上班族工作壓
力大、飲食不規(guī)律,忽略了機(jī)體基礎(chǔ)營(yíng)養(yǎng)的正常補(bǔ)給,長(zhǎng)年累月,影響身體
機(jī)能的修復(fù),這也是引起氣血不調(diào)的原因之一。所以,如果將此類的表述換
成“隨著全球氣溫升高,貧血人群的數(shù)量也在急速上升”,同樣也能推
出“全球溫度升高容易引起貧血”的結(jié)論,這顯然十分荒謬。
雖然相關(guān)性沒有因果性來得一針見血,但是相關(guān)性能一定程度地揭露問
題所在。作為內(nèi)在問題的一種肉眼可見的表征,相關(guān)性自有它的用武之地;
至于如何應(yīng)用,我們會(huì)在后面的內(nèi)容中進(jìn)行更詳細(xì)的闡述,F(xiàn)在讓我們先來
看一下相關(guān)性與因果性的定義。
什么是相關(guān)性
相傳,如果南美洲亞馬孫河流域熱帶雨林中的一只蝴蝶慵懶地扇動(dòng)幾下
翅膀,可能會(huì)在兩周之后導(dǎo)致美國(guó)得克薩斯州刮起一場(chǎng)鋪天蓋地的龍卷風(fēng)
——如果一定要說這兩件事之間存在關(guān)系的話,那這個(gè)關(guān)系也是微乎其微
的。
那么,如何衡量相關(guān)性的程度呢?我們可以定義相關(guān)系數(shù),規(guī)定相關(guān)系
數(shù)的取值范圍在-1到1之間,兩個(gè)事物之間的相關(guān)系數(shù)越接近0,就表明兩者
的相關(guān)性越低。對(duì)比雙方數(shù)據(jù)時(shí),如果一方數(shù)據(jù)往高走的時(shí)候,另一方數(shù)據(jù)
也在上升,就說明二者正相關(guān),它們的相關(guān)系數(shù)在0與1之間。如果一方數(shù)據(jù)
往高走的時(shí)候,另一方數(shù)據(jù)下降,那么二者為負(fù)相關(guān),相關(guān)系數(shù)在-1與0之
間。相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)性越強(qiáng)。相關(guān)系數(shù)越接近于0,相關(guān)性越
弱。
舉個(gè)例子,負(fù)相關(guān)性就好比飲食健康程度和生病次數(shù)之間的關(guān)系。一般
來說,飲食健康程度越高,生病次數(shù)就越少,即飲食健康程度和生病次數(shù)是
負(fù)相關(guān)的。不相關(guān)(相關(guān)系數(shù)為0)的數(shù)據(jù),看起來就是一組均勻的數(shù)據(jù)點(diǎn),沒有什么明顯的趨勢(shì)。當(dāng)然也有正相關(guān)的例子。譬如多年未見的朋友比小時(shí)
候長(zhǎng)得更加高大、健壯了,體重也重得多。身高和體重之間就是一種正相關(guān)
的關(guān)系。一般來說,身高每長(zhǎng)高一厘米,體重也會(huì)相應(yīng)地有所增加。但是在運(yùn)用相關(guān)性進(jìn)行分析的時(shí)候要十分注意。國(guó)外有個(gè)網(wǎng)站Spurious
Correlations,講的是虛假的相關(guān)性。這個(gè)網(wǎng)站上列了許多啼笑皆非的例
子,這些例子中的每一對(duì)數(shù)據(jù)看似都有很高的相關(guān)性,實(shí)際上卻不存在任何
合理的解釋。比如說,有人發(fā)現(xiàn)在某些年份,美國(guó)在科技領(lǐng)域投入的資金和
上吊自殺人數(shù),相關(guān)系數(shù)高達(dá)99.79%。這其實(shí)體現(xiàn)的就是一種虛假的相關(guān)
性,真正具有相關(guān)性的兩者要有一個(gè)關(guān)聯(lián)的基點(diǎn)。就這個(gè)例子而言,人們并
不會(huì)因?yàn)槊绹?guó)在科技領(lǐng)域投入多少,就去考慮上吊自殺的事情,所以兩者不
存在一個(gè)關(guān)聯(lián)的基點(diǎn),也就不存在真正的相關(guān)性。網(wǎng)站上列舉的另一個(gè)虛假
相關(guān)性的例子——人均芝士消耗量和新增土木工程博士數(shù),相關(guān)系數(shù)高達(dá)
95.86%。95.86%表面上代表著非常高的相關(guān)性,但實(shí)際上,兩者之間并沒有
合理的聯(lián)系。造成如此高的相關(guān)系數(shù)的原因也許只是隨著時(shí)間推移,社會(huì)發(fā)
展,各項(xiàng)指標(biāo)正好同步變大而已。所以在使用相關(guān)性概念的時(shí)候,我們也要
考慮兩個(gè)變量?jī)?nèi)在的聯(lián)系和可解釋性,單純的相關(guān)系數(shù)可能沒有意義。
什么是因果性
證明因果,首先要證明兩個(gè)事件有關(guān)聯(lián)。這種關(guān)聯(lián)一般來說是一種常見
的現(xiàn)象,比如一些老人喜歡說的“愛笑的人都很善良”,“滿臉愁容、精神
頹廢的人都很苦命”,“筋絡(luò)粗壯的都很奔波”,等等,是根據(jù)一種靜止表
象來推測(cè)動(dòng)態(tài)發(fā)展傾向。雖然關(guān)聯(lián)現(xiàn)象不一定意味著因果關(guān)系,但認(rèn)識(shí)到或
者察覺到它,卻是一個(gè)很好的起點(diǎn)。如果某兩個(gè)事件顯示出一定的相關(guān)性,往往會(huì)引起研究者的注意,吸引他們?nèi)グl(fā)掘其中可能存在的因果關(guān)系。
從日常生活到嚴(yán)謹(jǐn)?shù)目茖W(xué)實(shí)驗(yàn)室,想要證明事件之間有無關(guān)聯(lián)或密切程
度的方法有很多。就像前面說的,從統(tǒng)計(jì)學(xué)的角度,能夠通過數(shù)據(jù)分析看出
兩個(gè)事件之間是否存在正相關(guān)和負(fù)相關(guān)的關(guān)系,如果不存在關(guān)聯(lián)就不存在因
果,因?yàn)殛P(guān)聯(lián)關(guān)系是因果關(guān)系的基礎(chǔ)。當(dāng)確定兩個(gè)事件之間存在關(guān)聯(lián)后,我
們?cè)龠M(jìn)一步分析兩個(gè)事件之間的細(xì)節(jié)規(guī)律,建立起一個(gè)假設(shè),即它們之間發(fā)
生的先后關(guān)系的推測(cè)。想要驗(yàn)證這個(gè)推測(cè),首先可以預(yù)設(shè)是某一事件導(dǎo)致的
另一事件,這個(gè)結(jié)論成立的兩個(gè)條件是:第一,一個(gè)事件發(fā)生在另一個(gè)事件
之前;第二,前一個(gè)事件的出現(xiàn)能預(yù)測(cè)另一個(gè)事件的出現(xiàn)。因果關(guān)系的鏈條是單一的。上述條件只是證明了兩者之間存在鏈條,我
們還要進(jìn)一步檢驗(yàn)事件之間鏈條的單一性,也就是排除掉其他可能的混淆變
量。所謂混淆變量,就是發(fā)生在前一事件以外的其他事件導(dǎo)致了后一個(gè)事件
的發(fā)生,這就違反了因果關(guān)系鏈條的單一性,這個(gè)因果關(guān)系就不是那么明確
地能夠成立了,需要再往深一步去挖掘其真實(shí)的因果關(guān)系鏈條。比如,在眾
所周知的狐假虎威的故事當(dāng)中,每一次狐貍出現(xiàn),森林里的動(dòng)物們都十分害
怕,四散而逃,但是動(dòng)物們逃走并不是因?yàn)楹,而是因(yàn)楹偟纳砗蟾?br/>
百獸之王老虎。在這個(gè)故事中,老虎就是那個(gè)混淆變量,狐貍出現(xiàn)與動(dòng)物們
逃跑之間并不存在鏈條的單一性,也就是因果關(guān)系并不成立。
去掉混淆變量的常見方法是設(shè)計(jì)實(shí)驗(yàn)組和對(duì)照組。實(shí)驗(yàn)組,就是在這一
組樣本中對(duì)某一因素做處理。對(duì)照組,就是不做任何處理,直接放置,然后
觀察兩組現(xiàn)象的差別。要證明因果,就是需要實(shí)驗(yàn)組出現(xiàn)預(yù)設(shè)的現(xiàn)象,而對(duì)
照組不出現(xiàn)預(yù)設(shè)現(xiàn)象。如果實(shí)驗(yàn)組因?yàn)樽隽四骋灰蛩氐奶幚矶霈F(xiàn)預(yù)設(shè)現(xiàn)
象,對(duì)照組未做任何處理而沒有出現(xiàn)預(yù)設(shè)現(xiàn)象,就能證明某一因素的改變導(dǎo)
致了預(yù)設(shè)現(xiàn)象的出現(xiàn),而沒有這一改變就不能導(dǎo)致相應(yīng)現(xiàn)象出現(xiàn)。
例如,最近喝各種養(yǎng)生茶變得流行起來,有些人喜歡清淡的,有些人接
受不了苦味,有些人卻偏偏喜歡特別苦的。如果我們想要知道是哪一種原料
導(dǎo)致了茶的苦味,就可以進(jìn)行一次對(duì)照實(shí)驗(yàn)。例如,我們的推測(cè)是里面的苦
菊導(dǎo)致了苦味,那么我們需要泡兩杯茶,一杯花果茶的茶包原料不變,照常
加水泡開;將另一杯花果茶的茶包原料里的苦菊挑揀出來,再加水泡開。如
果品嘗后發(fā)現(xiàn)前一杯茶帶有苦味,而后一杯茶沒有苦味,則驗(yàn)證了我們的推
測(cè)是正確的,即苦菊是導(dǎo)致這杯茶帶苦味的原因,苦菊與茶的苦味之間的因
果性成立。當(dāng)然,我們還可以做更多推測(cè),比如考察是哪種材料導(dǎo)致了奇怪
的味道,等等。
相關(guān)性大于因果性
在日常工作生活中,我們更需要關(guān)注相關(guān)性,而不是強(qiáng)求因果關(guān)系,也
就是說,只需要知道“是什么”,而不總是需要知道“為什么”。這能使人
跳過洼地,快速地獲取結(jié)果。這種思維方式推翻了自古以來人們更加注重因
果關(guān)系的慣例,使我們理解現(xiàn)實(shí)和做出決定的最基本方式受到挑戰(zhàn)。但是不破不立,破而后立,相關(guān)性的思維方式也讓一切事物變得看起來很簡(jiǎn)單。AI
思維從數(shù)據(jù)中訓(xùn)練出模型,但它從不思考為什么這樣做,這讓模型訓(xùn)練變得
簡(jiǎn)單直接,體現(xiàn)出相關(guān)性思維的特點(diǎn)。
從傳統(tǒng)的因果性思維轉(zhuǎn)向相關(guān)性思維是AI思維最突出的一個(gè)特點(diǎn),傳統(tǒng)
的因果性思維是說我們一定要找到一個(gè)原因,推出一個(gè)結(jié)果來。而基于AI思
維的預(yù)測(cè)沒有必要找到原因,不需要證明這個(gè)事件和那個(gè)事件之間有一個(gè)必
然、先后關(guān)聯(lián)發(fā)生的因果規(guī)律。在相關(guān)性思維中,如果出現(xiàn)了某些跡象,數(shù)
據(jù)統(tǒng)計(jì)的高概率會(huì)顯示出相應(yīng)的結(jié)果。那么,當(dāng)我們發(fā)現(xiàn)這些跡象時(shí),需要
做的就是根據(jù)這些跡象去預(yù)測(cè)結(jié)果,做出決策。這和以前的思維方式不一
樣,和傳統(tǒng)科學(xué)的思維不一樣。雖然同樣基于數(shù)據(jù),但是傳統(tǒng)科學(xué)要求找到
準(zhǔn)確的因果關(guān)系。
但是,在這個(gè)紛亂復(fù)雜的社會(huì)關(guān)系里面,充滿了差異性,不同的人在不
同的時(shí)間節(jié)點(diǎn)可能會(huì)為了不同的原因去做一件同樣的事情。比如,有的人覺
得紫外線太強(qiáng)怕被曬黑,有的人覺得陽(yáng)光刺眼,有的人覺得雨季要到了,這
時(shí)他們都可能會(huì)買一把傘。不論中間的思考過程有多曲折,各自的理解如何
大相徑庭,他們最終都指向同一個(gè)結(jié)果。其實(shí),我們?cè)诤芏鄷r(shí)候,最終為的
也不過是這個(gè)結(jié)果罷了,所以在這期間耗費(fèi)過多的精力去尋找里面的因果關(guān)
系并非那么必要,畢竟在這個(gè)節(jié)奏如此快的社會(huì),等你從頭到尾都想得一清
二楚的時(shí)候,這個(gè)事情可能早就不值得辦了。
所 以 人 工 智 能 時(shí) 代 的 思 維 更 像 “action!” ( 行 動(dòng) 指
令)、“reaction!”(立刻反應(yīng))這樣一種直線思維。也就是說,你聽到或
者看到一個(gè)明顯的指令或者跡象,你不需要去追究太多,只需要按慣例做出
反應(yīng)就可以。只要我發(fā)出這個(gè)口令,就一定能夠得到一個(gè)既定的、預(yù)期內(nèi)的
回應(yīng),這就可以了。就像在運(yùn)送快遞時(shí),如果有玻璃制品這樣易碎的物品,快遞盒子外面一般會(huì)有“易碎物品,小心輕放”的提示。看到這個(gè)提示,快
遞員不需要知道盒子里面是什么物品,也不需要知道它為什么易碎,他只需
要在送快遞過程中做到小心輕放,不讓盒子中的物品破碎就可以了。
全世界的商界人士都在高呼人工智能時(shí)代來臨的優(yōu)勢(shì):早在很久以前,商家就明白了相關(guān)性銷售的精髓。比如,商家很容易根據(jù)你買東西的數(shù)量知
道你家有多少人吃飯,你是單身還是一大家子。將牛肉干等一些簡(jiǎn)便的下酒
食品與各種酒品擺在一起,也能很大程度地提升銷售業(yè)績(jī),因?yàn)楹芏鄷r(shí)候這些關(guān)聯(lián)是更契合人性的。比如,你只喝酒,難免腸胃寡淡,根據(jù)人體自然需
求,會(huì)需要同時(shí)補(bǔ)充一些重口味的小吃。喝酒就是為了爽快,誰(shuí)會(huì)為了幾塊
錢的小吃而折損了喝酒的享受呢?抓住了這些關(guān)聯(lián)也就抓住了人性,從而能
實(shí)現(xiàn)高銷售。數(shù)據(jù)透露出來的信息有時(shí)確實(shí)能起到出人意料的效果。比如,下雨或者高溫暴曬的時(shí)候,往往訂外賣的人數(shù)會(huì)激增,這時(shí)候在辦公區(qū)附近
的餐館都會(huì)提前做好“備戰(zhàn)模式”,例如提前預(yù)備好外賣餐盒、準(zhǔn)備好外賣
常點(diǎn)的菜品,這些老板不需要去考慮究竟是因?yàn)橄掠、暴曬的時(shí)候大家覺得
出門麻煩而選擇訂外賣,還是因?yàn)檫@種天氣下大家心情不好而選擇點(diǎn)外賣,他只需要根據(jù)天氣變化采取相關(guān)行動(dòng)就可以。
這些例子共同說明了一個(gè)道理:用相關(guān)性思維方式來思考問題、解決問
題的做法值得關(guān)注。尋找原因在以前被視為理所當(dāng)然,但是大數(shù)據(jù)推翻了這
個(gè)論斷。過去尋找原因的信念正在被更為實(shí)用的相關(guān)性所取代。隨之而來產(chǎn)
生了一個(gè)值得思考的問題:在探求因果關(guān)系轉(zhuǎn)變?yōu)樽⒅叵嚓P(guān)關(guān)系的過程中,我們?cè)鯓硬拍芗炔粨p壞奠定社會(huì)繁榮和人類進(jìn)步的因果推理基石,又能真正
推動(dòng)社會(huì)的進(jìn)步呢?需要強(qiáng)調(diào)的是,轉(zhuǎn)向相關(guān)性,并不是要拋棄因果關(guān)系這
塊科學(xué)基石,而是通過相關(guān)性更加快速直接地解決問題。
在當(dāng)今這個(gè)信息化的時(shí)代,只要能夠得到充足的數(shù)據(jù),加之用高效的AI
思維尋找到相關(guān)性信息,就可以預(yù)測(cè)用戶的行為,為企業(yè)做出準(zhǔn)確決策提供
支撐。比如,金融行業(yè)非常注重風(fēng)險(xiǎn)的把控,以往我們識(shí)別金融風(fēng)險(xiǎn)最常用
的方式就是查看客戶的過往征信記錄,尋找各種渠道去打探對(duì)方的信譽(yù)。這
個(gè)過程不但耗時(shí)、費(fèi)力,還未必能夠保證信息全面。
有了人工智能加持之后,金融機(jī)構(gòu)就可以通過數(shù)據(jù)建立模型,識(shí)別出客
戶相關(guān)的異常行為以及異常關(guān)系,為金融決策提供廣泛、確切的有效信息。
在這個(gè)領(lǐng)域中,人工智能能夠幫助解決金融信用體系中的關(guān)鍵問題。那么人
工智能是如何在這個(gè)過程中發(fā)揮作用的呢?首先需要構(gòu)建人工智能模型,然
后通過模型實(shí)現(xiàn)特征分析,進(jìn)而根據(jù)模型的輸出判斷異常。比如說現(xiàn)在我們
要判斷是否給某個(gè)客戶貸款。為了解決這個(gè)問題,金融機(jī)構(gòu)就要對(duì)該客戶以
往的行為進(jìn)行分析。如果金融機(jī)構(gòu)通過人工智能分析發(fā)現(xiàn),這個(gè)客戶曾經(jīng)多
次逾期還款,收入不穩(wěn)定、工作情況變動(dòng)大,那么這就意味著他不是一個(gè)很
好的貸款對(duì)象,因?yàn)樨?cái)務(wù)狀況不穩(wěn)定與出現(xiàn)財(cái)務(wù)問題之間有很大的相關(guān)性,放貸給他可能會(huì)影響到錢款的正常收回,導(dǎo)致出現(xiàn)損失。相反,如果客戶過往的財(cái)務(wù)狀況穩(wěn)定,并且有著合理的發(fā)展規(guī)劃,就說明他是一個(gè)值得信賴的
客戶。向這樣的客戶貸款,風(fēng)險(xiǎn)較低,相對(duì)安心。
盡管在過往,這些工作也能通過人工粗略地進(jìn)行,但是由于細(xì)枝末節(jié)的
信息不計(jì)其數(shù),而人力始終是有限的,在這種情況下,人工的分析自然容易
出現(xiàn)疏漏。此外,人工耗時(shí)長(zhǎng),對(duì)于金融這個(gè)看重時(shí)效性的行業(yè)來說,是一
個(gè)重大的弱點(diǎn)。相比之下,人工智能通過自身的模型學(xué)習(xí),能夠在短時(shí)間內(nèi)
就發(fā)現(xiàn)隱患,使得應(yīng)對(duì)決策能夠正確有效地實(shí)施。所以,在商業(yè)社會(huì)
里,“action!”“reaction!”的行為模式是更為合理,也是適用更廣的。
細(xì)究其中,你會(huì)發(fā)現(xiàn),事實(shí)上所有事件的處理方式都在遵循相關(guān)性原則,無
論你把事情考慮得多么周全,仍然可能出現(xiàn)問題;在應(yīng)急的當(dāng)下,你也一定
是運(yùn)用了相關(guān)性來處理絕大部分問題。而且根據(jù)人們使用的情況來說,在生
活的方方面面,它都饒有成效。有時(shí)候,相關(guān)性可能就是人們所說的“下意
識(shí)”,看到或者聽到某些事物,條件反射地設(shè)想出下一秒產(chǎn)生的結(jié)果,下意
識(shí)地為這個(gè)結(jié)果做出反應(yīng)。
哲學(xué)上講,聯(lián)系是指一切事物、現(xiàn)象、過程及其內(nèi)部諸要素之間的相互
影響、相互作用和相互制約,也就是說,萬物之間都是存在相關(guān)性的。也許
你沒有意識(shí)到相關(guān)性的存在,但就像你看到打雷就知道要下雨一樣,人們無
時(shí)無刻不在使用著相關(guān)性思維。相關(guān)性這種通過分析不同事件之間的聯(lián)系,由起點(diǎn)直接到終點(diǎn)的思維方式,是AI思維能夠快速準(zhǔn)確地進(jìn)行預(yù)測(cè)的內(nèi)在邏
輯。物有本末,事有始終,掌握了相關(guān)性,你就能事半功倍地得到想要的結(jié)
果。數(shù)據(jù)的規(guī)律性
我們已經(jīng)知道,人工智能的發(fā)展和應(yīng)用離不開大數(shù)據(jù)的支撐。但是大數(shù)
據(jù)意味著數(shù)據(jù)的數(shù)量越來越龐大,質(zhì)量越來越難保證,真實(shí)性越來越難判
斷。對(duì)于人腦來說,隨著數(shù)據(jù)的不斷增加和積累,要在鋪天蓋地且良莠不齊
的數(shù)據(jù)中找到我們所需要的那一份信息,無異于大海撈針;但對(duì)于人工智能
來說,這并不是什么難事。我們不禁好奇,人工智能到底是如何辦到的呢?
從表面上來看,我們所接觸的信息是雜亂的、無序的,但是事物之間的
聯(lián)系是普遍的。例如世上萬物形態(tài)各異,但是組成這些物體的元素都是相同
的,也就是化學(xué)元素周期表中的一百多種元素;世界上沒有完全一樣的兩個(gè)
人,但是我們的染色體數(shù)量同樣都是23對(duì)。人工智能要處理的數(shù)據(jù)同樣也是
這樣,我們通過深入分析和研究,就會(huì)發(fā)現(xiàn)數(shù)據(jù)和數(shù)據(jù)之間是存在共通規(guī)律
的。
對(duì)于數(shù)據(jù)來說,這種本質(zhì)的規(guī)律性可以反映在數(shù)據(jù)內(nèi)在的幾何結(jié)構(gòu)上。
這個(gè)幾何結(jié)構(gòu)并不是我們?nèi)粘I钪兴R姷,而是存在于一個(gè)更加復(fù)雜的
空間,復(fù)雜到可能有些超出我們的直觀想象。例如我們都知道一張照片是由
許多像素點(diǎn)組成的,當(dāng)我們隨手拍了一張1 920×2 560像素的自拍時(shí),這些
像素間便互相組合形成不同的維度。也就是說,這張照片所對(duì)應(yīng)的數(shù)據(jù)就是
由4 915 200個(gè)維度組成的,即使我們的肉眼只能看到一張平面的照片。人工
智能處理和理解的數(shù)據(jù),其實(shí)都是高維的;我們將這些數(shù)據(jù)所在的空間稱為
高維空間。要想掌握數(shù)據(jù)的內(nèi)在規(guī)律性,就要先對(duì)高維空間進(jìn)行了解。
高維空間的幾何學(xué)
我們一般會(huì)認(rèn)為我們生活在三維的立體世界中,但很多物理科學(xué)家認(rèn)
為,空間不只有三個(gè)維度,并對(duì)空間維度的相關(guān)問題爭(zhēng)論不休。
愛因斯坦在他的《相對(duì)論》中提出,整個(gè)世界是由時(shí)間和空間組成的,時(shí)間就是第四維。時(shí)間作為一個(gè)坐標(biāo),確立了三維空間在一維的時(shí)間軸上的排列。世界著名理論物理學(xué)家麗莎·藍(lán)道爾教授在一次核裂變實(shí)驗(yàn)中發(fā)現(xiàn)少
量粒子突然憑空消失了。她推斷這些粒子可能去了我們看不到的“五維空
間”。英國(guó)著名物理學(xué)家霍金在物理學(xué)和宇宙學(xué)領(lǐng)域同樣具有高度權(quán)威;
金在給出宇宙模型時(shí)提出,只用四個(gè)維度來描述宇宙是不夠的,粒子、星球
運(yùn)動(dòng)、宇宙引力等現(xiàn)象都不能用四維來很好地解釋。他提出,至少要用十一
個(gè)未知數(shù)才能將宇宙描述清楚,也就是說,宇宙至少是由十一個(gè)維度組成
的。雖然我們感受不到如此多的維度,但這并不代表它們不存在。就像我們
聽不到超聲波,看不見紫外線一樣,我們感受不到的那些維度只是蜷縮隱藏
起來了而已。
平時(shí)我們最多只能感受到時(shí)間和空間,如此玄幻的多維度可能會(huì)讓你疑
惑。簡(jiǎn)單來說,任何一級(jí)低維空間都是高一級(jí)空間的橫截面,例如,一維的
線是二維的平面的橫截面。也就是說,任何一維空間除被本維空間的特有維
度確立外,還以橫截面的形式在高一維空間中有所體現(xiàn),如圖2-6所示,如以
寬為軸移動(dòng)一維的線,就形成了二維的平面。理論上,生活在三維世界的我
們完全有可能以時(shí)間為軸進(jìn)入四維世界,也就是我們通常說的打開了“時(shí)空
隧道”。
圖2-6 一維至四維空間示意圖
物理領(lǐng)域高維空間的提出幫我們打開了探索這個(gè)高深莫測(cè)的世界的大
門;相應(yīng)地,人工智能領(lǐng)域中也存在高維空間。人工智能處理的數(shù)據(jù)涉及各
個(gè)領(lǐng)域,這些數(shù)據(jù)都可以被看成空間里的一個(gè)個(gè)點(diǎn)。不同的數(shù)據(jù)點(diǎn)所在的高
維空間,也就是數(shù)學(xué)中的歐氏空間。
對(duì)一個(gè)給定的歐氏空間來說,它的維度是確定的:N維歐氏空間有N個(gè)獨(dú)
立的維度。歐氏空間給我們提供了高維空間的坐標(biāo)系和距離的概念,任何數(shù)據(jù)在歐氏空間都是以向量的形式存在的。人工智能分析的每一條數(shù)據(jù),都可
以在歐氏空間中轉(zhuǎn)換到給定維度的坐標(biāo)系里,對(duì)應(yīng)到歐氏空間中的某一個(gè)
點(diǎn);谶@樣的結(jié)構(gòu),我們就可以精準(zhǔn)地刻畫我們想要描述和理解的個(gè)體。
人工智能就是這樣準(zhǔn)確快速地在海量的數(shù)據(jù)中表示出我們感興趣的那一份信
息的。
雖然歐氏空間通常是高維空間,但當(dāng)我們分析數(shù)據(jù)內(nèi)部結(jié)構(gòu)的特點(diǎn)時(shí),就會(huì)發(fā)現(xiàn),數(shù)據(jù)的內(nèi)部存在一定的規(guī)律性,并且這些規(guī)律性可以被用來解釋
為什么“美女”都長(zhǎng)得很像,以及動(dòng)畫片是怎么生成的。接下來,讓我們一
起來了解數(shù)據(jù)內(nèi)部到底有什么樣的規(guī)律。
線性規(guī)律:佳麗的特征臉
圖2-7是多位參加“韓國(guó)小姐”選美比賽的佳麗的照片。這些佳麗面容都
十分秀麗,我們細(xì)看會(huì)發(fā)現(xiàn)每一位佳麗長(zhǎng)得都不一樣,但總體來看又十分相
像。由于這場(chǎng)比賽發(fā)生于整容業(yè)十分發(fā)達(dá)的韓國(guó),很多人表示這些佳麗仿佛
是多胞胎一樣,也有不少人在質(zhì)疑她們是出自同一條整容流水線的同時(shí),又
紛紛感嘆被稱為亞洲四大“邪術(shù)”之一的韓國(guó)整容技術(shù)的高度一致性。
為了更好地理解這些佳麗臉部存在的規(guī)律,我們對(duì)這些佳麗的臉部圖像
做了處理,形成了她們的特征臉。特征臉是反映這些佳麗臉部主要變化特征
的一組“模板”。為了更加直觀地反映出這些佳麗長(zhǎng)相的相似性,我們又從
這些佳麗的特征臉中挑選了其中十張,如圖2-8所示,這十張?zhí)卣髂槹诉@
些佳麗臉部圖像的主要變化。圖2-7 佳麗照片樣例
圖2-8 佳麗照片產(chǎn)生的特征臉
顯然,每位佳麗的臉都有和特征臉不同的地方。接下來,我們要對(duì)每個(gè)
人的臉部做重建。重建就是把一個(gè)佳麗的臉投影到特征臉,然后再線性組合
起來,這樣就得到了重建之后的佳麗的臉。如圖2-9所示,上面一行是原始圖
像,下面一行是原始圖像投影到上述特征臉后的重建圖像,通過對(duì)比我們可
以發(fā)現(xiàn),對(duì)應(yīng)的上下兩圖之間的誤差其實(shí)很小。圖2-9 佳麗照片的原始圖像和重建圖像
然后我們將每張佳麗的臉部圖像投影到特征臉上,分析出這些臉部圖像
在特征空間中是怎樣分布的。圖2-10表示的是對(duì)于這些佳麗的臉部圖像,不
同特征臉?biāo)鶎?duì)應(yīng)的權(quán)重,從中我們可以看到,大部分特征差異都集中在前幾
個(gè)特征臉上。也就是說,前幾個(gè)特征臉捕捉了佳麗臉部特征絕大部分的變
化。
通過上述分析,我們可以看出,這些佳麗在外貌上是有規(guī)律可循的。這
個(gè)規(guī)律就是,不論她們?cè)谕饷采细饔惺裁礃拥奶卣,但是如果把她們的外?br/>
投影到一個(gè)平面,也就是我們所說的線性空間中,她們的外貌基本上在特征
臉構(gòu)成的線性空間上都能找到很好的表示。
這種基于數(shù)據(jù)的線性規(guī)律的“特征臉”,在我們的日常生活中有著廣泛
的應(yīng)用。比如在一些重大考試中,傳統(tǒng)的人工核驗(yàn)身份證和準(zhǔn)考證費(fèi)時(shí)費(fèi)
力,而且很容易出錯(cuò)。針對(duì)這個(gè)問題,有人發(fā)明了一套基于人臉數(shù)據(jù)的線性
規(guī)律的考場(chǎng)人臉識(shí)別系統(tǒng)。這套系統(tǒng)是要核驗(yàn)考生和二代身份證上的人是否
一致,所以要提前提取考生的面部圖像信息,對(duì)二代身份證上的照片進(jìn)行預(yù)
處理。在保證照片大小、考生面部位置一致的基礎(chǔ)上,拿這些圖像生成這些
考生的特征臉,并將其定義為一個(gè)面部空間。在此之后,將考生的面部圖像
全部投影到面部空間上,計(jì)算出每一個(gè)人臉圖像在該空間上的相關(guān)分布位
置。經(jīng)過這樣的處理,我們就可以用這套系統(tǒng)進(jìn)行人臉識(shí)別了:只需要將待
識(shí)別的人臉圖像投影到這組特征臉上進(jìn)行對(duì)比,就可以知道該人臉是否是人
臉庫(kù)中的人臉。圖2-10 特征臉權(quán)重折線圖
數(shù)據(jù)的線性規(guī)律源于數(shù)學(xué)上在線性空間的投影,它去除了數(shù)據(jù)中不重
要、不顯著或者沒有用的信息,只保留最本質(zhì)、所有數(shù)據(jù)共同擁有的特征,所以投影后形成的數(shù)據(jù)比原始數(shù)據(jù)更簡(jiǎn)潔,更具有普遍性。不論是選美小姐
的特征臉,還是考生的特征臉,都是依賴于這類圖像數(shù)據(jù)的內(nèi)在線性規(guī)律
性,將信息盡可能地簡(jiǎn)化,降低了數(shù)據(jù)處理的復(fù)雜性,更好地把握數(shù)據(jù)的本
質(zhì)特點(diǎn)。
非線性規(guī)律:流形學(xué)習(xí)
前面講了數(shù)據(jù)的線性規(guī)律,我們?cè)賮碇v一下數(shù)據(jù)的非線性規(guī)律。什么叫
作數(shù)據(jù)的非線性規(guī)律?我們這里用一個(gè)直觀的例子來說明一下。如圖2-11所
示,這幅圖叫作“瑞士卷”。我們所生活的三維空間是一個(gè)平坦的歐氏空
間;瑞士卷與我們所生活的三維空間不同,它是一個(gè)曲面。與我們?nèi)粘K姷钠矫嫦啾,曲面有很多不同的特點(diǎn)。譬如,我們?cè)趫D
2-11所展示的瑞士卷上取兩個(gè)點(diǎn):A和B,如果要從A點(diǎn)到B點(diǎn),直觀上,我們
所要經(jīng)過的路線應(yīng)該是兩點(diǎn)之間那條彎曲的線,而不是像在三維空間中簡(jiǎn)單
地通過A點(diǎn)到B點(diǎn)之間的直線過去。數(shù)學(xué)上,流形是局部具有歐氏空間性質(zhì)的
空間,它能夠幫助我們更好地理解數(shù)據(jù)中“曲面”的概念。人工智能對(duì)非線
性結(jié)構(gòu)的研究認(rèn)為,數(shù)據(jù)的非線性規(guī)律實(shí)際上是由一個(gè)低維流形映射到高維
空間所產(chǎn)生的。一些高維中的數(shù)據(jù)會(huì)產(chǎn)生維度上的冗余,實(shí)際上這些數(shù)據(jù)用
一個(gè)比較低的維度就能表示了。例如這個(gè)三維的瑞士卷,其本質(zhì)是三維空間
中的二維流形。
圖2-11 瑞士卷示意圖
通過上述對(duì)瑞士卷的描述,我們就很容易理解,非線性規(guī)律并不是存在
于平面之中,而是在曲面上。發(fā)現(xiàn)數(shù)據(jù)的非線性規(guī)律的方法叫作“流形學(xué)
習(xí)”。流形學(xué)習(xí)是在著名的科學(xué)雜志《科學(xué)》(Science)中被提出來的,引
起了人工智能界的極大關(guān)注。它假設(shè)數(shù)據(jù)均勻采樣于一個(gè)高維歐氏空間中的低維流形,即從高維數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu),并求出相應(yīng)的映射關(guān)系,以
實(shí)現(xiàn)數(shù)據(jù)的智能分析或者數(shù)據(jù)可視化。
流形學(xué)習(xí)可以用于研究人臉數(shù)據(jù)。例如,我們從已有的人臉數(shù)據(jù)庫(kù)中選
擇一些人臉圖像。經(jīng)過流形學(xué)習(xí)分析,就會(huì)發(fā)現(xiàn)這些人臉圖像由于拍攝角
度、光線或者是表情姿勢(shì)的不同,呈現(xiàn)出不同的特征。如圖2-12左邊的圖所
示,每幅圖像對(duì)應(yīng)空間中的一個(gè)點(diǎn)。為了讓可視化結(jié)果更加明確,圖2-12右
邊的圖中簡(jiǎn)化保留了十幅最有代表性的圖像。
圖2-12 人臉高維空間示意圖
對(duì)上圖仔細(xì)分析我們可以發(fā)現(xiàn),這些代表性的面部圖像顯示在空間的不
同部分。人臉圖像被分割成兩部分。左側(cè)部分包括閉著嘴的面部圖像,右側(cè)
部分包括張口的面部圖像。這是因?yàn)樵谖覀兊拿娌繄D像被投射到更低維的空
間時(shí),圖像中的相鄰點(diǎn)在低維空間中更近,圖像中的遠(yuǎn)點(diǎn)在低維空間中更
遠(yuǎn),所以形成了我們現(xiàn)在看到的排列順序。經(jīng)過觀察我們可以發(fā)現(xiàn),這些圖
像是按照人臉的表情和姿勢(shì)來分布的,這就是隱藏于其中的分布規(guī)律。通過
這個(gè)實(shí)驗(yàn),我們發(fā)現(xiàn)了這些人臉圖像所構(gòu)成的流形,那些在線性空間表示不
了的姿勢(shì)和表情,在人臉的非線性結(jié)構(gòu)之中都可以表示出來。
近年來,準(zhǔn)確地刻畫人體動(dòng)作成為多個(gè)領(lǐng)域的研究熱點(diǎn)。而隨著人工智
能的興起和發(fā)展,越來越多的人開始從全新的角度理解人體動(dòng)作,例如根據(jù)
人體動(dòng)作數(shù)據(jù)的非線性規(guī)律來建立人體動(dòng)作模型。利用數(shù)據(jù)的非線性結(jié)構(gòu)來
建立動(dòng)作模型有廣泛的實(shí)用性,例如用于動(dòng)作識(shí)別或者動(dòng)畫生成。下面我們
就從這兩個(gè)方面來了解非線性規(guī)律下的人體動(dòng)作模型。人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要問題。比如說,在體育或者
醫(yī)療場(chǎng)景下經(jīng)常需要準(zhǔn)確地識(shí)別出人體的動(dòng)作。以前如果想要對(duì)人體動(dòng)作進(jìn)
行精準(zhǔn)的識(shí)別,需要用多個(gè)攝像機(jī)或從多個(gè)視角拍攝記錄人體動(dòng)作。雖然這
樣生成的模型可以識(shí)別出人體的動(dòng)作,但這一般是在實(shí)驗(yàn)室環(huán)境中進(jìn)行的,過程繁復(fù),效率低下。隨著流形學(xué)習(xí)的發(fā)展,人們開始嘗試通過人體動(dòng)作的
非線性規(guī)律來構(gòu)建動(dòng)作模型。通過這種方式來建立動(dòng)作模型,僅用一個(gè)攝像
機(jī)拍攝即可,然后通過流形學(xué)習(xí)方法對(duì)拍攝的視頻進(jìn)行分析,利用動(dòng)作數(shù)據(jù)
的非線性流形結(jié)構(gòu)來形成動(dòng)作模型。這樣生成的動(dòng)作模型,對(duì)于站立、轉(zhuǎn)身
和行走等十三種動(dòng)作類型的識(shí)別錯(cuò)誤率僅在1%左右,可以在自然環(huán)境下應(yīng)
用,比如可以用于識(shí)別比賽中運(yùn)動(dòng)員或者醫(yī)院中病人的動(dòng)作。
下面再來了解用于動(dòng)畫生成的人體動(dòng)作模型,它可以幫助動(dòng)畫師生成自
然流暢的動(dòng)畫人物的運(yùn)動(dòng)過程,讓角色動(dòng)畫的創(chuàng)作過程變得更加便捷。傳統(tǒng)
動(dòng)畫制作分為兩種,一種是逐幀動(dòng)畫,需要?jiǎng)赢嫀熞粠粠剡M(jìn)行繪畫制
作,雖然效果真實(shí)細(xì)膩,但是制作時(shí)間極長(zhǎng),制作負(fù)擔(dān)很大,最終輸出的文
件量也很大;另一種是補(bǔ)間動(dòng)畫,需要通過計(jì)算機(jī)自動(dòng)補(bǔ)幀來生成動(dòng)畫,雖
然減輕了工作負(fù)擔(dān),但是生成的人物動(dòng)作會(huì)出現(xiàn)不自然不連貫的現(xiàn)象。近年
來基于流形的動(dòng)作模型越發(fā)成熟,可以將動(dòng)畫制作置于流形空間中,而不是
用傳統(tǒng)動(dòng)畫制作的方式進(jìn)行。根據(jù)這個(gè)思路,需要自動(dòng)學(xué)習(xí)在非線性流形中
的大量人物動(dòng)作數(shù)據(jù),這樣形成的動(dòng)作模型就可以用來自動(dòng)合成動(dòng)畫。如圖
2-13所示,動(dòng)畫師如果想要生成人物在某條彎曲的道路上奔跑或行走的動(dòng)
畫,可以直接通過調(diào)取關(guān)于奔跑或行走的流形數(shù)據(jù),輕松生成真實(shí)自然的人
物動(dòng)畫序列。
圖2-13 人物動(dòng)畫序列示意圖
對(duì)于佳麗來說,特征臉揭示了她們臉部圖片數(shù)據(jù)的線性規(guī)律;對(duì)于人體
動(dòng)作而言,非線性結(jié)構(gòu)提供了更好地運(yùn)用相應(yīng)數(shù)據(jù)的框架。但需要特別注意
的一點(diǎn)是,不論是具有線性規(guī)律的數(shù)據(jù)還是具有非線性規(guī)律的數(shù)據(jù),都是具
有許多維度的高維數(shù)據(jù),要想找到這些數(shù)據(jù)的規(guī)律,都需要將其投射到更低
的維度。這個(gè)更低維度預(yù)先是不確定的,我們通過人工智能模型的分析和處
理,最終在恰當(dāng)?shù)牡途S度空間里更好地表示了數(shù)據(jù)內(nèi)在的結(jié)構(gòu)。天不言而四時(shí)行,地不語(yǔ)而百物生,天地萬物都有其運(yùn)行的規(guī)律。本節(jié)
討論的數(shù)據(jù)內(nèi)在的規(guī)律性是AI思維的底層邏輯之一,也是基于幾何結(jié)構(gòu)的人
工智能模型形成的基礎(chǔ)。理解這些規(guī)律,可以幫助我們更好地理解數(shù)據(jù)本
身,幫助我們?cè)谑褂萌斯ぶ悄軙r(shí)“知其然”更“知其所以然”,構(gòu)筑一個(gè)更
加完整的AI思維體系。第三章
AI煉金術(shù):數(shù)據(jù)產(chǎn)生價(jià)值
這正是歷史知識(shí)的矛盾。知識(shí)如果不能改變行為,就沒有用處。但知識(shí)
一旦改變了行為,本身就立刻失去意義。我們擁有越多數(shù)據(jù),對(duì)歷史了解越
深入,歷史的軌跡就改變得越快,我們的知識(shí)也過時(shí)得越快。
—《未來簡(jiǎn)史》—
方法論是以解決問題為目標(biāo)的體系或系統(tǒng)。在方法論的指導(dǎo)下我們會(huì)有
一個(gè)縱觀全局的廣闊視野,有一套統(tǒng)籌全局的落地方法。缺乏方法論的指
導(dǎo),不論多么充滿智慧的思維都難逃紙上空談的結(jié)局。AI思維就是從理論到
實(shí)踐的一套完整的思維,它既有理論層面關(guān)于人工智能的認(rèn)識(shí),也有實(shí)踐層
面指導(dǎo)人工智能落地的方法論。本章旨在講清楚AI思維中的“術(shù)”,也就是
從方法論的角度闡述AI思維是如何從數(shù)據(jù)中得出決策,創(chuàng)造出源源不斷的價(jià)
值的。數(shù)據(jù)量越發(fā)龐大,以術(shù)理事,AI煉金術(shù)可理清紛繁復(fù)雜的數(shù)據(jù);新問
題層出不窮,以術(shù)馭事,AI煉金術(shù)可將數(shù)據(jù)為我所用,優(yōu)化業(yè)務(wù)結(jié)果;面臨
抉擇猶豫不決,以術(shù)成事,AI煉金術(shù)可通過深度學(xué)習(xí)等人工智能模型驅(qū)動(dòng)決
策。接下來就讓我們了解一下,AI煉金術(shù)到底是如何從數(shù)據(jù)中創(chuàng)造出價(jià)值
的。從數(shù)據(jù)到價(jià)值的歷程
在人工智能的整個(gè)生態(tài)系統(tǒng)中,數(shù)據(jù)既是根本,也是重點(diǎn)。在人類社會(huì)
中,數(shù)據(jù)無處不在,而且生生不息,越來越多。我們每天的所看所感都可以
轉(zhuǎn)化為數(shù)據(jù),這些數(shù)據(jù)就是各種行為和現(xiàn)象的記錄。特別是在互聯(lián)網(wǎng)如此發(fā)
達(dá)的當(dāng)下,我們能夠接觸和獲取到的數(shù)據(jù)更為多維、多樣而且龐雜。當(dāng)然,這對(duì)于人工智能的運(yùn)用來說,完全是一件好事,因?yàn)槿斯ぶ悄艿倪\(yùn)行離不開
數(shù)據(jù)的支持。對(duì)于人工智能來說,數(shù)據(jù)更多,就相當(dāng)于煉油廠運(yùn)來了更多的
原油,人工智能就能夠更好地運(yùn)作,為人類的生產(chǎn)、生活增添價(jià)值。人工智
能通過數(shù)據(jù)驅(qū)動(dòng)決策而產(chǎn)生的變現(xiàn)是我們能夠真實(shí)看到的,比如優(yōu)化提升的
用戶體驗(yàn),實(shí)打?qū)嵉臉I(yè)績(jī)、利潤(rùn),或者是口袋里不斷飆升的年終獎(jiǎng)。
關(guān)于數(shù)據(jù)的重要性,我們先從奈飛(Netflix)的案例說起。奈飛最出名
的身份是世界最大的在線影片租賃服務(wù)商,但它同時(shí)也是美國(guó)的流媒體巨
頭,業(yè)務(wù)廣泛,也涉足影視劇拍攝。奈飛想在好劇頻出的美劇圈拍攝出一部
像《權(quán)力的游戲》《生活大爆炸》《破產(chǎn)姐妹》這樣的高人氣劇集,于是它
開始探索——究竟該怎么做呢?據(jù)統(tǒng)計(jì),奈飛在全世界的訂閱用戶總量達(dá)3
300萬;每天,用戶都會(huì)在奈飛的網(wǎng)站上產(chǎn)生3 000多萬個(gè)行為,訂閱用戶會(huì)
在網(wǎng)站上給出400多萬個(gè)評(píng)分和300多萬次搜索請(qǐng)求,詢問劇集播放時(shí)間等。
奈飛借助這些大數(shù)據(jù)進(jìn)一步分析——通過分析幾千萬用戶的觀影歷史、觀影
題材內(nèi)容、故事情節(jié)、演員選擇以及對(duì)不同影視劇的評(píng)分等數(shù)據(jù),決定拍攝
一部有關(guān)一位參議員的連續(xù)劇,這部劇就是政治題材的人氣美劇《紙牌
屋》。該劇一經(jīng)播出就獲得了巨大成功,在美國(guó)及40多個(gè)國(guó)家和地區(qū)成為最
熱門的在線劇集之一。因?yàn)檫@次新鮮的嘗試,奈飛前所未有地獲得了112項(xiàng)艾
美獎(jiǎng)提名,也讓美劇巨頭HBO(Home Box Offi ce)電視網(wǎng)18年來第一次失去
了劇集霸主的地位。
《紙牌屋》的驚人成就離不開奈飛數(shù)以億萬計(jì)的數(shù)據(jù)的支持。由此可
見,數(shù)據(jù)是新時(shí)代商業(yè)取勝的重要因素。就像上面說的,奈飛通過對(duì)大量受
眾數(shù)據(jù)的分析,采取合理決策方案,最終獲取了極大的效益和聲譽(yù)。所以數(shù)據(jù)是AI思維的基礎(chǔ),要從數(shù)據(jù)產(chǎn)生價(jià)值,就要利用人工智能通過對(duì)數(shù)據(jù)的深
度分析,引導(dǎo)決策者做出最優(yōu)決策,從而落地價(jià)值。
如何把數(shù)據(jù)變?yōu)閮r(jià)值,主要涉及兩個(gè)問題。第一個(gè)問題,什么樣的數(shù)據(jù)
在場(chǎng)景中有價(jià)值?無論是在電商行業(yè)、廣告行業(yè)、教育行業(yè),還是生產(chǎn)制造
行業(yè),企業(yè)的負(fù)責(zé)人都會(huì)不約而同地考慮他們要在網(wǎng)站或者設(shè)備、機(jī)器上收
集什么樣的數(shù)據(jù)。其實(shí),只要是有效數(shù)據(jù),都能為之所用,只不過要如何用
或者用來做什么各不相同罷了。第二個(gè)問題是,如何通過人工智能讓這些數(shù)
據(jù)產(chǎn)生價(jià)值?這個(gè)問題已經(jīng)得到了初步的解答:人工智能從誕生到現(xiàn)在已經(jīng)
經(jīng)歷了幾十個(gè)年頭,所以行業(yè)內(nèi)已經(jīng)有比較通用的模式應(yīng)用人工智能,從而
可以從數(shù)據(jù)中提取價(jià)值。
人工智能的應(yīng)用并非只對(duì)行業(yè)的格局產(chǎn)生影響,實(shí)際上,它與我們的日
常生活也息息相關(guān),F(xiàn)代人每天奔波于公司與家的兩點(diǎn)一線中,一旦有了節(jié)
假日這樣屬于自己的時(shí)間,大部分人都會(huì)選擇出門逛街看風(fēng)景、到商場(chǎng)購(gòu)
物,或是看一場(chǎng)熱映的電影,拋掉平日工作的緊張,讓身心徹底放松。所
以,我們都希望自己能夠得到全方位的引導(dǎo)和服務(wù),而不想再在這方面花費(fèi)
大量時(shí)間和精力了。但是,一般情況下,商家并不能很清楚地知道哪些顧客
需要什么樣的商品,所以盡管每天都有很多顧客路過店家門口,卻并不能實(shí)
現(xiàn)有效轉(zhuǎn)化。另一方面,消費(fèi)者難得有了一個(gè)放松休閑的機(jī)會(huì),卻因?yàn)闆]能
夠快速、準(zhǔn)確地找到相關(guān)商品或者服務(wù)而影響了大好心情。為解決這些問
題,人工智能就派上了用場(chǎng):商家可以通過人工智能對(duì)顧客數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)顧客需求,根據(jù)需求定期向顧客推送商品或者服務(wù)的信息;用戶接收到
信息,也不必為自己在休息時(shí)去哪里、做什么這樣的問題而絞盡腦汁,只需
要放假時(shí)直接去商家店里選擇自己心儀的商品和服務(wù)就可以了。最終的結(jié)果
很大概率是產(chǎn)生了交易。換言之,人工智能為商業(yè)活動(dòng)帶來了實(shí)際價(jià)值。
從AI思維角度來說,人工智能可以從數(shù)據(jù)中提取價(jià)值,可只有數(shù)據(jù)是不
夠的,數(shù)據(jù)量還必須充足。如果沒有對(duì)足夠的數(shù)據(jù)進(jìn)行分析,或者對(duì)數(shù)據(jù)的
利用不夠恰當(dāng),都可能導(dǎo)致決策失誤。決策一旦失誤,自然會(huì)影響到整個(gè)行
為最終訴諸的回報(bào),也就是我們所說的價(jià)值。
數(shù)據(jù)產(chǎn)生決策:為了懂你,我學(xué)了很多知識(shí)有了充足的數(shù)據(jù),就等于是為人工智能這個(gè)系統(tǒng)備足了原料,接下來我
們就來看一下,AI煉金術(shù)是如何從數(shù)據(jù)中挖掘出價(jià)值的。如圖3-1所示,這整
個(gè)過程包含了四個(gè)步驟。我們將通過全球知名的高端化妝品品牌蘭蔻使用人
工智能機(jī)器人促進(jìn)銷量的案例來進(jìn)行仔細(xì)分析。
圖3-1 從數(shù)據(jù)產(chǎn)生價(jià)值的過程示意圖
第一步,從數(shù)據(jù)產(chǎn)生決策。消費(fèi)者千千萬,每個(gè)人都有各自的喜好和適
用款,所以他們的行為是多樣的;而從人的單方面觀感上又很難判斷哪類
人、多少人喜歡怎樣的商品、怎樣的服務(wù),適合怎樣的款式。為此,蘭蔻引
入人工智能機(jī)器人,并使其化身為蘭蔻專柜導(dǎo)購(gòu)中的一員。要使人工智能機(jī)
器人勝任這個(gè)崗位需要做很多前期準(zhǔn)備,其中最重要的兩點(diǎn)是——第一,熟
記并靈活運(yùn)用所有產(chǎn)品信息、賣點(diǎn)和美妝知識(shí);第二,快速明確顧客需求,推薦給顧客真正需要的東西。從具體場(chǎng)景來說,蘭蔻專柜的大部分顧客是女性,但不同女性對(duì)化妝
品、護(hù)膚品的需求千差萬別。有的人注重爆款,有的人注重功效,有的人注
重成分,甚至有人買化妝品只是為了試色。對(duì)于過往的真人導(dǎo)購(gòu)來說,首
先,他們必須了解每一種產(chǎn)品的功效、成分、適用人群等,才能很好地應(yīng)對(duì)
顧客的層層“拷問”。其次,導(dǎo)購(gòu)還需要熟悉不同膚質(zhì)、不同膚色、不同臉
型的顧客適合的美妝產(chǎn)品,才能留住顧客的心。人工智能機(jī)器人導(dǎo)購(gòu)員如何
掌握這樣的“讀心術(shù)”呢?一方面,人工智能機(jī)器人通過與顧客進(jìn)行對(duì)話交
流,理解和預(yù)測(cè)出顧客的需求;另一方面,人工智能機(jī)器人還需要從多種來
源的數(shù)據(jù)中挖掘獲取美妝行業(yè)的知識(shí),并通過分析整合,為用戶進(jìn)行精準(zhǔn)的
推薦與引導(dǎo),讓顧客享受到愉悅的購(gòu)物體驗(yàn)。
決策到行動(dòng):為了提高顧客滿意度,我使盡渾身解數(shù)
第二步,從決策到具體行動(dòng)。從數(shù)據(jù)到?jīng)Q策的過程讓我們知道了不同用
戶的需求,為具體行動(dòng)提供了方向。具體行動(dòng)是要深入到個(gè)體,根據(jù)目標(biāo)用
戶的具體喜好來分析的。為了讓用戶的體驗(yàn)最優(yōu)化,人工智能機(jī)器人做足了
功課,不遺余力地提高顧客的滿意度。在給顧客進(jìn)行推介交流時(shí),人工智能
機(jī)器人可以像真人導(dǎo)購(gòu)一樣為大家進(jìn)行對(duì)話式個(gè)性化推薦。
在對(duì)話的場(chǎng)景下,人工智能機(jī)器人可以通過三種方式向顧客進(jìn)行推介。
首先是要理解顧客的語(yǔ)言來分析對(duì)方需求,例如,對(duì)方說:“我這幾天臉上
皺紋有點(diǎn)多,皮膚也很干,有什么產(chǎn)品推薦嗎?”人工智能機(jī)器人能夠根據(jù)
對(duì)這些語(yǔ)句的理解和分析,進(jìn)行智能推薦:“試試具有滋潤(rùn)功效的小黑
瓶!”其次,人工智能機(jī)器人可以通過人臉屬性識(shí)別來了解用戶需求。例
如,有顧客問:“我這個(gè)年紀(jì)適合用什么呀?”人工智能機(jī)器人能夠通過對(duì)
該顧客面部的掃描識(shí)別,發(fā)現(xiàn)對(duì)方有皺紋、年齡偏大,并非常情感化地回
復(fù):“皺紋不可怕,推薦塑顏緊致系列哦!”最后,基于前期大量的知識(shí)學(xué)
習(xí)和數(shù)據(jù)輸入,人工智能機(jī)器人能夠進(jìn)行多元數(shù)據(jù)挖掘與推薦。比如,當(dāng)有
顧客表露:“我要一只鬼怪色口紅送人!比斯ぶ悄軝C(jī)器人能夠?qū)⑦@些信息
與內(nèi)置的數(shù)據(jù)庫(kù)匹配,給出精準(zhǔn)引導(dǎo):“鬼怪色的色號(hào)是290,超美,在口紅
區(qū)!”或者當(dāng)顧客問道:“最近換季,有什么推薦呢?”人工智能機(jī)器人也
能根據(jù)所學(xué)知識(shí)為顧客解憂:“試試水光潤(rùn)系列,深入補(bǔ)水還能抗氧化,非
;,廣受好評(píng)哦!”有些顧客拿不準(zhǔn)自己的偏好,可能會(huì)問:“我想買個(gè)眼霜,最近流行的哪種比較好呀?”此時(shí),人工智能機(jī)器人會(huì)根據(jù)以往的消
費(fèi)者數(shù)據(jù),提供合理的推薦:“今天已經(jīng)有19個(gè)顧客小姐姐詢問過小黑瓶大
眼精華眼霜呢,要不要試試?”
無論是哪一類顧客、哪一種需求,人工智能機(jī)器人都能根據(jù)大量的數(shù)據(jù)
基礎(chǔ),依靠人工智能進(jìn)行分析,為顧客提供高質(zhì)量的推薦。這樣,在精準(zhǔn)給
到高質(zhì)量信息的情況下,人工智能機(jī)器人提高了顧客的滿意度。
個(gè)體產(chǎn)生結(jié)果:真是太能干了!
第三步,個(gè)體產(chǎn)生結(jié)果。在得到了這一系列的推薦后,顧客開始做出相
應(yīng)的行動(dòng)。在此之前,蘭蔻專柜的負(fù)責(zé)人曾表示:“有時(shí)候顧客太多,難免
有照顧不周的地方,如何提升服務(wù)質(zhì)量、給顧客最佳的體驗(yàn),是我們一直思
考的事情。”而當(dāng)人工智能機(jī)器人加入后,迎送賓客、為顧客解答疑問、推
薦化妝品、漫游行走尋找指定產(chǎn)品等工作都可以全權(quán)交給人工智能機(jī)器人去
做,并且這樣能給顧客帶來趣味性、多樣化的購(gòu)物體驗(yàn)。在場(chǎng)受到人工智能
機(jī)器人幫助的顧客都驚嘆:“真是太能干了!”
更準(zhǔn)確地來說,人工智能機(jī)器人在為導(dǎo)購(gòu)人員提供更好的幫助的同時(shí),也為顧客帶來了更智能的服務(wù),讓他們擁有“上帝之感”,開啟了顧客愉快
的購(gòu)物體驗(yàn)。在現(xiàn)場(chǎng),有位女士問:“能幫我找一下大粉水嗎?”“人工智
能機(jī)器人帶你去看看吧。”這位女士感嘆:“萬萬沒想到,接待自己的居然
是一個(gè)機(jī)器人!”
以往人們?nèi)セ瘖y品專賣店購(gòu)物,進(jìn)門不到三分鐘就會(huì)有好幾個(gè)美容導(dǎo)購(gòu)
員寸步不離地進(jìn)行推銷,即使有些人已經(jīng)有了選購(gòu)的目標(biāo),導(dǎo)購(gòu)員依然會(huì)跟
在身后不厭其煩地介紹。這些導(dǎo)購(gòu)員的過度熱情令人十分尷尬,也使得導(dǎo)購(gòu)
員這一角色備受爭(zhēng)議。但是如今,導(dǎo)購(gòu)機(jī)器人的出現(xiàn)解決了這類問題,同時(shí)
也滿足了顧客對(duì)咨詢、引導(dǎo)的需要。
實(shí)現(xiàn)價(jià)值:人工智能服務(wù)于人類的一次探索第四步,實(shí)現(xiàn)價(jià)值。說到價(jià)值,人工智能機(jī)器人的出現(xiàn),滿足了顧客的
購(gòu)物需求,給顧客帶來了美好的休閑體驗(yàn)。這對(duì)于商家來說又意味著什么
呢?或者說,商家從中獲得了什么呢?這次蘭蔻與人工智能機(jī)器人的跨界合
作,是美妝與人工智能的一次探索。目前,人工智能已經(jīng)落地多個(gè)行業(yè),有
效地輔助著人們的工作。有了“美妝知識(shí)+機(jī)器人”這樣的人工智能解決方
案,導(dǎo)購(gòu)能夠從基礎(chǔ)的重復(fù)性勞動(dòng)中解放出來,學(xué)習(xí)更多的專業(yè)知識(shí)和技
巧,提升個(gè)人服務(wù)能力。這也就意味著,商家能夠在減少許多人力成本的同
時(shí),更好地在導(dǎo)購(gòu)層面提升質(zhì)量。除此之外,人工智能機(jī)器人還可以基于人
臉屬性識(shí)別和顧客歷史消費(fèi)數(shù)據(jù)等,進(jìn)行精準(zhǔn)營(yíng)銷。比如,針對(duì)陌生的女性
顧客優(yōu)先推薦促銷信息,或者為有商品咨詢記錄的顧客提供定制化的商品介
紹、引導(dǎo)等購(gòu)物服務(wù)。這樣,給商家?guī)淼淖罱K的價(jià)值是,他們能夠獲取極
高的顧客購(gòu)買率。
人的認(rèn)知有時(shí)候是一個(gè)很主觀的過程,在化妝品領(lǐng)域更是如此?赡苓@
幾天周圍的人都在討論豆沙色的口紅或者玫瑰香的粉底液,你就直觀地認(rèn)為
他們一定喜歡這類化妝品,或者說全國(guó)、全世界范圍內(nèi)的顧客都會(huì)喜歡這個(gè)
款式。但有時(shí)候人們的討論焦點(diǎn)的觸發(fā)動(dòng)機(jī)并不是單一的,這些動(dòng)機(jī)在日常
的對(duì)話中并不能準(zhǔn)確體現(xiàn)出來,那么這樣的主觀揣測(cè)就未免過于武斷。有些
顧客之所以買豆沙色的口紅,是因?yàn)檫@款口紅剛好是她喜歡的演員或者偶像
代言的;有些顧客之所以買豆沙色的口紅,是因?yàn)閯偤糜刑滓路c之相配。
這種階段性的需求可能過段時(shí)間就不靈了。如果始終按照之前的需求為顧客
推薦,就可能會(huì)出現(xiàn)顧客需要粉底液而為她推薦防曬霜的“錯(cuò)配”現(xiàn)象。在
這一方面,人工智能可以精準(zhǔn)地抓取顧客在方方面面留下的跡象進(jìn)行組合判
斷,更全面、更精準(zhǔn)、更客觀地判斷出你究竟對(duì)哪種化妝品里的哪種因素
更“來電”。所以,我們要摒棄下意識(shí)的主觀感受,恰如其分地挖掘、利用
好數(shù)據(jù)。
這四步完成,實(shí)際上我們就走完了從數(shù)據(jù)到價(jià)值的一次旅程:人工智能
機(jī)器人通過對(duì)大量數(shù)據(jù)進(jìn)行學(xué)習(xí),了解顧客的需求,定向合理地推薦一些符
合受眾品位的化妝產(chǎn)品。對(duì)于顧客來說,他們能夠及時(shí)獲取最符合自己興趣
和心意的產(chǎn)品,滿足了自身愉悅購(gòu)物的需求;對(duì)于商家而言,顧客對(duì)感興趣
產(chǎn)品的咨詢和光顧次數(shù),就直接影響了顧客的購(gòu)買率。
這是一個(gè)從數(shù)據(jù)出發(fā),到價(jià)值為止的過程。但一次業(yè)績(jī)的提升并不是終
點(diǎn),人工智能還會(huì)把這一次的數(shù)據(jù)反饋到模型里,從而提升下一輪的決策質(zhì)量,也就是說,數(shù)據(jù)和人工智能會(huì)持續(xù)地為我們帶來價(jià)值。所以對(duì)于像蘭蔻
這樣的商家和企業(yè)來說,運(yùn)用人工智能其實(shí)就是了解顧客需求的過程,并能
夠有效地提升服務(wù)。
到這兒我們總結(jié)一下,AI思維的核心競(jìng)爭(zhēng)力是去平均化的能力。所謂的
平均化思維,指的是無差別化,每個(gè)人、每個(gè)產(chǎn)品都同質(zhì)化;而去平均化,則是肯定人與人、環(huán)境與環(huán)境的差異性,不同的人有不同的想法和喜好,根
據(jù)這些差異化需求產(chǎn)出差異化體驗(yàn)。我們可以通過數(shù)據(jù)和人工智能準(zhǔn)確理解
每個(gè)人的潛在動(dòng)機(jī),從而最優(yōu)化決策,達(dá)到各自理想的目標(biāo)。如能合理使
用,無疑將帶來更高的生產(chǎn)力和更合理的資源利用方式,產(chǎn)生新的價(jià)值。AI
煉金術(shù)便能從數(shù)據(jù)中產(chǎn)生價(jià)值,同時(shí)它也是AI思維的具象表現(xiàn)形式。
通過人工智能決策來實(shí)現(xiàn)價(jià)值的源頭是數(shù)據(jù),所以,數(shù)據(jù)的廣度和精確
度決定了人工智能能夠?yàn)槿祟愖龀龆啻蟮呢暙I(xiàn)。數(shù)據(jù)越多,越能更全面地反
映個(gè)體的實(shí)際行為與想法,人工智能的預(yù)測(cè)就會(huì)越精準(zhǔn)。如果賦予人類預(yù)測(cè)
的能力的話,我想大多數(shù)人都會(huì)選擇先預(yù)測(cè)一下自己的命運(yùn)。所謂“知生死
安天命”,隨著人類身體數(shù)據(jù)的累積,人工智能對(duì)病人的死亡時(shí)間預(yù)測(cè)的準(zhǔn)
確率也有望更加精準(zhǔn)。相關(guān)資料顯示,科學(xué)家通過人工智能解讀數(shù)據(jù),利用
200萬份電子病歷來進(jìn)行人工智能深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,全方位審查患者家族
史、用藥情況、各項(xiàng)體質(zhì)指數(shù)、食物攝入等因素,進(jìn)而能夠預(yù)測(cè)機(jī)體的未
來。目前,這一人工智能模型已經(jīng)能夠依據(jù)大量的數(shù)據(jù)提前12個(gè)月預(yù)測(cè)到患
者的死亡時(shí)間,準(zhǔn)確率達(dá)90%。研究團(tuán)隊(duì)還將這一預(yù)測(cè)結(jié)果與英國(guó)國(guó)家統(tǒng)計(jì)署
的死亡記錄、英國(guó)癌癥注冊(cè)記錄等數(shù)據(jù)庫(kù)的死亡數(shù)據(jù)進(jìn)行了比對(duì),之后又將
這套人工智能模型與兩項(xiàng)標(biāo)準(zhǔn)的預(yù)測(cè)方法進(jìn)行比較,結(jié)果顯示,這一新模型
的準(zhǔn)確率比之前的預(yù)測(cè)方法高了10.1%。
根據(jù)上面這些數(shù)據(jù),科學(xué)家們不僅能夠預(yù)測(cè)到很多原本無法定論的結(jié)
果,而且還能了解到影響人生命期限的多種因素,從而使人們根據(jù)這些結(jié)果
對(duì)自身生活習(xí)慣進(jìn)行調(diào)整,達(dá)到延長(zhǎng)生命的目的。例如,科學(xué)家在實(shí)驗(yàn)中對(duì)
受試者的水果、蔬菜、肉類、奶酪、谷物、魚類、酒精等食品攝入的量做了
考查,找到最利于生命體健康的飲食攝入比例,在病人治療期、康復(fù)期對(duì)其
飲食結(jié)構(gòu)進(jìn)行調(diào)整,使其達(dá)到促進(jìn)機(jī)體代謝健康的目的。這也是人工智能通
過數(shù)據(jù)進(jìn)行預(yù)測(cè)的價(jià)值所在。新制度經(jīng)濟(jì)學(xué)的鼻祖、諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者羅納德·科斯曾說
過:“如果你拷問數(shù)據(jù)到一定程度,它會(huì)坦白一切!贝髷(shù)據(jù)包羅萬象,能
夠?qū)⒃S多看似并不相關(guān)的事件聯(lián)系在一起,使我們能夠更加清晰明了地把握
事物發(fā)展的趨勢(shì),跟上瞬息萬變的社會(huì)潮流。誰(shuí)掌握了大數(shù)據(jù),誰(shuí)就掌握了
主動(dòng)權(quán),不僅能夠決策世事,更能夠成全自己。但數(shù)據(jù)就像一片汪洋大海,望不到邊際,我們自己很難游上岸;這時(shí)就需要人工智能做舟——長(zhǎng)風(fēng)破浪
會(huì)有時(shí),直掛云帆濟(jì)滄海。AI如何做出決策
前面我們講了從“數(shù)據(jù)”到“價(jià)值”的歷程,大數(shù)據(jù)的出現(xiàn)使人工智能
的決策更高效更聰明。數(shù)據(jù)加人工智能,為我們?cè)跊Q策時(shí)提供了無數(shù)個(gè)在以
前無法實(shí)現(xiàn)甚至是無法想象的可能性。那么人工智能是如何一步步地將“數(shù)
據(jù)”轉(zhuǎn)化為“決策”的呢?如圖3-2所示,從“數(shù)據(jù)”產(chǎn)生“決策”的具體過
程是這樣的:首先要通過對(duì)歷史數(shù)據(jù)的特征處理產(chǎn)生特征數(shù)據(jù),然后通過機(jī)
器學(xué)習(xí)產(chǎn)生預(yù)測(cè)模型,之后需要通過模型評(píng)估來產(chǎn)生回測(cè)效果。在回測(cè)中檢
驗(yàn)合格的模型就可以投入生產(chǎn),生產(chǎn)過程中如果有新的個(gè)體數(shù)據(jù)輸入,就會(huì)
通過生產(chǎn)模型得到預(yù)測(cè)分?jǐn)?shù),根據(jù)預(yù)測(cè)分?jǐn)?shù)的高低和其他因素進(jìn)行業(yè)務(wù)優(yōu)
化,產(chǎn)生針對(duì)個(gè)體數(shù)據(jù)的業(yè)務(wù)決策。模型本身也要受到監(jiān)控,監(jiān)控的目的是
產(chǎn)生質(zhì)量報(bào)告,來確保模型正常運(yùn)行。這一整套框架被稱為“人工智能決策
引擎”,接下來我們將對(duì)它進(jìn)行詳細(xì)了解。
圖3-2 人工智能決策引擎示意圖
數(shù)據(jù)和特征處理毋庸置疑,數(shù)據(jù)是當(dāng)下這個(gè)時(shí)代很重要的一種資產(chǎn)。我們經(jīng)常提到的大
數(shù)據(jù)有“3V”:Volume,即數(shù)據(jù)量,以往數(shù)據(jù)量少,以MB、GB為單位,但是
隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)不斷積累,現(xiàn)在數(shù)據(jù)量已經(jīng)發(fā)展到了以PB、EB、ZB
為單位表示;Variety,即多樣性,根據(jù)數(shù)據(jù)的結(jié)構(gòu)是否統(tǒng)一,將數(shù)據(jù)分為結(jié)
構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù);Velocity,即速度,指的是數(shù)
據(jù)的產(chǎn)生速度越來越快。
那么數(shù)據(jù)是如何產(chǎn)生的呢?首先,社會(huì)在發(fā)展、人類在生活,就會(huì)有源
源不斷的新數(shù)據(jù)涌現(xiàn)出來。無論是機(jī)器生產(chǎn)還是市場(chǎng)營(yíng)銷活動(dòng),都沉淀了越
來越多的數(shù)據(jù)。其次,隨著互聯(lián)網(wǎng)的發(fā)展,知識(shí)的權(quán)威性不斷下降,任何人
都可以成為信息的發(fā)布者,數(shù)據(jù)就這樣不斷地積累,數(shù)量越來越多。最后,隨著學(xué)科的不斷發(fā)展,人們描述同一類型事物的角度越來越多,例如隨著基
因科學(xué)的發(fā)展,現(xiàn)在用來描述基因的指標(biāo)維度非常多,比如說,每個(gè)人的
DNA(脫氧核糖核酸)分子是由約30億個(gè)堿基對(duì)按精確的順序排列而成的,一
個(gè)堿基對(duì)就對(duì)應(yīng)了一個(gè)維度,那么一個(gè)人的DNA分子就有幾十億個(gè)維度。像這
樣的例子其實(shí)還有很多,數(shù)據(jù)就這樣不斷積累到了一個(gè)非常龐大的數(shù)量。
通常,在各種各樣的業(yè)務(wù)過程中形成的歷史數(shù)據(jù)很雜亂,并且分散在不
同的數(shù)據(jù)庫(kù)和數(shù)據(jù)表里,不夠系統(tǒng)化。為了更好地利用它們,我們需要把它
們整合在一起,得到一套結(jié)構(gòu)明確、條理清晰、便于理解的系統(tǒng)化數(shù)據(jù)。比
如說現(xiàn)在需要處理一份在過去兩年時(shí)間里形成的顧客在不同商家的消費(fèi)行為
數(shù)據(jù),由于顧客消費(fèi)行為的多變性以及商家的多樣性,這份數(shù)據(jù)的數(shù)據(jù)量龐
大且類型多樣。而人工智能會(huì)對(duì)這些復(fù)雜的數(shù)據(jù)做特征處理,特征處理是通
過對(duì)原始數(shù)據(jù)的處理和加工,將原始數(shù)據(jù)維度轉(zhuǎn)換為特征數(shù)據(jù)的過程,特征
是數(shù)據(jù)中所呈現(xiàn)出來的重要特性,通常是通過數(shù)據(jù)維度的計(jì)算、組合或轉(zhuǎn)換
得到的。經(jīng)過特征處理,數(shù)據(jù)就被加工成了機(jī)器學(xué)習(xí)能夠理解的數(shù)據(jù)形式。
過去,特征處理都是通過單臺(tái)計(jì)算機(jī)進(jìn)行,處理效率比較低。2005年,由阿帕奇(Apache)基金會(huì)所開發(fā)的哈杜普(Hadoop)可以將多臺(tái)計(jì)算機(jī)連
接在一起形成計(jì)算機(jī)集群,提供分布式并行的特征處理和分析功能,實(shí)現(xiàn)對(duì)
復(fù)雜數(shù)據(jù)的快速、可靠的計(jì)算。由于其技術(shù)的高效性,對(duì)特征處理能力的提
高,特征處理變得越來越容易,所以特征處理的門檻越來越低。到2008年左
右,越來越多的公司意識(shí)到大數(shù)據(jù)時(shí)代分布式并行計(jì)算的重要性,同樣地,這也為人工智能處理大數(shù)據(jù)提供了完善的基礎(chǔ)設(shè)施。但特征處理的過程通常也是枯燥而繁重的,看不到直接有用的結(jié)果。如果卡在這步,對(duì)企業(yè)來說,人工智能就無法落地。
機(jī)器學(xué)習(xí)和優(yōu)化
做好了特征處理,下一步就是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí),就是在特征上建立
模型的過程,這里需要選擇合適的預(yù)測(cè)模型,運(yùn)用歷史數(shù)據(jù)學(xué)習(xí)出模型。機(jī)
器學(xué)習(xí)在各行各業(yè)都開始應(yīng)用,例如在零售領(lǐng)域,通過發(fā)放優(yōu)惠券來刺激老
顧客、吸引新顧客是常用的營(yíng)銷手段,但是隨機(jī)投放優(yōu)惠券往往效果不明
顯,在某種程度上還會(huì)打擾到顧客,這樣不僅造成了營(yíng)銷成本的浪費(fèi),還會(huì)
降低品牌的聲譽(yù)。為改善營(yíng)銷效果,一些零售商采用機(jī)器學(xué)習(xí)來進(jìn)行營(yíng)銷。
機(jī)器學(xué)習(xí)根據(jù)大量消費(fèi)數(shù)據(jù)學(xué)習(xí)出預(yù)測(cè)模型,能夠預(yù)測(cè)顧客是否需要某種類
型的優(yōu)惠券,以此來決定是否向該顧客投放優(yōu)惠券。這樣不但使真正需要的
顧客享受到了優(yōu)惠,還改善了商家自身的營(yíng)銷效果。
機(jī)器學(xué)習(xí)的過程,其實(shí)和人類通過經(jīng)驗(yàn)總結(jié)生活規(guī)律再來指導(dǎo)我們之后
的生活是相類似的。我們通過生活規(guī)律來指導(dǎo)的是以后遇到的事情,同樣
地,機(jī)器學(xué)習(xí)需要預(yù)測(cè)的也是將來。未雨綢繆,早為之所,商家可以根據(jù)機(jī)
器預(yù)測(cè)提前做很多事情來促進(jìn)顧客的消費(fèi),在最短的時(shí)間內(nèi)搶占市場(chǎng)份額,擴(kuò)大利潤(rùn),也為自己爭(zhēng)取更多時(shí)間,使自己更加靈活地應(yīng)對(duì)一些突如其來的
市場(chǎng)變 ......
您現(xiàn)在查看是摘要介紹頁(yè), 詳見PDF附件(9088KB,295頁(yè))。
據(jù)中創(chuàng)造價(jià)值的煉金術(shù)_1.jpg)
據(jù)中創(chuàng)造價(jià)值的煉金術(shù)_2.jpg)
據(jù)中創(chuàng)造價(jià)值的煉金術(shù)_3.jpg)
據(jù)中創(chuàng)造價(jià)值的煉金術(shù)_4.jpg)
據(jù)中創(chuàng)造價(jià)值的煉金術(shù)_5.jpg)
據(jù)中創(chuàng)造價(jià)值的煉金術(shù)_6.jpg)