
《神經(jīng)?絡(luò)與深度學(xué)習(xí)》-邱錫鵬(更新)
第?章緒論
1.1 ??智能
1.??智能是什么?
??智能是計算機(jī)科學(xué)的?個分?,于1956年在達(dá)特茅斯會議上被提出,主要研究、開發(fā)?于模擬、延伸和擴(kuò)展?類智能的理論、?法、技術(shù)及應(yīng)?系統(tǒng)等。簡單來說,??智能研究?類智能,并嘗試????法復(fù)現(xiàn)?類智能。
??智能就是要讓機(jī)器的?為看起來就像是?所表現(xiàn)出的智能?為?樣。
——John McCarthy(1927-2011)
?個?在不接觸對?的情況下,通過?種特殊的?式,和對?進(jìn)??系列的問答。如果在相當(dāng)長時間內(nèi),他?法根據(jù)這些問題判斷對?是?還是計算機(jī),那么就可以認(rèn)為這個計算機(jī)是智能的。
——圖靈測試
2.??智能的研究領(lǐng)域
1.感知:模擬?的感知能?,語?信息處理、計算機(jī)視覺
2.學(xué)習(xí):模擬?的學(xué)習(xí)能?,監(jiān)督學(xué)習(xí)、?監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。
3.認(rèn)知:模擬?的認(rèn)知能?,知識表?、?然語?處理、推理、規(guī)劃、決策。
3.??智能的發(fā)展史
1.推理期(1956-60年代末):基于邏輯和事實規(guī)則,出現(xiàn)了?何定理證明器、語?翻譯器等。
2.知識期(70年代初-80年代中期):意識到知識對于??智能系統(tǒng)的重要性,構(gòu)建專家知識庫,出現(xiàn)專家系統(tǒng)
3.學(xué)習(xí)期(90年代?今):讓計算機(jī)?動從數(shù)據(jù)中分析并獲取規(guī)律,然后進(jìn)?預(yù)測,出現(xiàn)機(jī)器學(xué)習(xí)(machine learning),伴隨著計算機(jī)運(yùn)算能?的提?,神經(jīng)?絡(luò)重新興起,并促進(jìn)了深度學(xué)習(xí)的發(fā)展
4.??智能的流派
1.符號主義:?符號抽象世界中的事物,?邏輯抽象世界中的規(guī)則。
2.連接主義:模擬?類?腦神經(jīng)?絡(luò)
3.?為主義:控制論,模擬?的?為模式:感知-動作
1.2 機(jī)器學(xué)習(xí)
1.機(jī)器學(xué)習(xí)是什么?
機(jī)器學(xué)習(xí)是??智能的?個分?,致?于從有限的觀測數(shù)據(jù)中學(xué)習(xí)出?般性的規(guī)律,并在未來進(jìn)?預(yù)測。
2.機(jī)器學(xué)習(xí)的步驟
淺層學(xué)習(xí)不涉及特征學(xué)習(xí),機(jī)器學(xué)習(xí)的特征主要通過???法或者特征轉(zhuǎn)換來抽取。特征處理是機(jī)器學(xué)習(xí)中的重點(diǎn)?作,對模型輸?的特征的優(yōu)劣直接影響模型的性能,因此很多機(jī)器學(xué)習(xí)問題演變成了特征?程(特征?程需要?類智能)。
1.數(shù)據(jù)預(yù)處理:去除噪聲
2.特征提取:從原始數(shù)據(jù)中提取有效特征
3.特征轉(zhuǎn)換:對特征升維和降維,降維的?式主要有特征抽取(Feature Extration)和特征選擇(Feature Selection)。特征選擇和特征抽取有著些許的相似點(diǎn),這兩者達(dá)到的效果是?樣的,就是試圖去減少特征數(shù)據(jù)集中的屬性(或者稱為特征)的數(shù)?;但是兩者所采?的?式?法卻不同:特征抽取的?法主要是通過屬性間的關(guān)系,如組合不同的屬性得新的屬性,這樣就改變了原來的特征空間;?特征選擇的?法是從原始特征數(shù)據(jù)集中選擇出?集,是?種包含的關(guān)系,沒有更改原始的特征空間。特征抽取的?法主要包括主成分分析(PCA)和線性判別分析(LDA),特征選擇的?法有Filter?法、Wrapper?法、Embedded?法。
4.預(yù)測:學(xué)習(xí)?個函數(shù)(分類、回歸)
1.3 表?學(xué)習(xí)
1.表?學(xué)習(xí)是什么?
表?學(xué)習(xí)是機(jī)器學(xué)習(xí)過程中針對數(shù)據(jù)特征的?種技術(shù)?段。為了提?機(jī)器學(xué)習(xí)的準(zhǔn)確率,就需要獲取數(shù)據(jù)更有效地特征,如果使???進(jìn)?抽取,?作量太?。如果有?種算法能夠?動的學(xué)習(xí)出有效的特征,
并最終提?機(jī)器學(xué)習(xí)模型的性能,這種學(xué)習(xí)就被稱作表?學(xué)習(xí)。
2.表?學(xué)習(xí)的關(guān)鍵是什么?
表?學(xué)習(xí)的關(guān)鍵是解決語義鴻溝,在某種程度上反應(yīng)數(shù)據(jù)的?層語義信息。語義鴻溝是指底層特征(原始數(shù)據(jù)特征)和?層語義信息差別?。?如兩個汽車的圖?像素數(shù)據(jù)差別很??在語義信息上卻是相似的。
3.什么是?個好的表??
1)應(yīng)該具有很強(qiáng)的表?能?,相同長度的向量表?更多的信息
2)使后續(xù)的學(xué)習(xí)任務(wù)變得簡單,即表?出更?層的語義信息
3)具有?般性,能夠遷移到其他的任務(wù)上
4.表?學(xué)習(xí)的兩種?法
1)局部表?
以表?顏?為例,對?類來說,有多少種不同的顏?就可以有多少種不同的符號來表?,?如天藍(lán)?、海
藍(lán)?、咖啡?、?黃?...但是計算機(jī)識別不了符號,因此就?向量來表?,?如?前已知的顏?有1000種,則計算機(jī)就??個1000維的向量來表?顏?,向量的每?個分量都代表不同的顏?,對于每?個顏?,其對應(yīng)的向量中只有?個分量為1,其余均為0。?旦出現(xiàn)?種新的顏?,向量的維度就要加1。
局部表?在特征空間中的體現(xiàn):所有的數(shù)據(jù)對象都是不同坐標(biāo)軸上的點(diǎn)。
2)分布式表?
分布式表?選擇數(shù)據(jù)對象共有的特征組成特征向量,并根據(jù)數(shù)據(jù)對象是否具有某個特征來判斷該對象的類型。?如顏?共有的特征是RGB,因此分布式表??法表?顏?僅需要?個3維向量即可表?出所有的顏?。
分布式表?在特征空間中的體現(xiàn):低維空間中分散的點(diǎn)
局部表?分布式表?
[1 0 0 0][0.25 0.5]
[0 1 0 0][0.2 0.9]
[0 0 1 0][0.8 0.2]
[0 0 0 1][0.9 0.1]
局部表?可解釋性強(qiáng),但是維度太?并且?法計算數(shù)據(jù)對象之間的相似度。局部表?可以通過神經(jīng)?絡(luò)轉(zhuǎn)化為分布
5.表?學(xué)習(xí)和傳統(tǒng)的特征轉(zhuǎn)換的區(qū)別
傳統(tǒng)的特征轉(zhuǎn)換,如PCA、LDA等?法?般是使??為設(shè)計的規(guī)則,并且特征學(xué)習(xí)和最終的模型的學(xué)習(xí)是分開的,因此學(xué)習(xí)到的特征并不?定能提升模型的性能。
1.4 深度學(xué)習(xí)
1.深度學(xué)習(xí)是什么
深度學(xué)習(xí)是表?學(xué)習(xí)的學(xué)習(xí)過程加上預(yù)測過程。深度指的是學(xué)習(xí)特征要分為多步,如先學(xué)習(xí)底層特征,再學(xué)習(xí)中層特征、再學(xué)習(xí)?層特征。學(xué)習(xí)指的是表?學(xué)習(xí)的過程。
2.深度學(xué)習(xí)和??神經(jīng)?絡(luò)的關(guān)系
??神經(jīng)?絡(luò)是深度學(xué)習(xí)的?具,?于解決深度學(xué)習(xí)中貢獻(xiàn)度分配的問題(選擇更有效地特征)。具體?法有梯度下降+反向傳播算法。
3.端到端的學(xué)習(xí)和傳統(tǒng)的機(jī)器學(xué)習(xí)、
傳統(tǒng)的機(jī)器學(xué)習(xí)往往將任務(wù)分解為多個?模塊,分別獨(dú)?的進(jìn)?優(yōu)化。各個?模塊的優(yōu)化?標(biāo)不能和總體?標(biāo)保持?致,因此效果差。?端到端的學(xué)習(xí)不必拆分?模塊,整個學(xué)習(xí)過程也?須???預(yù),只需要將(輸?-輸出)數(shù)據(jù)對輸?到神經(jīng)?絡(luò)中,即可??學(xué)習(xí)。
1.5 ??神經(jīng)?絡(luò)
1.6本書知識體系
第?章機(jī)器學(xué)習(xí)概述
2.1 機(jī)器學(xué)習(xí)的基本概念
1.特征
選定的待識別?標(biāo)的特征,如預(yù)測芒果的甜度時,選取芒果的??、產(chǎn)地、品種、顏?作為特征。
2.標(biāo)簽
挑選10000個芒果作為訓(xùn)練數(shù)據(jù),標(biāo)注每個芒果的特征值以及測得的甜度,甜度就是每個芒果的標(biāo)簽,但是標(biāo)簽值可以是連續(xù)的也可以是不連續(xù)的,如預(yù)測芒果是好果還是壞果時,標(biāo)簽值就是?值的(0或1)。
3.樣本(實例)
?個芒果就是?個樣本,樣本 = 特征值+標(biāo)簽值 : {},?個樣本可看作?維數(shù)組
7.樣本的獨(dú)?同分布
機(jī)器學(xué)習(xí)就是要從已知的歷史數(shù)據(jù)中學(xué)習(xí)到固有的規(guī)律,從?進(jìn)?預(yù)測。但是在?數(shù)據(jù)時代,歷史數(shù)據(jù)太過龐?。如果使?全部的數(shù)據(jù)進(jìn)?學(xué)習(xí),效率太低。因此就要在原有數(shù)據(jù)的基礎(chǔ)上進(jìn)?采樣,?更少的數(shù)據(jù),即采樣數(shù)據(jù),代表總體。我們假設(shè)采樣得到的數(shù)據(jù)全部都是獨(dú)?同分布的。同分布是指樣本數(shù)據(jù)滿??個隱含的分布,這個隱含的分布雖然是未知的,但卻是真實存在的,即全體歷史數(shù)據(jù)滿?的分布。獨(dú)?是指,樣本之間是相互獨(dú)?的,樣本1對樣本2不會產(chǎn)?影響。滿?了獨(dú)?同分布以后,便可以?樣本數(shù)據(jù)代替總體數(shù)據(jù)進(jìn)?學(xué)習(xí)。
5.數(shù)據(jù)集
所有的樣本放在?起就是數(shù)據(jù)集,?個數(shù)據(jù)集可以看成三維數(shù)組
6.訓(xùn)練集和測試集
訓(xùn)練集?于訓(xùn)練模型,測試集?于測試學(xué)習(xí)到的模型
7.機(jī)器學(xué)習(xí)流程
2.2 機(jī)器學(xué)習(xí)三要素
1.模型
對于?個學(xué)習(xí)任務(wù),我們?先要確定其輸?空間和輸出空間,輸?空間就是特征向量的長度,輸出空間
就是標(biāo)簽的取值范圍,可以是離散的也可以是連續(xù)的。確定了輸?輸出空間以后,我們基本就可以學(xué)習(xí)輸?和輸出之間的特定聯(lián)系了,這種聯(lián)系可以是?個映射函數(shù)y=g(x)或者是?個概率分布 p(y|x) 。假設(shè)現(xiàn)在要學(xué)習(xí)的參數(shù)是映射函數(shù)y=g(x),我們并不能確定這個函數(shù)具體多少,但是我們可以假設(shè)它的類型(線性or?線性,多項式or三?函數(shù)),并在學(xué)習(xí)過程中不斷地優(yōu)化參數(shù),使其能夠接近真實的映射函數(shù)。例如要預(yù)測曼哈頓樓價和位置、樓層、?積之間的關(guān)系,我們可以假設(shè)它們之間的關(guān)系是,根據(jù)的不同取值可以得到?窮多個函數(shù),這些函數(shù)同屬于?個函數(shù)族,這個函數(shù)族就構(gòu)成了我們的假設(shè)空間,?形成這個假設(shè)空間的模板函數(shù)
就是模型.
常見假設(shè)空間分為線性假設(shè)空間和?線性假設(shè)空間,對應(yīng)的模型分別是線性模型和?線性模型。
線性模型:,為向量
?線性模型:,為函數(shù)向量,如果本?為可學(xué)習(xí)的基函數(shù),即將看作模型,能由其他的基函數(shù)?成(可套娃),則可看作神經(jīng)?絡(luò)模型。
2.學(xué)習(xí)準(zhǔn)則
學(xué)習(xí)準(zhǔn)則 = 調(diào)整參數(shù)的原則,預(yù)測函數(shù)通過學(xué)習(xí)準(zhǔn)則不斷地調(diào)整參數(shù),使得整個預(yù)測函數(shù)不斷地向真實函數(shù)擬合。
A.損失函數(shù)
損失函數(shù)?于計算預(yù)測值和真實值之間的誤差,常見的有0-1損失函數(shù)、平?損失函數(shù)、絕對損失函數(shù)、對數(shù)損失函數(shù)。
通過損失函數(shù)我們只能知道預(yù)測函數(shù)f(X)對于單個樣本點(diǎn)的預(yù)測能?(借?損失函數(shù)L(Y,f(x)),損失函數(shù)越?,說明模型對于該樣本預(yù)測越準(zhǔn)確),但是?法得知預(yù)測函數(shù)在整個訓(xùn)練集上的表現(xiàn)。這就引?了經(jīng)驗風(fēng)險的概念。
B.經(jīng)驗風(fēng)險
經(jīng)驗風(fēng)險就是把訓(xùn)練集中的所有樣本的損失函數(shù)值加起來再除以樣本總數(shù)。
但是如果模型按照經(jīng)驗風(fēng)險進(jìn)?計算的話,訓(xùn)練出的模型只能是在訓(xùn)練集上有較好的表現(xiàn),再其他數(shù)據(jù)上的表現(xiàn)可能不好,因此就引出期望風(fēng)險。
C.期望風(fēng)險
計算預(yù)測函數(shù)對所有樣本點(diǎn)的損失函數(shù)值的期望,但是不現(xiàn)實。P(x,y)是聯(lián)合概率分布。
D.結(jié)構(gòu)風(fēng)險