統(tǒng)計(jì)學(xué)習(xí)方法
統(tǒng)計(jì)學(xué)習(xí)方法
統(tǒng)計(jì)學(xué)習(xí)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并運(yùn)用模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析的一門學(xué)科,也稱統(tǒng)計(jì)機(jī)器學(xué)習(xí)以下是學(xué)習(xí)啦小編分享給大家的統(tǒng)計(jì)學(xué)習(xí)的資料,希望可以幫到你!
統(tǒng)計(jì)學(xué)習(xí)方法一
統(tǒng)計(jì)學(xué)習(xí)
統(tǒng)計(jì)學(xué)習(xí)的對(duì)象是數(shù)據(jù),它從數(shù)據(jù)出發(fā),提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識(shí),又回到對(duì)數(shù)據(jù)的分析與預(yù)測(cè)中去。統(tǒng)計(jì)學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計(jì)規(guī)律性,這是統(tǒng)計(jì)學(xué)習(xí)的前提。
統(tǒng)計(jì)學(xué)習(xí)的目的就是考慮學(xué)習(xí)什么樣的模型和如何學(xué)習(xí)模型。
統(tǒng)計(jì)學(xué)習(xí)方法包括模型的假設(shè)空間、模型選擇的準(zhǔn)則以及模型學(xué)習(xí)的算法。實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)的步驟如下:
(1) 得到一個(gè)有限的訓(xùn)練數(shù)據(jù)集合;
(2) 確定包含所有可能的模型的假設(shè)空間,即學(xué)習(xí)模型的集合;
(3) 確定模型選擇的準(zhǔn)則,即學(xué)習(xí)的策略;
(4) 實(shí)現(xiàn)求解最優(yōu)模型的算法,即學(xué)習(xí)的算法;
(5) 通過學(xué)習(xí)方法選擇最優(yōu)模型;
(6) 利用學(xué)習(xí)的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)或分析。
統(tǒng)計(jì)學(xué)習(xí)方法二
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)模型,對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè),訓(xùn)練集通常表示為
人們根據(jù)輸入、輸出變量的不同類型,對(duì)預(yù)測(cè)任務(wù)給予不同的名稱:輸入變量和輸出變量均為連續(xù)變量的預(yù)測(cè)問題稱為回歸問題;輸出變量為有限個(gè)離散變量的預(yù)測(cè)問題稱為分類問題;輸入變量與輸出變量均為變量序列的預(yù)測(cè)問題稱為標(biāo)注問題。
監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布P(X,Y),P(X,Y)表示分布函數(shù),或分布密度函數(shù)。統(tǒng)計(jì)學(xué)習(xí)假設(shè)數(shù)據(jù)存在一定的統(tǒng)計(jì)規(guī)律,X和Y具有聯(lián)合概率分布的假設(shè)就是監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)。
監(jiān)督學(xué)習(xí)的模型可以是概率模型或非概率模型,由條件概率分布P(Y|X)或決策函數(shù)Y=f(X)表示,隨具體學(xué)習(xí)方法而定。
監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測(cè)兩個(gè)過程,由學(xué)習(xí)系統(tǒng)與預(yù)測(cè)系統(tǒng)組成,如下圖:
學(xué)習(xí)過程中,學(xué)習(xí)系統(tǒng)利用給定的訓(xùn)練數(shù)據(jù)集,通過學(xué)習(xí)得到一個(gè)模型,表示為條件概率分布P(Y|X)或決策函數(shù)Y=f(X)。預(yù)測(cè)過程中,預(yù)測(cè)系統(tǒng)對(duì)于給定的測(cè)試樣本集中的輸入
統(tǒng)計(jì)學(xué)習(xí)方法三
統(tǒng)計(jì)學(xué)習(xí)三要素
統(tǒng)計(jì)學(xué)習(xí)=模型+策略+算法
3.1 模型
統(tǒng)計(jì)學(xué)習(xí)中,首先要考慮學(xué)習(xí)什么樣的模型,在監(jiān)督學(xué)習(xí)中,模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù),由決策函數(shù)表示的模型為非概率模型,由條件概率分布表示的模型為概率模型。
3.2 策略
有了模型的假設(shè)空間,統(tǒng)計(jì)學(xué)習(xí)接著需要考慮的是按照什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型。監(jiān)督學(xué)習(xí)實(shí)際上就是一個(gè)經(jīng)驗(yàn)風(fēng)險(xiǎn)或者結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)的最優(yōu)化問題。風(fēng)險(xiǎn)函數(shù)度量平均意義下模型預(yù)測(cè)的好壞,模型每一次預(yù)測(cè)的好壞用損失函數(shù)來度量。
監(jiān)督學(xué)習(xí)問題就是從假設(shè)空間F中選擇模型f作為決策函數(shù),對(duì)于給定的輸入X,由f(X)給出相應(yīng)的輸出Y,這個(gè)輸出的預(yù)測(cè)值f(X)與真實(shí)值Y可能一致也可能不一致,用一個(gè)損失函數(shù)來度量預(yù)測(cè)錯(cuò)誤的程度。損失函數(shù)記為L(zhǎng)(Y, f(X))。常用的損失函數(shù)有以下幾種:
3.3 算法
統(tǒng)計(jì)學(xué)習(xí)問題歸結(jié)為以上的最優(yōu)化問題,這樣,統(tǒng)計(jì)學(xué)習(xí)的算法就是求解最優(yōu)化問題的算法。如果最優(yōu)化問題有顯示的解析解,這個(gè)最優(yōu)化問題就比較簡(jiǎn)單,但通常這個(gè)解析解不存在,所以就需要利用數(shù)值計(jì)算的方法來求解。統(tǒng)計(jì)學(xué)習(xí)可以利用已有的最優(yōu)化算法,也可以開發(fā)獨(dú)自的最優(yōu)化算法。
統(tǒng)計(jì)學(xué)習(xí)方法四
模型評(píng)估與模型選擇
當(dāng)損失函數(shù)給定時(shí),基于損失函數(shù)的模型的訓(xùn)練誤差和模型的測(cè)試誤差就自然成為學(xué)習(xí)方法評(píng)估的標(biāo)準(zhǔn)。
訓(xùn)練誤差是模型Y=f(x)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失:
下圖給出了M=0,M=1,M=3,M=9時(shí)的多項(xiàng)式函數(shù)擬合的情況,其中綠色曲線為真模型,紅色為預(yù)測(cè)模型。
其中,M=0和M=1模型簡(jiǎn)單,擬合不足,訓(xùn)練誤差較大;M=9模型復(fù)雜,過擬合,訓(xùn)練誤差為0,但基本不具備推廣性;M=3模型復(fù)雜度適中,泛化能力強(qiáng),效果最好。
下圖描述了訓(xùn)練誤差和測(cè)試誤差與模型的復(fù)雜度之間的關(guān)系:
當(dāng)模型的復(fù)雜度增大時(shí),訓(xùn)練誤差會(huì)逐漸減小并趨向于0,而測(cè)試誤差會(huì)先減少,達(dá)到最小值后又增大。模型選擇的典型方法是正則化與交叉驗(yàn)證。
統(tǒng)計(jì)學(xué)習(xí)方法五
正則化與交叉驗(yàn)證
模型選擇的典型方法是正則化,正則化的一般形式如下:
其中,第一項(xiàng)是經(jīng)驗(yàn)風(fēng)險(xiǎn),第二項(xiàng)是正則化項(xiàng),正則化項(xiàng)可以取不同的形式,例如,正則化項(xiàng)可以是模型參數(shù)向量的范數(shù)。回歸問題中,損失函數(shù)是平方損失,正則化項(xiàng)可以是參數(shù)向量的L2范數(shù):
正則化項(xiàng)也可以是參數(shù)向量的L1范數(shù):
經(jīng)驗(yàn)風(fēng)險(xiǎn)較小的模型可能較復(fù)雜,這時(shí)正則化項(xiàng)的值會(huì)較大,正則化的作用是選擇經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度同時(shí)較小的模型。
正則化符合奧卡姆剃刀原理,在所有可能的模型中,能夠很好的解釋已知數(shù)據(jù)并且十分簡(jiǎn)單的模型才是最好的模型。從貝葉斯估計(jì)的角度來看,正則化項(xiàng)對(duì)應(yīng)于模型的先驗(yàn)概率,可以假設(shè)復(fù)雜的模型有較小的先驗(yàn)概率,簡(jiǎn)單的模型有較大的先驗(yàn)概率。
模型選擇的另一種方法是交叉驗(yàn)證,使用交叉驗(yàn)證的前提是數(shù)據(jù)不充足,常見的有簡(jiǎn)單交叉驗(yàn)證、S折交叉驗(yàn)證和留一交叉驗(yàn)證。如果數(shù)據(jù)充足,選擇模型的一種簡(jiǎn)單方法是隨機(jī)的將數(shù)據(jù)集分成三部分,分別為訓(xùn)練集、驗(yàn)證集和測(cè)試集,訓(xùn)練集用來訓(xùn)練模型,驗(yàn)證集用于模型的選擇,而測(cè)試集用于最終對(duì)學(xué)習(xí)方法的評(píng)估。如果數(shù)據(jù)不充足,可以采用交叉驗(yàn)證的方法來選擇模型。
統(tǒng)計(jì)學(xué)習(xí)方法六
泛化能力
統(tǒng)計(jì)學(xué)習(xí)方法七
生成模型與判別模型
判別模型
該模型主要對(duì)p(y|x)建模,通過x來預(yù)測(cè)y。在建模的過程中不需要關(guān)注聯(lián)合概率分布。只關(guān)心如何優(yōu)化p(y|x)使得數(shù)據(jù)可分。通常,判別式模型在分類任務(wù)中的表現(xiàn)要好于生成式模型。但判別模型建模過程中通常為有監(jiān)督的,而且難以被擴(kuò)展成無監(jiān)督的。
常見的判別式模型有:
Logisticregression
Lineardiscriminant analysis
Supportvector machines
Boosting
Conditionalrandom fields
Linearregression
Neuralnetworks
生成模型
該模型對(duì)觀察序列的聯(lián)合概率分布p(x,y)建模,在獲取聯(lián)合概率分布之后,可以通過貝葉斯公式得到條件概率分布。生成式模型所帶的信息要比判別式模型更豐富。除此之外,生成式模型較為容易的實(shí)現(xiàn)增量學(xué)習(xí)。
常見的生成式模型有:
Gaussian mixture model and othertypes of mixture model
HiddenMarkov model
NaiveBayes
AODE
LatentDirichlet allocation
RestrictedBoltzmann Machine
由上可知,判別模型與生成模型的最重要的不同是,訓(xùn)練時(shí)的目標(biāo)不同,判別模型主要優(yōu)化條件概率分布,使得x,y更加對(duì)應(yīng),在分類中就是更可分。而生成模型主要是優(yōu)化訓(xùn)練數(shù)據(jù)的聯(lián)合分布概率。而同時(shí),生成模型可以通過貝葉斯得到判別模型,但判別模型無法得到生成模型。
統(tǒng)計(jì)學(xué)習(xí)方法八
分類問題、標(biāo)注問題和回歸問題
前面提到過,輸入變量和輸出變量均為連續(xù)變量的預(yù)測(cè)問題稱為回歸問題;輸出變量為有限個(gè)離散變量的預(yù)測(cè)問題稱為分類問題;輸入變量與輸出變量均為變量序列的預(yù)測(cè)問題稱為標(biāo)注問題。
對(duì)于二分類問題,常用的評(píng)價(jià)指標(biāo)是精確率和召回率。通常以關(guān)注的類為正類,其他類為負(fù)類,分類器在測(cè)試數(shù)據(jù)集上的預(yù)測(cè)或正確或不正確,4中情況出現(xiàn)的總數(shù)分別記為:
TP——將正類預(yù)測(cè)為正類數(shù);
FN——將正類預(yù)測(cè)為負(fù)類數(shù);
FP——將負(fù)類預(yù)測(cè)為正類數(shù);
TN——將負(fù)類預(yù)測(cè)為負(fù)類數(shù)。
則,精確率定義為:
許多統(tǒng)計(jì)方法可以用于分類,包括k近鄰法、感知機(jī)、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦回歸模型、支持向量機(jī)、提升方法、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、Winnow等。
標(biāo)注問題的輸入是一個(gè)觀測(cè)序列,輸出是一個(gè)標(biāo)記序列。標(biāo)注問題在信息抽取、自然語言處理等領(lǐng)域被廣泛采用。例如,自然語言處理中的詞性標(biāo)注就是一個(gè)典型的標(biāo)注問題:給定一個(gè)由單詞組成的句子,對(duì)這個(gè)句子中的每一個(gè)單詞進(jìn)行詞性標(biāo)注,即對(duì)一個(gè)單詞序列預(yù)測(cè)其對(duì)應(yīng)的詞性標(biāo)記序列。標(biāo)注常用的統(tǒng)計(jì)學(xué)習(xí)方法有:隱馬爾科夫模型、條件隨機(jī)場(chǎng)。
回歸問題的學(xué)習(xí)等價(jià)于函數(shù)擬合:選擇一條函數(shù)曲線使其很好的擬合已知數(shù)據(jù)且很好地預(yù)測(cè)未知數(shù)據(jù)?;貧w問題按照輸入變量的個(gè)數(shù)分為一元回歸和多元回歸,按照輸入變量和輸出變量之間的關(guān)系的類型即模型的類型,分為線性回歸和非線性回歸?;貧w學(xué)習(xí)最常用的損失函數(shù)時(shí)平方損失函數(shù),在此情況下,回歸問題可以用著名的最小二乘法求解。