一、核
1.1 核的介紹
內(nèi)核方法是一類(lèi)用于模式分析或識(shí)別的算法,其最知名的使用是在支持向量機(jī)(SVM)。模式分析的一般任務(wù)是在一般類(lèi)型的數(shù)據(jù)(例如序列,文本文檔,點(diǎn)集,向量,圖像等)中找到并研究一般類(lèi)型的關(guān)系(例如聚類(lèi),排名,主成分,相關(guān)性,分類(lèi))圖表等)。內(nèi)核方法將數(shù)據(jù)映射到更高維的空間,希望在這個(gè)更高維的空間中,數(shù)據(jù)可以變得更容易分離或更好的結(jié)構(gòu)化。對(duì)這種映射的形式也沒(méi)有約束,這甚至可能導(dǎo)致無(wú)限維空間。然而,這種映射函數(shù)幾乎不需要計(jì)算的,所以可以說(shuō)成是在低維空間計(jì)算高維空間內(nèi)積的一個(gè)工具。
1.2 核的訣竅內(nèi)核技巧是一個(gè)非常有趣和強(qiáng)大的工具。
它是強(qiáng)大的,因?yàn)樗峁┝艘粋€(gè)從線性到非線性的連接以及任何可以只表示兩個(gè)向量之間的點(diǎn)積的算法。 它來(lái)自如下事實(shí):如果我們首先將我們的輸入數(shù)據(jù)映射到更高維的空間,那么我在這個(gè)高維的空間進(jìn)行操作出的效果,在原來(lái)那個(gè)空間就表現(xiàn)為非線性。現(xiàn)在,內(nèi)核技巧非常有趣,因?yàn)椴恍枰?jì)算映射。 如果我們的算法只能根據(jù)兩個(gè)向量之間的內(nèi)積表示,我們所需要的就是用一些其他合適的空間替換這個(gè)內(nèi)積。
這就是"技巧"的地方:無(wú)論使用怎樣的點(diǎn)積,它都被內(nèi)核函數(shù)替代。 核函數(shù)表示特征空間中的內(nèi)積,通常表示為:K(x,y)= <φ(x),φ(y)>使用內(nèi)核函數(shù),該算法然后可以被攜帶到更高維空間中,而不將輸入點(diǎn)顯式映射到該空間中。 這是非常可取的,因?yàn)橛袝r(shí)我們的高維特征空間甚至可以是無(wú)限維,因此不可能計(jì)算。
1.3 核函數(shù)的性質(zhì)核函數(shù)必須是連續(xù)的,對(duì)稱(chēng)的,并且最優(yōu)選地應(yīng)該具有正(半)定Gram矩陣。
據(jù)說(shuō)滿(mǎn)足Mercer定理的核是正半定數(shù),意味著它們的核矩陣只有非負(fù)特征值。使用肯定的內(nèi)核確保優(yōu)化問(wèn)題將是凸的和解決方案將是唯一的。然而,許多并非嚴(yán)格定義的核函數(shù)在實(shí)踐中表現(xiàn)得很好。一個(gè)例子是Sigmoid內(nèi)核,盡管它廣泛使用,但它對(duì)于其參數(shù)的某些值不是正半定的。 Boughorbel(2005)也實(shí)驗(yàn)證明,只有條件正定的內(nèi)核在某些應(yīng)用中可能勝過(guò)大多數(shù)經(jīng)典內(nèi)核。內(nèi)核還可以分為各向異性靜止,各向同性靜止,緊湊支撐,局部靜止,非穩(wěn)定或可分離非平穩(wěn)。此外,內(nèi)核也可以標(biāo)記為scale-invariant(規(guī)模不變)或scale-dependent(規(guī)模依賴(lài)),這是一個(gè)有趣的屬性,因?yàn)槌叨炔蛔儍?nèi)核驅(qū)動(dòng)訓(xùn)練過(guò)程不變的數(shù)據(jù)的縮放。補(bǔ)充:Mercer 定理:任何半正定的函數(shù)都可以作為核函數(shù)。所謂半正定的函數(shù)f(xi,xj),是指擁有訓(xùn)練數(shù)據(jù)集合(x1,x2,...xn),我們定義一個(gè)矩陣的元素aij = f(xi,xj),這個(gè)矩陣式n*n的,如果這個(gè)矩陣是半正定的,那么f(xi,xj)就稱(chēng)為半正定的函數(shù)。這個(gè)mercer定理不是核函數(shù)必要條件,只是一個(gè)充分條件,即還有不滿(mǎn)足mercer定理的函數(shù)也可以是核函數(shù)
二、 幾種常用的核
2.1 線性核線性?xún)?nèi)核是最簡(jiǎn)單的內(nèi)核函數(shù)。
它由內(nèi)積加上可選的常數(shù)c給出。 使用線性?xún)?nèi)核的內(nèi)核算法通常等于它們的非內(nèi)核對(duì)應(yīng)物,即具有線性?xún)?nèi)核的KPCA與標(biāo)準(zhǔn)PCA相同。
2.2 多項(xiàng)式核函數(shù)多項(xiàng)式核是非固定內(nèi)核。
多項(xiàng)式內(nèi)核非常適合于所有訓(xùn)練數(shù)據(jù)都?xì)w一化的問(wèn)題。我記得一般都會(huì)把問(wèn)題歸一化吧?可調(diào)參數(shù)是斜率α,常數(shù)項(xiàng)c和多項(xiàng)式度d。
2.3 高斯核高斯核是徑向基函數(shù)核的一個(gè)例子。
可調(diào)參數(shù)sigma在內(nèi)核的性能中起著主要作用,并且應(yīng)該仔細(xì)地調(diào)整到手頭的問(wèn)題。 如果過(guò)高估計(jì),指數(shù)將幾乎呈線性,高維投影將開(kāi)始失去其非線性功率。 另一方面,如果低估,該函數(shù)將缺乏正則化,并且決策邊界將對(duì)訓(xùn)練數(shù)據(jù)中的噪聲高度敏感。
2.4 指數(shù)的內(nèi)核指數(shù)核與高斯核密切相關(guān),只有正態(tài)的平方被忽略。
它也是一個(gè)徑向基函數(shù)內(nèi)核。
2.5 拉普拉斯算子核拉普拉斯核心完全等同于指數(shù)內(nèi)核,除了對(duì)sigma參數(shù)的變化不那么敏感。
作為等價(jià)的,它也是一個(gè)徑向基函數(shù)內(nèi)核。