1. 特征工程是什么?
有這么一句話在業(yè)界廣泛流傳:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。那特征工程到底是什么呢?顧名思義,其本質(zhì)是一項(xiàng)工程活動(dòng),目的是最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。通過總結(jié)和歸納,人們認(rèn)為特征工程包括以下方面:
2. 數(shù)據(jù)預(yù)處理
2.1 無量綱化 2.1.1 標(biāo)準(zhǔn)化 2.1.2 區(qū)間縮放法 2.1.3 標(biāo)準(zhǔn)化與歸一化的區(qū)別
2.2 對定量特征二值化 2.3 對定性特征啞編碼 2.4 缺失值計(jì)算 2.5 數(shù)據(jù)變換 2.6 回顧
3. 特征選擇
3.1 Filter 3.1.1 方差選擇法 3.1.2 相關(guān)系數(shù)法 3.1.3 卡方檢驗(yàn) 3.1.4 互信息法3.2 Wrapper 3.2.1 遞歸特征消除法 3.3 Embedded 3.3.1 基于懲罰項(xiàng)的特征選擇法 3.3.2 基于樹模型的特征選擇法
4. 降維4.1 主成分分析法(PCA) 4.2 線性判別分析法(LDA)