眾所周知,機(jī)器學(xué)習(xí)中處理缺失值的方法有很多,然而,由題目“隨機(jī)森林如何處理缺失值”可知,問題關(guān)鍵在于隨機(jī)森林如何處理,所以先簡要介紹下隨機(jī)森林吧。
隨機(jī)森林是由很多個決策樹組成的,首先要建立Bootstrap數(shù)據(jù)集,即從原始的數(shù)據(jù)中有放回地隨機(jī)選取一些,作為新的數(shù)據(jù)集,新數(shù)據(jù)集中會存在重復(fù)的數(shù)據(jù),然后對每個數(shù)據(jù)集構(gòu)造一個決策樹,但是不是直接用所有的特征來建造決策樹,而是對于每一步,都從中隨機(jī)的選擇一些特征,來構(gòu)造決策樹,這樣我們就構(gòu)建了多個決策樹,組成隨機(jī)森林,把數(shù)據(jù)輸入各個決策樹中,看一看每個決策樹的判斷結(jié)果,統(tǒng)計(jì)一下所有決策樹的預(yù)測結(jié)果,Bagging整合結(jié)果,得到最終輸出。
那么,隨機(jī)森林中如何處理缺失值呢?根據(jù)隨機(jī)森林創(chuàng)建和訓(xùn)練的特點(diǎn),隨機(jī)森林對缺失值的處理還是比較特殊的。