優(yōu)點:
1. 在當(dāng)前的很多數(shù)據(jù)集上,相對其他算法有著很大的優(yōu)勢,表現(xiàn)良好。
2. 它能夠處理很高維度(feature很多)的數(shù)據(jù),并且不用做特征選擇(因為特征子集是隨機選擇的)。
3. 在訓(xùn)練完后,它能夠給出哪些feature比較重要。
4. 訓(xùn)練速度快,容易做成并行化方法(訓(xùn)練時樹與樹之間是相互獨立的)。
5. 在訓(xùn)練過程中,能夠檢測到feature間的互相影響。
6. 對于不平衡的數(shù)據(jù)集來說,它可以平衡誤差。
7. 如果有很大一部分的特征遺失,仍可以維持準(zhǔn)確度。
缺點:
1. 隨機森林已經(jīng)被證明在某些噪音較大的分類或回歸問題上會過擬合。
2. 對于有不同取值的屬性的數(shù)據(jù),取值劃分較多的屬性會對隨機森林產(chǎn)生更大的影響,所以隨機森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的。