自2007年發布以來,scikit-learn已經成為Python重要的機器學習庫了,scikit-learn簡稱sklearn,支持包括分類,回歸,降維和聚類四大機器學習算法。還包括了特征提取,數據處理和模型評估者三大模塊。
sklearn是Scipy的擴展,建立在Numpy和matplolib庫的基礎上。利用這幾大模塊的優勢,可以大大的提高機器學習的效率。
sklearn擁有著完善的文檔,上手容易,具有著豐富的API,在學術界頗受歡迎。sklearn已經封裝了大量的機器學習算法,包括LIBSVM和LIBINEAR。同時sklearn內置了大量數據集,節省了獲取和整理數據集的時間。
一,sklearn官方文檔的內容和結構
1.1sklearn官方文檔的內容
定義:針對經驗E和一系列的任務T和一定表現的衡量P,如果隨著經驗E的積累,針對定義好的任務T可以提高表現P,就說明機器具有學習能力。
庫的算法主要有四類:分類,回歸,聚類,降維。其中:
常用的回歸:線性、決策樹、SVM、KNN;集成回歸:隨機森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用的分類:線性、決策樹、SVM、KNN,樸素貝葉斯;集成分類:隨機森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用聚類:k均值(K-means)、層次聚類(Hierarchicalclustering)、DBSCAN
常用降維:LinearDiscriminantAnalysis、PCA
這個流程圖代表:藍色圓圈是判斷條件,綠色方框是可以選擇的算法,我們可以根據自己的數據特征和任務目標去找一條自己的操作路線。
sklearn中包含眾多數據預處理和特征工程相關的模塊,雖然剛接觸sklearn時,大家都會為其中包含的各種算法的廣度深度所震驚,但其實sklearn六大板塊中有兩塊都是關于數據預處理和特征工程的,兩個板塊互相交互,為建模之前的全部工程打下基礎。
模塊preprocessing:幾乎包含數據預處理的所有內容
模塊Impute:填補缺失值專用
模塊feature_selection:包含特征選擇的各種方法的實踐
模塊decomposition:包含降維算法
以上內容為大家介紹了Python機器學習之sklearn庫,希望對大家有所幫助,如果想要了解更多Python相關知識,請關注IT培訓機構:千鋒教育。