python特征生成是什么?
業內常說數據決定了模型效果的上限,機械學習算法通過數據特征進行預測,良好的特征可以顯著提高模型效果。這意味著通過特征生成(即從數據設計中加工模型的可用特征)是特征工程的重要一步。
一、特征生成作用
1、增加特征的表達能力,提升模型效果;
(如體重除以身高就是表達健康情況的重要特征,而單純看身高或體重對健康情況表達就有限。)
2、可以融入業務上的理解設計特征,增加模型的可解釋性。
二、特征生成方法
1、聚合方式
對存在一對多的字段,將其對應多條記錄分組聚合后統計平均值、計數、值等數據特征。
#自定義分組聚合統計函數
defx2_sum(group):
returnsum(group**2)
df.groupby('cust_no').C1.apply(x2_sum)
2、轉換方式
對字段間做加減乘除等運算生成數據特征的過程,對不同字段類型有不同轉換方式。
以上就是python特征生成是什么,希望能對大家有所幫助,更多Python學習教程請關注IT培訓機構:千鋒教育。