python特征生成中字符類型有截取、字符長度和頻次。
一、python特征生成中字符類型
1、截取
當字符類型的值過多,通常可對字符類型變量做截取,以減少模型過擬合。如具體的家庭住址,可以截取字符串到城市級的粒度。
2、字符長度
統計字符串長度。如轉賬場景中,轉賬留言的字數某些程度可以刻畫這筆轉賬的類型。
3、頻次
二、python特征類型中字符使用
1、截取第一位字符串
df['I1_0']=df['I1'].map(lambdax:str(x)[:1])
2、字符長度
df['I1_len']=df['I1'].apply(lambdax:len(str(x)))
display(df.head())
3、字符串頻次
df['I1'].value_counts()
以上就是python特征生成中字符類型有哪些?希望能對大家有所幫助,更多Python學習教程請關注IT培訓機構:千鋒教育。