(1).fillna()會填充nan數據,返回填充后的結果
(2)pddata["a"].unique() 特征a的值出現的set——唯一值
(3).loc[]選取指定列進行操作——df.loc[行標簽,列標簽]
(4).iloc[]函數——只能通過行號索引:df.iloc[0:4]它是基于索引位來選取數據集,0:4就是選取 0,1,2,3這四行
(5)作圖
from pandas.tools.plotting import scatter_matrix(混淆散點圖)
scatter_matrix(含有n個特征的數據X,s=100, alpha=1, c=colors[index], figsize=(10,10))
例如:scatter_matrix(beer[["calories","sodium","alcohol","cost"]],s=100, alpha=1, c=colors[beer["cluster"]], figsize=(16,16))