python實(shí)現(xiàn)Excel數(shù)據(jù)的探索和清洗
數(shù)據(jù)的探索和清洗
1、讀取Excel文件的數(shù)據(jù)并轉(zhuǎn)換為dataframe
#1.讀取Excel文件的數(shù)據(jù)并轉(zhuǎn)換為dataframe
file="d:/test/Summary/Data_Summary.xlsx"
data_raw=pd.read_excel(file,header=0,index_col=0)
#header設(shè)定為0:是為了使第1行的數(shù)據(jù)成為列的字段名
2、查看數(shù)據(jù)集的整體狀態(tài),了解基本特征列的情況
data_raw.head()
3、刪除無(wú)效的數(shù)據(jù)列
remove_col=["序號(hào)"]
data_prep0=data_raw.drop(columns=remove_col,axis=1,inplace=None)
data_prep0.head()
4、查看數(shù)據(jù)集的整體信息,了解缺失值的分布情況
data_prep0.info()
5、檢看數(shù)據(jù)集中缺失值的狀態(tài)并刪除缺失值
data_prep=data_prep0.dropna(subset=["產(chǎn)品"],axis=0)
data_prep.info()
6、檢查數(shù)據(jù)集中重復(fù)值的狀態(tài)并刪除重復(fù)值
print("數(shù)據(jù)集中的重復(fù)值數(shù)量:",np.sum(data_prep.duplicated()))
#如果重復(fù)值的數(shù)量不為"0",則表示有重復(fù)值存在,可使用下列代碼刪除
#data_prep.drop_duplicates(keep="first",inplace=True)
以上就是Python實(shí)現(xiàn)Excel數(shù)據(jù)的探索和清洗,希望能對(duì)大家有所幫助。更多Python學(xué)習(xí)教程請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。