一、pd.cut用法
pd.cut()是一個用于將連續變量轉換成離散變量的函數,通俗地說就是將一組數據按照一定的規則自動分成幾段,然后用這幾段來表示原來的數據。
二、pd.cut函數
pd.cut()函數的基本語法如下:
bins = [bin1, bin2, bin3, ....] pd.cut(data, bins)
其中data為待分割的數據,bins為分割的規則。bins可以為數字,也可以為序列,如果為數字表示將整個數列分成幾段,序列則表示每段指定具體的切分節點。
三、pd.cut函數判斷區間
pd.cut()函數判斷區間時默認是左開右閉,即分段區間為(left,right]。
四、pd.cut參數
在pd.cut()函數中,還有一些參數可以控制分段的方式,包括:
labels: 分段后每一段的標簽。 include_lowest: 是否在最低區間間隔內,加入low_edge(最小值-0.1)。 right: 是否將值視為右限,默認為True。 precision: 僅對小數有效,設定小數的精度。五、pd.cut左閉右開
控制pd.cut()函數的左閉右開用參數right,在pd.cut()函數中right默認為True,即右側的區間與前一個區間相鄰。
六、pd.cut函數股票
對于股票分組機制,我們通常需要在大量的指標中選擇一些比較重要的數據,并按照一定的規則來使每只股票分別處于自己所在的分組,pd.cut()函數有很好的實用效果。
七、pd.cut設置bin
pd.cut()中的bin參數決定了將整個數列分割成幾個等分點,bin參數可以是一個整數n,表示將整個數列等分成n等份。也可以是一個列表,表示用這些桶序列來分割數據。
例如,下列代碼將序列s分割成5個等分點,生成6個分組:
import pandas as pd import numpy as np s = pd.Series(np.random.randn(100)) s = pd.Series(pd.cut(s, 5)) print(s.value_counts())
輸出為:
(-2.082, -1.336] 22 (-1.336, -0.596] 35 (-0.596, 0.142] 26 (0.142, 0.881] 10 (0.881, 1.621] 7 dtype: int64
八、pd.cut后按順序排列
pd.cut()默認會根據邊緣數值進行排序。如果要根據切片順序將結果排序(而不是按峰值),請將參數ordered設置為False。
九、pd.cut什么意思
pd.cut()函數將連續變量離散化成無序的 categorical 變量,是數據處理中的一個非常實用的函數。
十、pd.cut函數給股票分組
了解了pd.cut()函數的基本用法和相關參數,我們可以嘗試將其應用到股票分組中,分組取權值的思路大概如下:
按照市值大小將所有股票分為若干組。 每組中按照一定的篇幅分層打分。 最后得到每個股票的大小分數。實現起來,我們根據市值(net_asset_value)進行排序,將股票分為若干組,從而可以實現個股的分類。
示例代碼如下:
import pandas as pd import numpy as np # 準備數據 data = pd.read_csv('example.csv') data = data.sort_values('net_asset_value') # 按市值排序 data = data.reset_index(drop=True) # 切分并保存分組 data['groups'] = pd.cut(data.index, bins=10, labels=range(10)) # 打分 data['points'] = np.exp(-(data.groups.astype(int) - 4) ** 2) # 按得分排序并輸出 data = data.sort_values('points', ascending=False) print(data.head())