一、簡介
Python float NaN指的是“Not a Number”,即不是數字的浮點數值。通常出現在交叉驗證等機器學習應用場景中。Python浮點數的NaN值是可以通過math.nan或float('nan')方法創建出來的。這個NaN值可以與其他數字進行比較,但是卻不能和自身進行比較。
讓我們來看一個例子:
import math
a = float('nan')
b = float('nan')
c = 1.0
print(a == b) # False
print(a == a) # False
print(math.isnan(a)) # True
print(c > a) # False
二、原理
Python 中的 NaN 與 IEEE 754 標準中的 NaN 實現基本相同。 IEEE 754 中只定義了雙精度(double precision)的 NaN,但使用時需注意單精度(float)的 NaN 實現也與雙精度相同,僅數字精度不同。
IEEE 754 中,NaN 有兩種類型:一種是 quiet NaN(QNaN);一種是 signaling NaN(SNaN)。
QNaN 表示的是未定義或不適用的操作產生的結果。它可以被改變為 SNaN。
SNaN 表示的是嘗試執行結果未定義的操作時產生的 NaN,默認情況下,Python 只會使用 quiet NaN。SNaN 只應該在調試和特定應用中使用。
有一些操作可以產生 NaN,包括:
除以 0 0 除以 0 無窮 / 無窮 無窮 - 無窮 負數的平方根三、應用
NaN 在機器學習中可用于以下用途:
缺失值的填充,即將列中的缺失值替換為 NaN。 標記異常值,如數據集中的遠離均值的極端值可以被標記為 NaN。 簡化數據處理,當需要忽略一些數據點時,可將其替換為NaN,減少對其他數據的干擾。四、使用示例
1. 缺失值填充
在數據分析中,經常會遇到一些缺失值需要填充。通過將缺失值替換為 NaN,在分析中可以方便地使用 df.isna() 或 df.isnull() 進行識別。
import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
'age': [28, 25, np.nan, 22],
'salary': [3000, 5000, np.nan, 8000]}
df = pd.DataFrame(data)
print(df)
df.fillna(value=np.nan, inplace=True)
print(df)
2. 標記異常值
有些數據集中可能存在一些離群值,將其用 NaN 標記,可以在分析中忽略這些數據點,并且不會對其他數據造成干擾。
import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
'age': [28, 25, 500, 22],
'salary': [3000, 5000, 10000, 8000]}
df = pd.DataFrame(data)
print(df)
df['age'] = np.where(df['age'] > 100, np.nan, df['age'])
print(df)
3. 簡化數據處理
有些數據點會對分析造成干擾,這時可以將其替換為 NaN,這樣在分析時就不會考慮這些特殊情況,避免對其他數據產生影響。
import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
'age': [28, 25, 500, 22],
'salary': [3000, 5000, 10000, 8000]}
df = pd.DataFrame(data)
print(df)
df['age'] = np.where(df['age'] > 100, np.nan, df['age'])
df['salary'] = np.where(df['salary'] > 10000, np.nan, df['salary'])
print(df)