熵是隨機(jī)變量不確定性的度量,不確定性越大,熵值越大,若隨機(jī)變量退化成定值,熵為0,均勻分布是最不確定的分布。熵其實(shí)定義了一個函數(shù)(概率分布函數(shù))到一個值(信息熵)的映射。
熵的定義公式如下:
在經(jīng)典熵的定義中,底數(shù)是2,此時熵的單位是bit,若底數(shù)是e,則熵的單位是nat(奈特)
兩個隨機(jī)變量X, Y的聯(lián)合分布,可以形成聯(lián)合熵Joint Entropy,用H(X,Y)表示,那么我們不禁要問:H(X,Y) - H(Y)代表什么呢?
事實(shí)上,(X,Y)發(fā)生所包含的熵,減去Y單獨(dú)發(fā)生包含的熵,在Y發(fā)生的前提下,X發(fā)生的新帶來的熵。于是有了條件熵:H(X|Y)的定義
下面是條件熵的推導(dǎo)公式:
相對熵,又稱為互熵,交叉熵,鑒別信息,KL散度,假設(shè)p(x), q(x)是X中取值的兩個概率分布,則p對q的相對熵是:
對于相對熵,可以度量兩個隨機(jī)變量的距離,一般的p對q的相對熵和q對p的相對熵不相等。
對于已知的隨機(jī)變量p,要使得相對簡單的隨機(jī)變量q,盡量接近p,那么我們可以采用相對熵進(jìn)行求解:
假定使用KL(Q||P),為了讓距離最小,則要求在P為0的地方,Q盡量為0。會得到比較“窄”的分布曲線;
假定使用KL(P||Q),為了讓距離最小,則要求在P不為0的地方,Q也盡量不為0。會得到比較“寬”的分布曲線;
互信息
兩個隨機(jī)變量X,Y的互信息,定義為X,Y的聯(lián)合分布和獨(dú)立分布乘積的相對熵。
對于互信息,我們可以有如下的推導(dǎo)公式: