麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 學院 > 開發設計 > 正文

基于香農熵的決策樹算法

2019-11-10 19:21:40
字體:
來源:轉載
供稿:網友

基于香農熵的決策樹算法


《機器學習實戰》一書中有介紹構造決策樹的算法。 所謂決策樹就是已知一些項特征的信息和項最終分類,求通過特征判斷項最終分類的遞歸決策樹。例如書中的例子是判斷一個動物是不是魚類,下面為一個數據集。

def createDataSet(): dataSet = [/ [1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] labels = ['no surfacing', 'fl書里舉的另一個例子是隱形眼鏡的問題。書里提供了繪圖引擎用于繪制決策樹。


算法大致流程是: 1.獲得數據集 2.找到一個好的特征劃分數據集為兩部分 3.遞歸這一過程直到數據集內全部為同種類 4.打印由上述劃分確定的樹狀結構


那么如何劃分數據集,也就是如何確定最佳劃分狀態?當然是信息量大的劃分。信息量可以用香農熵刻畫。 U(s)=?Σ(pi?logpi2),其中P(s=si)=pi,且{si}為s的一個劃分

具體嚴格的數學推導我覺得可以用性質刻畫定義(數學上很多函數都是先給出性質再解函數方程獲得唯一定義,于是干脆用性質代替定義)。 顯然U(s)有性質信息量等于各部分信息量之和:U(s)=ΣU(si) 并定義初值條件U(B(1,12))=1(bit) 那么,只需要求出U(s_i)即可,下面假設f(P(si))=U(si),只需要求出f(x)(0<x<1)表達式即可

先考慮一個簡單的問題,p=12k時,2k個狀態信息量之和為U=2kf(p)=k(bit),因為由定義1bit信息可以解決一個二分問題。那么f(p)=k2k=?p?logp2,當然這僅僅解決了1p=2k情形。

然后利用相同手法可以得到性質(函數方程)f(x)x+f(f)y=f(x+y)x+y且有初值條件f(12)=12和連續條件

這就是一個中規中規中矩的函數方程了,依次解決1p是整數,有理數情況,最后用連續條件(Cauchy法)推廣到實數即可。

可以得到信息量的表示方法,也就是香農熵,注意與熱力學熵推導過程一模一樣,除了常數不同。


決策樹代碼略


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 曰韩在线视频 | 日韩视频一区二区在线观看 | 久久精品视频69 | av电影在线免费 | 中文字幕一二三区芒果 | 精品黑人一区二区三区国语馆 | 久久亚洲春色中文字幕久久 | 九九午夜视频 | 欧美激情视频一区二区免费 | 国产精品久久久久国产精品三级 | 国产三级精品最新在线 | 成人在线视频在线观看 | 91网站链接| 特级黄色影院 | 亚洲精品a级 | 看黄在线| 91懂色| av噜噜噜噜 | 久久久久二区 | 久草手机视频在线观看 | 国产成人在线播放视频 | 欧美精品一区二区久久 | 精品久久久久久久久中文字幕 | 日本成人一二三区 | 国产精品一区视频 | 蜜桃网在线观看 | 黄色成年在线观看 | 欧美精品一区二区性色 | 欧美一区二区黄色 | 欧美一级特黄aaaaaaa什 | 欧美一级高清片在线 | 国产一级小视频 | www.91pron| 亚洲91网| 日本中文不卡视频 | 国产精品hd免费观看 | 国产一区二区欧美 | 色诱亚洲精品久久久久久 | 国产精品亚洲一区二区三区久久 | 久久久精品99 | 麻豆蜜桃在线观看 |