麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 學院 > 開發(fā)設(shè)計 > 正文

Decision Tree

2019-11-14 08:56:11
字體:
供稿:網(wǎng)友

Decision Tree Classifier

Decision Tree Classifier

from sklearn.tree import DecisionTreeClassifier as DTCy = df.targetX = df.featuresdtc = DTC(criterion='entropy', mim_samples_slit=20, random_state=90)dtc.fit(X, y)

official example

from sklearn.datasets import load_irisfrom sklearn.model_selection import cross_val_scorefrom sklearn.tree import DecisionTreeClassifierclf = DecisionTreeClassifier(random_state=0)iris = load_iris()cross_val_score(clf, iris.data, iris.target, cv=10)

Visualizing the tree

article

in advance you should install Graphviz

from sklearn.tree import export_graphvizdef visualize_tree(tree, feature_names): """Create tree png using graphviz. Args ---- tree -- scikit-learn DecsisionTree. feature_names -- list of feature names. usage --- features = X.columns visualize_tree(dtc, features) """ with open("dt.dot", 'w') as f: export_graphviz(tree, out_file=f, feature_names=feature_names) #generate png command = ["dot", "-Tpng", "dt.dot", "-o", "dt.png"] #or pdf #command = ["dot", "-Tpdf", "dt.dot", "-o", "dt.pdf"] try: subPRocess.check_call(command) except: exit("Could not run dot, ie graphviz, to " "produce visualization") #open image from PIL import Image im = Image.open("od.png") im.show()

Decision Tree Regression

example

DecisionTreeRegressor

Decision Tree Regression with AdaBoost

from sklearn.tree import DecisionTreeRegressorregr = DecisionTreeRegressor(max_depth=2)regr.fit(X, y)y_predict = regr_1.predict(X_test)

ID3 (Iterative Dichotomiser)

屬性集合A={a1,a2,…,am} 如{身高,體重,是否近視}

樣本集合D={(x1;y1),(x2;y2),…,(xm;ym)} 如{(身高175,體重63,近視1;不符合應(yīng)聘要求0),…}

根據(jù)某屬性a的劃分D1,D2,…

informathin entropy

Ent(D)=?∑k=1|m|pklog2pk

pk是每類樣本占當前樣本集合D中的比例

Ent越小純度越高

決策樹根節(jié)點的D包含所有樣本,如果y只有0,1兩個取值,正3個負2個,則 Ent(D)=?(25log225+35log235)

information gain

根據(jù)某屬性a劃分得到Dv(v=1,2,…,V) Gain(D,a)=Ent(D)?∑v=1V|Dv||D|Ent(Dv)

Gain越大劃分得到的純度提升越高

example

假設(shè)有A = {行為習慣,飲食偏好, 體育運動}三個屬性,判斷是否會得某種病。

總共6個得病9個不得

行為習慣 得病 不得病 得病占該習慣總數(shù)比例 該行為習慣占總?cè)藬?shù)的比例
抽煙 1 5 1/6 6/15
喝酒 2 3 2/5 5/15
吸毒 3 1 3/4 4/15

Ent(D)=?(615log265+95log295) 根據(jù)行為習慣劃分出抽煙,喝酒,吸毒三個子集D1,D2,D3 Ent(D1)=?(16log216+56log256)Ent(D2),Ent(D3)同理

Gain(D,行為習慣)=Ent(D)?(615Ent(D1)+515Ent(D2)+415Ent(D3))

之后再算Gain(D,飲食偏好)

假設(shè)Gain(D,行為習慣)>Gain(D,飲食偏好)>Gain(D,體育運動)

那么分別取D1,D2,D3為新的D,剩下的屬性為A={飲食偏好,體育運動} ,進行迭代算Gain(D,飲食偏好)Gain(D,體育運動)

C4.5

基于增益率(gain ratio)減少ID3偏好可取數(shù)目多帶來的影響。

剪枝

預(yù)剪枝

劃分訓練集和測試集。

如果使用某一劃分,算出驗證集精度。

如果停止劃分采用樣本中占多數(shù)的結(jié)果作為該分支結(jié)果,計算精度。

如果停止劃分精度反而更高則停止劃分。

后剪枝

從完整的決策樹的倒數(shù)第二個節(jié)點開始。

如果剪掉倒數(shù)第一個節(jié)點精度提高則剪掉。

依次往上類推

連續(xù)數(shù)據(jù)

采用二分法劃分,既劃分成≤t>t, t取遍兩個相鄰離散數(shù)據(jù)的平均值然后找出信息熵增Gain最小的。

缺失值處理

先算出對該屬性而言無缺失值的Entropy, 然后計算出對該屬性而言無缺失值的Gain。

然后乘上無缺失值樣本所占比例ρ最終的Gain。

多變量決策樹(multivariate decision tree)

使用斜線來劃分多變量。

既用多變量的線性組合W?Attribtes≤t? 來劃分。


發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 99国产精成人午夜视频一区二区 | 成年免费视频黄网站在线观看 | 日本精品久久久一区二区三区 | 欧美一级黄 | gogo全球大胆高清人露出91 | 久草在线观看福利视频 | 黄色网址免费入口 | 精品国产乱码久久久久久丨区2区 | 国产影院在线观看 | 欧美高清一级片 | 国产一区视频免费观看 | 精品国产一区二区三区四区在线 | 哪里可以看免费的av | 欧美成人精品一区二区男人小说 | 国产成人自拍小视频 | 欧美在线小视频 | 国产黄色免费网站 | 污在线观看网站 | 亚洲成人福利电影 | 毛片在线播放视频 | 黄色大片www| 免费专区 - 91爱爱 | 久久网站热最新地址4 | 午夜精品区 | 国产人成精品一区二区三 | 懂色av懂色aⅴ精彩av | av在线看网站 | 亚洲欧美日韩久久精品第一区 | 午夜精品久久久久久中宇 | 国产一级二级视频 | 2019天天干夜夜操 | 成年人高清视频在线观看 | 久草在线资源福利站 | 毛片大全在线观看 | 午夜视频在线 | 看片一区二区三区 | 免费观看一区二区三区 | 亚洲成人精品视频 | 国产成人综合在线视频 | 亚洲一区二区 | 精品一区二区在线播放 |