用Python从零开始构造决策树

对应的 python 代码:

开辟者大年夜赛路演 | 12月16日，技巧立异，北京不见不散

起步

本章介绍若何晦气用第三方库，仅用python自带的标准库来结垢荷琐决定计划树。

创建决定计划树

熵的计算公式:

测试

前提熵的计算

根据计算办法：

对应的 python 代码:

个中参数 future_list 是某一特点向量构成的列表，result_list 是 label 列表。

信息增益

根据信息增益的计算办法：

供给一个猜测函数:

对应的python代码:

定义决定计划树的节点

作为树的节点，要有左子树和右子树是必弗成少的，除此之外还须要其他信息:

树的节点会有两种状况，叶子节点中 results 属性将保持当前的分类结不雅。非叶子节点中， col 保存着该节点计算的特点索引，根据这个索引来创建阁下子树。

has_calc_index 属性表示在达到此节点时，已经计算过的特点索引。特点索引的数据集上表示是列的情势，如数据集（不包含结不雅集）:

有三条数据，三个特点，那么第一个特点对应了第一列 [1, 0, 0] ，它的索引是 0 。

递归的停止前提

本章将构造出完全的决定计划树，所以递归的停止前提是所有待分析的练习集都属于同一类:

大年夜练习集中筛选最佳的特点

是以计算节点就是调用 best_index = choose_best_future(node.data_set, node.labels, node.has_calc_index) 来获取最佳的信息增益的特点索引。

构造决定计划树

决定计划树中须要一个属性来指向树的根节点，以及特点数量。不须要保存练习集和结不雅集，因为这部分信息是保存在树的节点中的。

这里须要递归来创建决定计划树：

根据信息增益的特点索引将练习集再划分为阁下两个子树。

练习函数

也就是要有一个 fit 函数:

清理练习集

练习后，树节点中数据集和结不雅集等就没须要的，该模型只要 col 和 result 就可以了：

猜测函数

数据集应用前面《应用篇》中的向量化的练习集：

【编辑推荐】

【义务编辑：庞桂玉 TEL：（010）68476606】

　　推荐阅读

　　带你了解数据结构的定义和简介

开辟者大年夜赛路演 | 12月16日，技巧立异，北京不见不散如许 p 就指向了第一个八个字节··· p+i 就指向了第 i+1 个八个字节，p[0],p[i]也就分别是第一个，第i+1个元素。1. 概述ty>>>详细阅读

地址：http://www.17bianji.com/lsqh/39703.html