使用ID3生成决策树
ID3算法是一种贪心算法,用来构造决策树。ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型 例如我
ID3算法是一种贪心算法,用来构造决策树。ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型 例如我
K-近临算法,有叫KNN算法,机器学习常用的一种算法,用于对多个维度的信息进行归类,打标签, 指纹识别,手写数字识别,人脸识别等。算法的特点是简单易懂, 适用数据范围是数值型和标称型,缺点是效率不高。 基本思路如下: 遍历样本中的每一条信息,并计算与当前待分类信息的距离。这里利用的是欧氏距离公式。 按照距离递增次序排序 选取与当前点距离最小的K个点 确定前K个点所在类别的出现频率 返回前N个点出