欢迎光临
一起学习,一起进步

机器学习 第3页

决策树类算法理论-信息增益、信息增益比、基尼指数-openSL

决策树类算法理论-信息增益、信息增益比、基尼指数

admin@opensl.tk阅读(65)评论(0)赞(0)

熵: 如果一件事有k种可的结果,每种结果的概率为 pi(i=1…k) 该事情的信息量: 熵越大,随机变量的不确定性越大。 信息增益: 特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(...

决策树 decision tree-openSL

决策树 decision tree

admin@opensl.tk阅读(17)评论(0)赞(0)

决策树是一种容易理解的分类算法,它可以认为是if-then规则的一个集合。主要的优点是模型具有可读性,且分类速度较快,不用进行过多的迭代训练之类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。比较常用到的算法有ID3、C...

基尼指数-openSL

基尼指数

admin@opensl.tk阅读(17)评论(0)赞(0)

GINI指数 1、是一种不等性度量; 2、通常用来度量收入不平衡,可以用来度量任何不均匀分布; 3、是介于0~1之间的数,0-完全相等,1-完全不相等; 4、总体内包含的类别越杂乱,GINI指数就越大(跟熵的概念很相似) 基尼不纯度指标 在...

朴素贝叶斯

admin@opensl.tk阅读(24)评论(0)赞(0)

模型为条件概率模型,即目的为学习一个条件概率分布(和一个先验分布)。 输入:实例的特征向量 输出:多值类标 模型假设:对于任一实例,在已知类标时,各特征相互独立。这其实是将指数级参数个数((2^n))的联合分布降为了线性参数个数((2n+1...

KNN算法

admin@opensl.tk阅读(56)评论(0)赞(0)

根据近邻来估计实例点的属性。有两种方式,一种是Top-K最近邻,一种是根据距离确定近邻。前者算最近的k个邻居,而后者计算离实例的距离在一定范围以内的所有邻居。分别适用于分布密集和分布稀疏的情况。 KNN算法最大的问题在于计算pair之间的距...

感知机拓展-- 非线性可分数据问题-openSL

感知机拓展– 非线性可分数据问题

admin@opensl.tk阅读(34)评论(0)赞(0)

感知机算法中的优化方法的几何解释 本部分参考台湾大学林轩田教授机器学习基石课程—PLA部分 PLA算法只有在出现错误分类的时候,才去调整w和b的值,使得错误分类减少。假设我们遇到的数据点(xn,yn)是我们第t次分类错误,那么就有因为是二分...

感知机拓展-- 神经网络-openSL

感知机拓展– 神经网络

admin@opensl.tk阅读(27)评论(0)赞(0)

神经元 神经元是神经网络的基本单元,接受多个神经元传递过来的输入信号,然后通过激活函数计算输出信号。 从图里可以看到每个输入信号都有一个权重w,这个权重是动态改变的。我们平时所说的训练神经网络主要是训练(修正)这个权重w。 同时每个神经元有...

数据结构:kd树原理及实现-openSL

数据结构:kd树原理及实现

admin@opensl.tk阅读(44)评论(0)赞(0)

k-d tree即k-dimensional tree,常用来作空间划分及近邻搜索,是二叉空间划分树的一个特例。通常,对于维度为k,数据点数为N的数据集,k-d tree适用于N≫2k的情形。 1)k-d tree算法原理 k-d tree...

感知机-openSL

感知机

admin@opensl.tk阅读(32)评论(0)赞(0)

感知机 这是一个线性的模型,意在用一条线(超平面)对训练数据进行二分。 输入:训练数据的特征向量 输出:二值类标 前提是数据严格线性可分,即存在一条线(超平面)能将正负例完美分开。而学习的目的即为学出这个分离线(超平面)。 学习的策略为经验...