欢迎光临
一起学习,一起进步

朴素贝叶斯

模型为条件概率模型,即目的为学习一个条件概率分布(和一个先验分布)。
输入:实例的特征向量
输出:多值类标
模型假设:对于任一实例,在已知类标时,各特征相互独立。这其实是将指数级参数个数((2^n))的联合分布降为了线性参数个数((2n+1))的条件概率与先验之积。
P(ck|x1,x2,…,xn)=P(x1,…,xn|ck)⋅P(ck)P(x1,x2,…,xn)(6)
由于分母是平凡的,对于相同实例不同类标都是相同的。因此可以略去。分母中的条件概率因为模型假设,可以写为:
P(x1,…,xn|ck)=∏i=1nP(xi|ck)(7)
策略是期望风险最小化,即分类正误的期望,可等价于后验概率最小化(证明略)。也即只用找到后验概率最大的类标赋给实例即可。这里模型未知参数为(P(x_i|c_k))和(P(c_k)),为了估计其值,使用的是极大似然估计,通俗的说就是用训练样本中对应项出现的频率来作为估计的概率(因为极大似然估计和强假设,因此被叫做朴素贝叶斯,或者傻瓜贝叶斯)。
所有涉及到共现矩阵,也即观测的频率,以及概率的算法,都需要考虑概率值为0的情况,或者分母为0的情况。朴素贝叶斯加入拉普拉斯平滑使避免出现0。
概率的计算实际上就是大数定理,频率替代概率的做法。

赞(0) 打赏
未经允许不得转载:openSL » 朴素贝叶斯

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏