朴素贝叶斯(naive Bayes)是基于Bayes定理与特征条件独立假设的分类方法。基于特征条件独立假设学习输入输出的联合概率分布,然后基于此模型对给定输入x利用Bayes定理求出后验概率最大的输出y。
朴素贝叶斯法的学习与分类
基本方法
朴素贝叶斯法通过训练集学习联合概率分布$P(X,Y)$——学习先验概率分布和条件概率分布:
条件概率分布有指数级的参数,因此朴素贝叶斯法做了条件独立性假设(强假设):
朴素贝叶斯法属于生成模型,分类时将后验概率最大的类作为输出
则朴素贝叶斯分类器表示为:
参数估计
极大似然估计
用极大似然估计学习$P(Y=c_k)$和$P(X^{(j)=x^{(j)}}|Y=c_k)$
学习算法
- 计算先验概率与条件概率
- 计算
- 确定y
贝叶斯估计
极大似然估计可能会出现概率为0的情况,影响后验概率计算,采用贝叶斯估计解决问题:
$S_j$为第j个特征可能取值的数目,$\lambda=1$时为拉普拉斯平滑。
先验概率的贝叶斯估计为:
$K$为类数。