0%

机器学习-贝叶斯分类器

贝叶斯决策论

假设有种肯能的类别标记,即表示将实际类别为的样本分类为所产生的损失。
基于后验概率可以产生一个将样本分类为的期望损失,即在样本上的条件风险。

这个公式首先是得到x为的概率然后乘以将分类为类型的损失,因为有种类别,所以进行累加得到将分类错误将会产生的损失称为期望损失。
这里有一个问题需要澄清知道只有在分类错误的时候才会产生实际的损失那么如果将分类为就不会产生损失,按照这个理论是不是只需要累加次就可以了
实际上这里确是加的次,这里就体现到这个损失的作用了,当分类正确的时候设置损失为即可。
我们分类的目标是使得整体样本在分类完成后整体的期望损失最小化,即目标是:

分类的结果受对的分类方法影响,设分类准测,即通过模型进行分类,那么分类的目标就是求使得总体风险最小化的

这里是一个永远也达不到的理想值。这里的思想是既然我们要使整体风险最小化,那么只需要求一个使得针对每一个样本都取得最小的期望损失即可,
稍微一想这就是不可能的,当对某一个样本求得最佳的后,继续对第二个样本求最佳的使得期望损失最小,那么这个过程中对参数的调整势必导致此时的
不再是针对最优的了,所以这里的是一个理论上的最优值,我们最终求得的只能无限的逼近而不会等于。
这个被称为贝叶斯最优分类器,与之对应的总体风险称为贝叶斯风险。
我们将误判损失写为

即 当分类正确的时候损失为,而分类错误是损失为

也就是说条件风险等于减去将分类为即分类正确的概率,所以分类目标由最小化分类错误期望损失变成了最大化分类正确率,即:

被称为后验概率,一般来说后验概率不好确定,所以我们根据贝叶斯公式对问题进行转化。

表示选中的概率是一个与类别无关的值,所以我们可以忽略这个值得到。

表示类别的概率,我们可以通过各类样本出现的频率来进行估计,即类别占样本总数的比例。
表示类别中出现的概率,这个值是的所有属性的联合概率,即我们要将样本每一个属性值出现的概率进行联合求得。
假设每一个样本由d个属性且每个属性都是二值的,那么可能的组合就是,随着属性种类以及属性的取值增多这个结果的增长是极快的。
而我们的样本总数往往不足以赶上这个数量,于是乎用频率来估计概率的方法就不适用了。

极大似然估计

极大似然估计是基于一个假设的,即类条件概率是具有某种确定的分布形式,可以用一个函数进行表达。那么就可以基于训练样本对概率分布的参数进行估计。关于类别的条件概率,假设其具有某种确定的形式并被某一个参数向量
唯一确定,那么我们的任务就是利用训练集估计参数,于是可以将条件概率记为
表示训练集类样本的集合,假设这些样本独立同分布,则参数对于数据集的似然为

这个似然表示在确定参数的条件下取得数据集的可能性,所以其值是通过在确定的情况下取得的概率的累乘求得的。
根据式(6)以及式(8)我们的任务是最大化,又因为确定那么我们的目标也就是求使得被选出来的可能性最大的记作
式子(9)中的连乘是一堆小于1的小数的连乘,最终的取值非常小不方便阅读以及比较,所以往往采用对数似然的方法即:

上面式子里是将对数运算的乘法变成加法,方便计算。
此时进行对参数进行极大似然估计

还记得之前的假设吗?假设类条件概率服从某一种概率分布,不妨认为这个概率分布为正态分布,是一个向量,所以这不仅仅是正态分布还是一个多元正态分布。
那么此时的取值就是样本均值以及协方差了。即
对于多元正态分布有

取对数

所以总对数似然为:

现在要最大化 ,即对 分别求偏导。
固定 ,对 求导:

令导数为0:


求导。
对数似然中关于 的项:

对矩阵求导得:

最终可得:

令导数为0,两边乘 得:



需注意的是,这种参数化的方法虽能使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。
在现实应用中,欲做出能较好地接近在真实分布的假设,往往需在一定程度上利用关于应用任务本身的经验知识,否则若仅凭“猜测”来假设概率分布形式,很可能产生误导性的结果。

朴素贝叶斯分类器

基于贝叶斯公式来估计后验概率主要的困难在于类条件概率的估计,难以从有限的训练样本中直接估计得出。为了避开这个障碍,朴素贝叶斯分类器采用了属性条件独立性假设。
对已知类别假设所有属性独立。基于这个假设将贝叶斯公式重写:

所以得到朴素贝叶斯分类器表达式

关于的估计上一节介绍过了
关于的估计对于连续参数就是上一节的极大似然发介绍的方法 ,对于离散参数则使用中第i个属性的样本组成的集合,然后再将所有属性的估计结果相乘。

半朴素贝叶斯分类器

Buy me a coffee.

欢迎关注我的其它发布渠道