概率密度
概率函数
用函数的形式表示概率:
其中
用概率函数表示就是
概率分布
所谓概率分布就是随机变量的值与相应概率的对应关系,还是以扔骰子为例,
- 1朝上的概率为1/6,
- 2朝上的概率为1/6,
- 3朝上的概率为1/6,
- 4朝上的概率为1/6,
- 5朝上的概率为1/6,
- 6朝上的概率为1/6
无论以什么形式,只要将所有的随机变量与奇对应概率的对应关系表示出来得到的就是一个概率分布。
概率分布函数
同样,就是用函数的形式来表达概率分布
自创的公式 理解含义即可
其含义是
概率密度函数
对一个随机事件来说,其每一种情况可能是有限个的,比如抛硬币、扔骰子,也有可能是无限个的,如一个人在一天种不同时刻的体重,将一个物体抛起其落到地面固定区域内某个点的坐标。
对于有限数量的事件,我们称为离散型随机事件,离散型随机事件不仅仅只能是有限个的其也有可能是无限个的,比如在一个数轴上,整数的取值便是离散的且是无限的,所以离散型随机事件被分为了有限个与无限个两种情况。
而连续型随机事件则在取值上是连续的,还是在一个数轴上,对于任意两个不想等的数,无论他们之间的差的绝对值有多小,他们之间永远都还有比小的那个数大 且比大的那个数小的数,这类事件就是连续型随机事件,比如上面提到的体重问题,扔物体到特定区域问题。
有限个选择的离散型随机事件的概率很好算,比如扔骰子游戏,每个可能出现的概率都是1/6,而对于无限个选择的离散型随机事件以及连续型随机事件,这里讨论连续型随即事件,因为可选项的总数是无限的,而选择是单一的,那么某一个选择的概率就是
以扔东西为例,也就是说扔出去的物体落在每一个点的概率都是0,这似乎是反常识的。虽然落在某一个点的概率都是0,但是落在不同的点的概率是有相对大小的。比如在一个凹凸不平的地面上扔东西,那么落在不同的点上的概率明显是不一样的,
但是每一个点的概率仍然都是0,这是由极限的性质决定的,比如:
在这个例子中
同样的,因为无穷小之间也有大小关系,那么无穷多个无穷小相加也就可能等于一个常数,在这里也就是1(概率总是不会超过1的)
为了能够描述这种在不同点上概率的相对大小引入了概率密度函数。
如果一个函数
分布函数也可以使用概率密度函数来表示,其就是概率密度函数的变上限积分
而概率密度函数也可以表示成概率分布函数的导数
连续型随机事件在某一个点上的概率为0,但是在一个区间里概率是不为0的
极大似然法(Maximum Likelihood Estimate,MLE)
在随机事件的实验中,许多事件都有发生的概率,概率大的事件发生的可能就大。若只进行一次实验,事件A发生了,那么我们就认为概率A发生的概率比概率B,C,D..都大。
极大似然估计就是利用已知的样本结果,反推最有可能导致这种结果的参数值,这就是以点及面,一叶知秋。
极大似然法给出了一种给定观察数据来评估模型参数的方法,即:”模型已定,参数未知”。通过若干次实验,观察其结果,利用实验到的数据得到某个参数值能够使得样本出现的概率最大,则称为极大似然估计。和线性回归模型参数的求解在方法论上很相似啊
例如,有一个模型包含有未知参数(
目标是求得一组
求解这个似然函数就是求一组
求这个函数的最大值,那肯定需要求导来判断函数的递增递减关系,这个函数是一个累乘的函数,求导过程中需要用到链式求导法则,当参数的项数增多的时候求解的复杂度也逐渐增加,所以直接求导不是一个好方法。
对L取对数将乘法变成加法求导就简单多了,得到对数似然函数
对
为什么能够取对数呢,因为取对数后不会影响似然函数的趋势
根据线性回归的经验,因为ln函数在数学上是一个凹函数,所以当其导数为0的时候就取得其极大值也就是最大值,所以只需要令每一个参数求偏导的值为0,求出相应的参数
逻辑回归
对数几率函数
对于一个二分类问题来说,最终的结果只有两种可能,如果设其中一种可能的概率为
给几率函数取自然对数得到对数几率函数
在逻辑回归中假设对数几率函数与输入特征
对y进行求解得到
这就是sigmoid函数
逻辑回归
在逻辑回归问题中,我们假设两类数据通过一个线性函数进行分割,这个线性函数被称为决策边界
当一个点落在决策边界上时有
也就是说当
另外两种情况等同分析。整理一下即为:
那么现在需要一个函数能够将sigmoid函数了,
因此逻辑回归的思路是,先拟合决策边界(不局限于线性,还可以是多项式),再建立这个边界与分类的概率联系,从而得到了二分类情况下的概率。
求解参数
设
那么似然函数为
这个式子之所以这么写是因为当某一个样本为正例的时候
取对数似然函数
根据前面对最大似然法的描述我们的目标就是求使得这个对数似然函数取最大值的
不过我们这里的损失函数定义并不等于似然函数,而是对似然函数取平均数
梯度下降法
由线性回归的经验,梯度变化的方向就是上升最快的方向,与梯度变化的方向相反就是下降最快的方向,这里因为损失函数
而梯度则是
牛顿法求极值
牛顿法
牛顿法的思想是设法将一个非线性方程
泰勒公式
若要求方程
得到线性方程
对该方程进行求解得到
设解出来的
此时得到的
所以继续对
从图形的角度理解牛顿法
首先取一点
这个式子就与前面的一阶泰勒展开的结果一样了。
然后再依次迭代直到满足要求即可求得