概率密度

概率函数

用函数的形式表示概率：

其中表示某一个事件发生的概率，则被称为概率函数。概率函数一次只能表示一个取值的概率，比如对于均匀分布事件来说，也就是说每一种情况发生的概率相等，比如抛硬币，扔骰子等，以扔骰子为例，1到6每一个点数朝上的概率为1/6，
用概率函数表示就是。并且有

概率分布

所谓概率分布就是随机变量的值与相应概率的对应关系，还是以扔骰子为例，

1朝上的概率为1/6，
2朝上的概率为1/6，
3朝上的概率为1/6，
4朝上的概率为1/6，
5朝上的概率为1/6，
6朝上的概率为1/6
无论以什么形式，只要将所有的随机变量与奇对应概率的对应关系表示出来得到的就是一个概率分布。

概率分布函数

同样，就是用函数的形式来表达概率分布
自创的公式理解含义即可

其含义是等于取小于的概率之和，故又称为累积概率函数。

概率密度函数

对一个随机事件来说，其每一种情况可能是有限个的，比如抛硬币、扔骰子，也有可能是无限个的，如一个人在一天种不同时刻的体重，将一个物体抛起其落到地面固定区域内某个点的坐标。
对于有限数量的事件，我们称为离散型随机事件，离散型随机事件不仅仅只能是有限个的其也有可能是无限个的，比如在一个数轴上，整数的取值便是离散的且是无限的，所以离散型随机事件被分为了有限个与无限个两种情况。
而连续型随机事件则在取值上是连续的，还是在一个数轴上，对于任意两个不想等的数，无论他们之间的差的绝对值有多小，他们之间永远都还有比小的那个数大且比大的那个数小的数，这类事件就是连续型随机事件，比如上面提到的体重问题，扔物体到特定区域问题。
有限个选择的离散型随机事件的概率很好算，比如扔骰子游戏，每个可能出现的概率都是1/6，而对于无限个选择的离散型随机事件以及连续型随机事件，这里讨论连续型随即事件，因为可选项的总数是无限的，而选择是单一的，那么某一个选择的概率就是

以扔东西为例，也就是说扔出去的物体落在每一个点的概率都是0，这似乎是反常识的。虽然落在某一个点的概率都是0，但是落在不同的点的概率是有相对大小的。比如在一个凹凸不平的地面上扔东西，那么落在不同的点上的概率明显是不一样的，
但是每一个点的概率仍然都是0，这是由极限的性质决定的，比如：

在这个例子中趋于的速度比趋于的速度要快，是比高阶的无穷小，虽然在趋于的时候与的极限都是但是趋于的速度要比快的多，是的阶无穷小
同样的，因为无穷小之间也有大小关系，那么无穷多个无穷小相加也就可能等于一个常数，在这里也就是1（概率总是不会超过1的）

为了能够描述这种在不同点上概率的相对大小引入了概率密度函数。
如果一个函数满足下面的条件，那么则称它可以是一个概率密度函数。

分布函数也可以使用概率密度函数来表示，其就是概率密度函数的变上限积分

而概率密度函数也可以表示成概率分布函数的导数

连续型随机事件在某一个点上的概率为0，但是在一个区间里概率是不为0的

极大似然法（Maximum Likelihood Estimate，MLE）

在随机事件的实验中，许多事件都有发生的概率，概率大的事件发生的可能就大。若只进行一次实验，事件A发生了，那么我们就认为概率A发生的概率比概率B,C,D..都大。
极大似然估计就是利用已知的样本结果，反推最有可能导致这种结果的参数值，这就是以点及面，一叶知秋。
极大似然法给出了一种给定观察数据来评估模型参数的方法，即：”模型已定，参数未知”。通过若干次实验，观察其结果，利用实验到的数据得到某个参数值能够使得样本出现的概率最大，则称为极大似然估计。和线性回归模型参数的求解在方法论上很相似啊
例如，有一个模型包含有未知参数（），还有一组含有N个样本的数据集D：

目标是求得一组使得数据集D出现的概率最大，定义似然函数（数据集D发生的概率，联合密度函数）：

求解这个似然函数就是求一组使得L的值最大，此时的这一组就是的最大似然估计值。

求这个函数的最大值，那肯定需要求导来判断函数的递增递减关系，这个函数是一个累乘的函数，求导过程中需要用到链式求导法则，当参数的项数增多的时候求解的复杂度也逐渐增加，所以直接求导不是一个好方法。
对L取对数将乘法变成加法求导就简单多了，得到对数似然函数

对进行求解

为什么能够取对数呢，因为取对数后不会影响似然函数的趋势
根据线性回归的经验，因为ln函数在数学上是一个凹函数，所以当其导数为0的时候就取得其极大值也就是最大值，所以只需要令每一个参数求偏导的值为0，求出相应的参数即可。

逻辑回归

对数几率函数

对于一个二分类问题来说，最终的结果只有两种可能，如果设其中一种可能的概率为称为正例，那么另外一种可能的概率即为称为反例。正例与反例的的比值称为几率（odds）

给几率函数取自然对数得到对数几率函数

在逻辑回归中假设对数几率函数与输入特征呈线性关系

对y进行求解得到

这就是sigmoid函数

逻辑回归

在逻辑回归问题中，我们假设两类数据通过一个线性函数进行分割，这个线性函数被称为决策边界

当一个点落在决策边界上时有，当一个点落在决策边界的右边时有，当一个点落在决策边界左边时有，
也就是说当时，越大，正例发生的概率越大，如果不考虑具体的概率而是以作为分界点，当大于0的时候则认为正例发生的概率为1，即100%发生
另外两种情况等同分析。整理一下即为：

那么现在需要一个函数能够将的值映射到的区间上去，这就是前面提到的sigmoid函数了，

因此逻辑回归的思路是，先拟合决策边界(不局限于线性，还可以是多项式)，再建立这个边界与分类的概率联系，从而得到了二分类情况下的概率。

求解参数

设

那么似然函数为

这个式子之所以这么写是因为当某一个样本为正例的时候的取值为，则的值为，那么计算的概率为，当为反例的时候得到的就是
取对数似然函数

根据前面对最大似然法的描述我们的目标就是求使得这个对数似然函数取最大值的与的值
不过我们这里的损失函数定义并不等于似然函数，而是对似然函数取平均数

梯度下降法

由线性回归的经验，梯度变化的方向就是上升最快的方向，与梯度变化的方向相反就是下降最快的方向，这里因为损失函数在数学上式一个凹函数，那么我们要求得就是梯度上升最快的方向。
而梯度则是对求偏导数。
$这个式子怎么推出来的这是个问题需要研究$

牛顿法求极值

牛顿法

牛顿法的思想是设法将一个非线性方程转化为线性方程进行求解，这里就需要用到泰勒展开式。
泰勒公式

若要求方程的根，我们可以令的一阶泰勒展开作为的近似值。取上的一点，在该点附近进行一阶泰勒展开。

得到线性方程

对该方程进行求解得到

设解出来的为,即：

此时得到的是的根的一个近似值，其并不等于的根，为了得到更加接近的值，
所以继续对再做一阶泰勒展开直到得到的与的差的绝对值满足阈值要求或者达到指定的迭代次数，此时认为求得的即为方程的近似根
从图形的角度理解牛顿法

首先取一点作为的根，然后求过的切线，该切线与轴存在交点，此时求得的值为：

这个式子就与前面的一阶泰勒展开的结果一样了。
然后再依次迭代直到满足要求即可求得的近似根。

Dayu Technology Co., LTD

机器学习-逻辑回归（Logistic-Regression）

概率密度

概率函数

概率分布

概率分布函数

概率密度函数

极大似然法（Maximum Likelihood Estimate，MLE）

逻辑回归

对数几率函数

逻辑回归

求解参数

梯度下降法

牛顿法求极值

牛顿法

求极值