logo

逻辑回归与线性回归什么关系?

作者
Modified on
Reading time
7 分钟阅读:..评论:..

逻辑回归(LR,Logic Regression)

链接

逻辑回归是用来做分类算法的通常结合sigmoid函数将输出值域归一化到[0,1],从而通过设定阈值来进行输出结果的判断。

以最简单的一维逻辑回归为例,y=ax+b。如果是以sigmoid函数作为结果的归一化函数,则其**损失函数(log loss,对数似然函数)**为:

为什么要用log函数来处理误差(真实值-预测值)? 是为了便于对模型进行训练,根据误差值的大小,采用不同的惩罚力度: 当真实样本为1是,但h=0,那么log0=∞,这就对模型最大的惩罚力度;当h=1时,那么log1=0,相当于没有惩罚,也就是没有损失

log函数的求导:

如何进行多分类? 多分类问题可以在二分类的基础上进行。 例如,二分类之后,再次二分类,再次二分类······,如下图所示:

下面我们来看看逻辑回归的相关推导公式。

似然函数

似然函数:似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率: L(θ|x)=P(X=x|θ)。

P{y|x}表示的是“在x发生的条件下,y发生的概率为P”。 所以P{y=1|x}表示“在x发生或有意义的条件下,y=1的概率”。

在教科书中,似然常常被用作“概率”的同义词。 但是在统计学中,二者有截然不同的用法。概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值

例如, 对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少; 而对于“一枚硬币上抛十次”,我们则可以问,若已知“十次硬币正反次数都是五次”,则这枚硬币正反面对称的“似然”程度是多少。 以下面这个计算式子为例:

这说明,如果参数的取值变成0.6的话,结果观测到连续两次正面朝上的概率要比假设0.5时更大。也就是说,参数取成0.6 要比取成0.5 更有说服力,更为“合理”。 总之,似然函数的重要性不是它的具体取值,而是当参数变化时函数到底变小还是变大。对同一个似然函数,如果存在一个参数值,使得它的函数值达到最大的话,那么这个值就是最为“合理”的参数值 总之,最大似然估计的思想就是:如果我进行一次随机的观测,观测到球的质量为 x;那么我就认为随机变量X 的分布一定会使得X=x这一事件发生的概率最大。(所谓的后验概率)

如果还不理解什么是极大似然估计(MLE),看这个:链接+链接

极大似然函数的导数

参考:链接

重点:上式计算的是某一维度的w,要更新全部的w,就需要计算全部的输出(实际计算时,使用的是tensor)!因此,梯度(导数)其实就是输出-sigmoid函数的输出!(即yi-π(xi));

y=lnx的导数为y'=1/x e^x的导数任然是e^x 在对wk求导数的时候,其他的参数导数为0,只保留xik那一项

logit模型 Logit公式模型的由来:知乎链接

概率probability和几率odd的意思区别很大: 前者是某事件发生的次数,除以总次数 后者是某事件发生的次数除以其他事件发生的次数(或是某事件发生的概率除以不发生的概率)

梯度上升与梯度下降 链接 这两者分别用在不同的地方。 前者是用在求最小误差时,必须使用减去梯度

而后者必须用在求最大似然估计函数,必须使用加法

代码实现

代码链接

线性回归

拟合输出到输入的映射关系 链接

利用大量的样本

通过有监督的学习,学习到由x到y的映射f,利用该映射关系对未知的数据进行预估,因为y为连续值,所以是回归问题。

  • 单变量问题

  • 多变量情况下:二维空间的直线,转换为高维空间的平面。以三维为例:

机器学习是数据驱动的算法,数据驱动=数据+模型,模型就是输入到输出的映射关系。

假设线性回归的的模型为:

写成向量形式则为:

最小二乘法(MSE)

那么如何衡量这个模型的好坏,即拟合程度? ——利用损失函数来衡量,损失函数度量预测值和标准答案的偏差,不同的参数有不同的偏差,所以要通过最小化损失函数,也就是最小化偏差来得到最好的参数。 经典的损失函数为最小二乘法

即对每一个样本进行预测输出和实际输出的预测,而后进行平均 注意,除以2是为了求导方便,往后看

最小二乘法的导数需要采用偏导数的方式,对每一个θ求偏导数,而后结合梯度下降算法(因为上面的损失函数是一个凹函数,求极小值):

正则化

为了防止过拟合,可以采用正则化的方式控制参数的变化幅度,对变化大的参数进行惩罚,并限制参数的搜索空间。

过拟合是给参数的自由空间太大了,可以通过简单的方式让参数变化太快,并未学习到底层的规律,模型抖动太大,很不稳定,variance变大,对新数据没有泛化能力

如果对最小二乘法的损失函数加上正则化项,则结果为:

λ:对误差的惩罚程度,λ 越大对误差的惩罚越大,泛化能力好λ 越小,对误差的惩罚越小,对误差的容忍度越大,容易出现过拟合。

另外,θi^2是所采用的正则化方式,常用的正则化有两种,L1正则化和L2正则化:

有关L1/L2正则化的详细推导,直接参考链接

逻辑回归与线性回归的关系

  • 虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,即先把特征线性求和,然后使用sigmoid函数来预测
  • 经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数。
  • 线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑 回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。