做网站那个好,wordpress百度经验,湖南做网站 e磐石网络,电子图书网站建设上一篇文章#xff08;第六章#xff09;主要介绍了最大熵模型#xff0c;并从中推导出逻辑斯谛回归#xff0c;感觉意犹未尽。在复习了CS229 Lecture note之后#xff0c;我决定重新整理思路#xff1a;从广义线性模型的角度来看逻辑斯谛回归。最后#xff0c;基于样本…上一篇文章第六章主要介绍了最大熵模型并从中推导出逻辑斯谛回归感觉意犹未尽。在复习了CS229 Lecture note之后我决定重新整理思路从广义线性模型的角度来看逻辑斯谛回归。最后基于样本特征 X 分布的假设生成和逻辑斯谛回归一样的模型。一、背景上图参考了b站“机器学习白板推导系列”https://www.bilibili.com/video/BV1aE411o7qd?p39实际上逻辑斯谛回归是广义线性模型的一种而广义线性模型与最大熵模型都是源于指数族分布。因此直接从最大熵模型推出逻辑斯谛回归确实有些不太自然的地方具体在“特征函数”的取值上违背了原来特征函数的取值假设但从广义线性模型出发就没有违和感了。二、指数族分布什么是指数族分布呢它是一个分布家族包括高斯分布、伯努利分布、二项分布、泊松分布等常见分布。关于“指数族分布”可以参考这篇文章https://zhuanlan.zhihu.com/p/89155678是根据“白板推导”整理而成的笔记。1一般形式指数族分布具有以下一般形式此处使用CS229的符号规则其中 是分布对应的随机变量 称为“自然参数”一般为向量。 是 y的充分统计量就是足以对表随机变量 y 主要特征的值例如样本均值、样本方差等。 一般表示两个向量的内积 与 有相同的维度。如果 为标量则 也为标量 表示两个数的乘积。 称为 log 配分函数它主要起到归一化的作用使得密度函数积分结果为1。2高斯分布为了简化计算假设高斯分布的方差为1它的指数族形式如下3伯努利分布它的指数族形式如下三、广义线性模型广义线性模型用来解决“给定 预测 ”的问题它基于以下三个假设 经常假设 假设一 认为 y 是服从指数族分布的。由于广义线性模型既可用于“回归”也可用于“分类”因此不同分布将生成不同模型。回归对应连续型分布分类对应离散型分布。假设二 就是需要“学习”的模型它等于 。为什么 就是给定数据x的条件下预测 y 的值它的数学期望不就是预测模型本身吗假设三“自然参数”是样本x的线性组合因此它是一个“线性模型”。见证奇迹的时刻看如何通过三个假设得到不同的线性模型1线性回归线性回归对应高斯分布 。此假设的合理性在于如果 y h(x) 为线性模型实际值与预测值的误差是由随机扰动引起的这部分误差是服从高斯分布的。根据假设二线性模型有如下形式线性回归模型的输出2Logistic Regression逻辑斯谛回归对应伯努利分布 逻辑斯谛回归的输出并不是分类结果而是一个概率 p(y1 | x)。当此概率大于0.5时 y1否则y0。因此它等于伯努利分布的概率参数。逻辑斯谛回归的分类结果 3Softmax RegressionSoftmax 与 多项逻辑斯谛回归是等价的下面将证明这一点它被用于解决多分类问题。由于涉及多分类不能简单地假设此时 与 都是向量。下面将展示这个较为复杂的推导过程设 用分布参数 表示 y 属于第 i 分类的概率当 时 当 时 由此可见上述 k 个参数 并非完全独立的它们的和等于1。令 一个 k-1 维的向量 , ... , 其中 表示向量 的 第 i 个分量。接下来是关键一步由于 可用“示性函数”表示由此得到 softmax 的概率质量函数如果把 展开分别合并到前 k-1 项里面可得 以上就是 softmax 的指数族形式。最后寻找“自然参数” 与 “分布参数” 的关系由于 , 那么 即 把上式左右两边累加起来得到 即 将“即”字后面的两个式子整理一下得到 ... 式1 但请注意 只有 k-1 个分量如果令 使得 ... 式2刚好满足 。根据假设三 其中 将其代入 式1、式2得到当 时 ... 式3当 时 ... 式4上述式3、式4就是 Softmax Regression 模型与多项逻辑斯谛回归模型一样。 中概率最大的那一项决定了 y 的取值。四、线性从何而来如果选择一个公式代表“逻辑斯谛回归”该选择哪个公式呢我认为是 或者 其中 也就是“对数几率”等于 x 的线性函数。从这个公式出发可以推导出逻辑斯谛回归的全部公式。如果把右侧的线性模型记作 s上式可以表示为 即 由此可见 p 是 s 的 sigmoid 函数。sigmoid 的作用是将 映射至 于是分类结果 s 正数代表正类负数代表负类被转换为一个处于0到1之间的概率值 p。回顾感知机模型线性模型通过模型的符号标记分类结果逻辑斯谛回归只是进一步把符号转换为概率值。如果把线性模型替换为其他非线性模型只要用正数、负数表示不同分类将其代入 sigmoid 函数仍可得到不同的概率输出。最后一个问题为什么选择线性模型 呢或者说为什么 仅仅是因为线性模型最简单吗此处试图从另一个角度看待这个问题。根据贝叶斯定理其中 是由训练集样本决定的常数设为 假设服从高斯分布且在Y的不同取值情况下方差相同或者简单设为1但均值不同。于是有上式等号右侧为 x 与 参数 的线性模型。在更为一般的情况下如果将 换成其他“指数族分布”结果仍然是线性模型。请参阅https://tech.meituan.com/2015/05/08/intro-to-logistic-regression.html延伸阅读部分。