当前位置: 首页 > news >正文

免费商品交易网站代码下载徐州网站快速优化排名

免费商品交易网站代码下载,徐州网站快速优化排名,网络营销计划包括哪七个步骤,沈阳建信建设工程有限公司位置[论文地址] [代码] [ICLR 22] 阅前须知#xff1a;本博文可能有描述不准确/过度简化/出错的地方#xff0c;仅供参考。 网络结构 其中#xff0c;原有模型的参数是直接冻结的#xff0c;可训练参数只有额外引入的LoRA参数(由nn.Parameter实现)。 模型微调的本质 记网络原…[论文地址] [代码] [ICLR 22] 阅前须知本博文可能有描述不准确/过度简化/出错的地方仅供参考。 网络结构 其中原有模型的参数是直接冻结的可训练参数只有额外引入的LoRA参数(由nn.Parameter实现)。 模型微调的本质 记网络原有预训练参数为 W 0 ∈ R d × k W_0 \in R^{d \times k} W0​∈Rd×k。在新的下游任务微调后参数变为 W ∈ R d × k W \in R^{d \times k} W∈Rd×k。可以发现参数的变化量 Δ W W − W 0 \Delta W W - W_0 ΔWW−W0​。换而言之有 W W 0 Δ W WW_0\Delta W WW0​ΔW 也就是说对模型微调其实可以将原有参数 W 0 W_0 W0​直接给冻结了只学这个变化量 Δ W W − W 0 \Delta W W - W_0 ΔWW−W0​即可。 为什么要进行低秩分解 LoRA文中指出现有的预训练模型通常是过参数化的(the learned over-parametrized models in fact reside on a low intrinsic dimension)在对这些模型进行微调时参数的更新主要在低维子空间中。换而言之很多高维子空间的参数在微调前后根本就没动。基于这一点微调所学的 Δ W \Delta W ΔW其实也就不需要那么高的维度(秩)我们可以将其降低到一个更低的维度进行优化。当然从这里也可以注意到如果参数的更新也会大量发生在高维子空间中此时进行低秩分解会遗漏信息导致LoRA失效。 如何理解低维子空间/高维子空间特征 这里笔者给出一个可能不正确的类比。比如在计算机视觉中无论是做分割检测医学等各种不同下游任务都可以基于ImageNet上的预训练模型(如ResNet)进行微调。预训练模型中的纹理边缘轮廓等特征一般是无论做哪种任务都需要的那么这种任务无关特征就类似于上面所提到的高维子空间特征在下游任务微调时基本上不发生变化。反之对于一些下游任务中自有的先验特征(比如特有的光照条件目标位置分布)则可以被视为上面所提到的低维子空间特征。模型想要刷点到SOTA则必须对这些任务相关特征进行有效的利用。 以数学形式描述低秩分解 LoRA将参数变化量矩阵 Δ W \Delta W ΔW分解成了两个更低秩的矩阵相乘有 Δ W B A \Delta WBA ΔWBA其中 B ∈ R d × r B \in R^{d \times r} B∈Rd×r A ∈ R r × k A \in R^{r \times k} A∈Rr×k。 为什么矩阵B被初始化为0而矩阵A正常高斯初始化 这里讨论另外两种设置的缺点 如果BA全都初始化为0那么缺点与深度网络全0初始化一样很容易导致梯度消失(因为此时初始所有神经元的功能都是等价的)。如果BA全部高斯初始化那么在网络训练刚开始就会有概率为得到一个过大的偏移值 Δ W \Delta W ΔW从而引入太多噪声导致难以收敛。 因此一部分初始为0一部分正常初始化是为了在训练开始时维持网络的原有输出(初始偏移为0)但同时也保证在真正开始学习后能够更好的收敛。 低秩分解到底有多低 哪怕降到8也是高度可用的甚至能降到1 注意这里r64时性能甚至降低了。按照先前的结论来解释这是因为参数的更新大多在低秩空间内使用高秩矩阵允许对高维空间进行更新反而可能会导致额外的非必要参数变化(引入了噪声)。 LoRA最终被插入在网络的哪些地方 只加在了Self Attention层的QKVO矩阵上其余部分诸如MLP等位置则没有添加。当然后续也有一些实验[1]表明在其他任务中只添加在Q和K上会更好如下图所示。因此这也可以算实际应用LoRA中一个可调节的点了。 LoRA与Adapter的区别 其实从结构上讲更早出现的Adapter也是引入了少量可训练参数并且也具有先降维再升维的BottleNeck型结构如下所示 主要的区别个人认为有如下几点 插入位置。LoRA是以残差连接的形式并联在Transformer的Q,K,V,O矩阵上而Adapter是插入在Feed-forward Layer后面。推理延迟。LoRA在训练完后其参数可以与原有预训练模型直接合并变回单分支结构不会引入额外的延迟而Adapter由于引入了额外的串联网络层因此会带来额外的延迟。参数存储。使用LoRA进行微调在训练完毕后只需要保存LoRA本身的参数而使用Adapter则要保存整个原有模型的参数。 参考文献 [1] Customized Segment Anything Model for Medical Image Segmentation
http://www.huolong8.cn/news/140471/

相关文章:

  • 公众号建设成小说网站电商网站开发技术难点
  • 网站seo排名微信号注册官方网站
  • 专业开发网站企业网页设计作业动漫网页
  • 公司网站的实例睢宁微网站开发
  • 做视频网站需要什么资质百度收录接口
  • 麻辣烫配方教授网站怎么做建设部网站投诉核查企业名单
  • 网站恶意刷wordpress 文章行距
  • 钉钉网站建设服务协议提供佛山顺德网站设计
  • 做网站都需要考虑哪些ui私活20个页面以上多少钱
  • 基于php+mysql的网站开发一学一做看视频网站有哪些
  • 如何构建一个电子商务网站现在比较流行的软件开发模型
  • 在别人网站做的友链_为何百度检测带后缀cnindex.asp低版本微信ios安装包
  • 建设网站合同手机做wordpress
  • 建设网站前准备资料自动的网站制作
  • 松江网站建设平台每天能赚30 50元的
  • 河南便宜网站建设价格低互联网营销行业
  • 视频网站源码下载ps软件下载手机版
  • 网站代运营深圳百度关键字优化
  • 邢台wap网站建设费用做网站个人备案
  • 厦门建设网站索牛网站建设
  • 做网站首页的表格的代码温州seo推广公司
  • 网站正在建设中a _手机版做骗子曝光网站是否违法
  • 浙江虎霸建设机械有限公司网站贵州省城乡建设部官方网站
  • 烟台做网站打电话话术为什么什么网站都在维护
  • 不再更新的网站导购类网站怎么做
  • 秦皇岛网站推广排名处室网站建设思路
  • 厦门市建设局网站规划标准北京网站开发需要多少钱
  • 镇江网站定制2022中国企业500强
  • 做ppt好的模板下载网站公众号做视频网站
  • 做一个介绍网站多少钱dw怎么做连接到另外一个网站