当前位置: 首页 > news >正文

网站广告怎样做跨境电商网站模板

网站广告怎样做,跨境电商网站模板,自己做网站卖阀门,免费制作网页的软件有哪些一、说明 在本系列关于训练 GAN 实用指南的第 1 部分中#xff0c;我们讨论了 a#xff09; 鉴别器 #xff08;D#xff09; 和生成器 #xff08;G#xff09; 训练之间的不平衡如何导致模式崩溃和由于梯度消失而导致静音学习#xff0c;以及 b#xff09; GAN 对超参… 一、说明 在本系列关于训练 GAN 实用指南的第 1 部分中我们讨论了 a 鉴别器 D 和生成器 G 训练之间的不平衡如何导致模式崩溃和由于梯度消失而导致静音学习以及 b GAN 对超参数的敏感性。 在本文中我们将为每种不稳定性提供多种解决方案。这些解决方案在我们的实验中经验上运作良好在广泛尝试了书中的每一个技巧来稳定GAN训练之后。我们按照其易于实施和各自影响的顺序编制列表以就GAN培训的迭代增强功能提出建议。 另外请注意此处讨论的所有解决方案都是任何形式的GAN培训的通用解决方案并且也与时空用例直接相关。JUST时空GAN特有的问题和解决方案将在本系列的最后一部分进一步详细讨论。 二、驯服 GAN 的不稳定性 2.1. 生成器和鉴别器之间的不平衡 如上一篇文章所述训练 G 和 D 之间的不平衡即G 或 D 中的任何一个被不成比例地训练为优于另一个会导致梯度消失以及当 G 没有动力产生不同的样本来欺骗其竞争对手时模式崩溃。 为了解决这个问题通常的解决方案围绕着 ·更改成本函数以获得更好的优化目标。 ·在成本函数中添加额外的惩罚以强制执行约束例如多样性。 · 避免过度自信和过度拟合。 梯度消失和模式崩溃的解决方案将在以下小节中详细讨论。在每个部分中我们首先列出所有排名建议的解决方案以及每个解决方案背后的直觉。随后我们最后总结了每个部分的要点。 2.2 消失梯度 为了减轻梯度消失通常部署的策略是使D的任务更难并给G一个追赶的机会。这是出于这样的信念“判断一幅画是否是梵高很容易但实际制作一幅画却非常困难。因此基本假设是G的任务比D的任务困难得多。 1. 单侧标签平滑如果 D 对其预测过于自信则会导致梯度消失G 无法从此类观测中学习——将实际样本预测为 ~1例如0.999将生成的样本预测为 ~0例如0.0001给出 ~0 的损失。解决此问题的一种简单但高效的技术是将真实数据的所有“1”基本真实标签转换为 [0.7 到 1.2] 的范围将生成数据的所有“0”基本真实标签从“0”转换为 [0.0 到 3.]。 当 D 对其预测过于自信时这会惩罚它并确保即使在正确的预测场景下也能保持梯度流动使 G 能够从这些实例中学习。请注意这仅在更新 D 的权重时完成而不是在 G 更新期间完成因此称为“单侧”。 2.单面翻转标签如果你注意到损失仍然很快下降到0你可以进一步削弱表现优异的D.从业者通常会翻转真实数据和生成数据的标签真实数据标签从1随机翻转到0;生成的数据从0到1。这增加了 D 训练的噪音并防止它在训练的任何阶段变得太强大。同样这仅适用于 D 更新。 3. 由于 G 的任务比较困难G 通常会在再次训练 D 之前训练 x 步~2-5同时保持 D 不变。这允许生成器在训练早期弥合 p 和 q 分布之间的差距并从 D 获得有意义的反馈以改进生成。我们建议在尝试列表中的其他建议之前不要在此步骤上花费太多时间因为 GAN 训练的不同阶段无法通过这种固定相对更新的启发式来控制。相对更新将根据G和D之间不断发展的学习动态而动态变化并且这些更新不能以启发式方式预定义。但是GD 的系数为 21理想情况下可以遵循培训步骤。 4. 在 D 中使用批量归一化 BN 与下面的提示 #5 共轭。批量归一化是一种监督学习方法用于归一化神经网络的层间输出。它有助于稳定训练过程通过减少协变量偏移并通过防止过度拟合来改善泛化。 5.将生成的样本和实际样本分别馈送到D。这个小技巧可以防止 D 使用快捷方式进行分类这些分类不会给 G 任何反馈来改进其生成。BN 的目的是通过使所有激活均匀分布均值为零且 std 等于 1来减少激活映射中的内部协方差偏移。在这种情况下NN 没有必要适应由于训练过程中权重变化而发生的激活分布的变化。因此这种规范化大大简化了学习。在GAN训练的一开始小批量中的真实和假样本具有非常非常不同的分布因此如果我们尝试对其进行规范化我们最终不会得到居中良好的数据。此外在训练过程中这种归一化数据的分布将发生显著变化因为 G 会逐渐提供越来越好的结果鉴别器将不得不适应这些变化。 6. 使用其他提供更稳定梯度分布的损失函数如 WGAN、RSGAN 等。然而Google Brain 的论文实证表明没有损失函数是明显的赢家Mario Lucic2018GAN损失函数的选择仍然是一个尚未被征服的模糊领域。 7. 在监督任务上对生成器进行某种形式的预训练使其与潜在空间广泛对齐并学习捕获任务的一些基本特征例如图像生成时的边缘和轮廓。这有助于在对抗训练开始时弥合 p 和 q 之间的差距从而防止由于 G 输出与真实世界数据之间的巨大脱节而导致 JSD 梯度消失。 2.3 模式折叠 为了缓解这种情况部署的常用策略是 1. 使用标签尽可能使用带有辅助分类器 GAN 设置的标签Augustus Odena2016。这鼓励G在潜在空间的不同区域与用作条件输入的不同标签之间建立连接。这可以防止G产生相同的输出而不管其输入如何从而防止模式崩溃。 图5ACGAN架构 2. 特征匹配通过将 G 的目标从不惜一切代价成功愚弄 D 修改为匹配真实数据的潜在特征从而促进生成的多样性。这涉及在批处理级别上获取各个特征向量均值之间的 L-2 距离。此小批量设置引入了随机性这使得在单个模式下更难过度拟合。 3. 小批量判别为了解决模式崩溃问题将真实数据和生成的数据分别分批馈送到D并计算数据点x与同批次数据点的相似性。然后将 中的相似性 ox 与鉴别器的倒数最后一层的特征连接起来以对该数据 x 是真实的还是生成的进行分类。在模式崩溃的情况下生成的数据的相似性开始增加D可以使用此信息再次开始对生成的图像进行正确分类并惩罚G缺乏多样性。计算这一点的确切机制比特征匹配稍微复杂一些但声称在实践中效果更好Tim Salimans2016总结如下。 在这里xi是输入图像xj是同一批次中的其余图像。这些操作如下图所示 要点 1. 尝试使用 G 和 D 的“容量”很可能不会产生太大区别即它们的相对参数大小。与 G 和 D 的相对模型大小相比训练动态受正在优化的损失函数和确切的实验设置的影响更大。 2. 尝试针对 GD 进行优化训练步长比是徒劳的练习。虽然一种直觉敦促你更多地训练G但另一种直觉表明这可能是有害的。当GAN训练过程高度动态和敏感时很难设计这种静态启发式方法。许多人尝试过这个但失败了。 3.尝试单面标签平滑和标签翻转作为第一步。集成非常简单但非常有效。通过使用这两个简单的技巧我们看到了巨大的学习收益。 4. 使用批量归一化并将生成的样本和实际样本分别馈送到 D。 5. 使用替代损失函数如 WGAN、RSGAN 等通过更好的梯度来稳定训练但要有一点盐;这里没有明显的赢家。 6. 使用辅助分类器GAN框架当标签可用时特征匹配和小批量判别来促进多样性并解决模式崩溃问题。 三. 对超参数的敏感性 GAN对超参数非常敏感周期。尽管优化超参数需要大量的耐心和时间但事实证明此练习对于成就或破坏架构性能具有决定性意义。为了帮助完成此过程一般提示是 1. 学习率 LR学习率是最重要的超参数之一可以成就或破坏您的训练在选择一个时需要记住多种启发式方法 a两个时间尺度更新规则TTUR这本质上意味着对G和D使用不同的学习率G的LR低于D。这可确保 G 采取小步骤来欺骗 D这有助于防止模式崩溃。如果 G 在训练期间过早地采取太快和太精确的步骤那么它更有可能选择一种欺骗 D 的单一模式来赢得对抗游戏。 b LR 应取决于批量大小对于较大的批量大小较高的 LR 是可以的因为它们在批次之间提供的噪音更新较少这可能会导致 GAN 训练的巨动。但建议与 LR 总体上保持保守。 2.批量大小较大的批量大小是首选因为批次中覆盖了更多模式这可以防止G从批次中的任何单个主导模式中大量学习并成为模式崩溃的牺牲品。 3.提前停止GAN训练总是会波动的一个常见的错误是在G损失开始发散时特别是在训练初期过早停止训练。不要使用基于启发式的提前停止而是跟踪评估指标以查找模式崩溃或消失梯度并根据观察到的行为重新开始训练。 要点 学习率用不同的LR训练G和DG的LR最好低于D。批量大小首选较大的批量大小以涵盖小批量中的更多模式。提前停止不要使用基于启发式的提前停止而是跟踪评估指标以查找模式崩溃或消失梯度并根据观察到的行为重新开始训练 这将我们带到该系列的第二个博客的结尾。在这一部分中我们深入探讨了第 1 部分中讨论的 GAN 不稳定性的潜在解决方案。请注意建议的解决方案排名列表基于我们的经验和实验但可能会因您的特定用例而异。 在本系列的下一部分也是最后一部分中我们将探讨时空数据的特殊情况。我们将首先讨论在训练期间要跟踪的客观评估指标以检测一些讨论的陷阱。最后我们将阐明一些在时空数据训练中特别出现的不稳定性以及它们的潜在解决方案。 四、引用 奥古斯都·奥德纳 克里斯托弗·奥拉乔纳森·施伦斯使用辅助分类器 GAN 的条件图像合成 [期刊].— 2016. 伊恩·古德费罗 让·普盖特-阿巴迪、迈赫迪·米尔扎、徐冰、大卫·沃德-法利、谢吉尔·奥扎尔、亚伦·库尔维尔、约书亚·本吉奥生成对抗网络[期刊].— [s.l.] 神经信息处理系统进展 2014. 马里奥·卢西奇·卡罗尔·库拉赫、马尔钦·米哈尔斯基、西尔万·盖利、奥利维尔·布斯凯GAN 生而平等吗一项大规模的研究[期刊]。— [s.l.] 神经信息处理系统国际会议 2018. 蒂姆·萨利曼斯 伊恩·古德费罗 沃伊切赫·扎伦巴 张薇琪 亚历克·拉德福德 陈曦 陈曦改进的 GAN 训练技术 [期刊]。— [s.l.] 神经信息处理系统进展 2016. 关于作者Shantanu是ZS卓越中心实验室的AI研究科学家。他在阿姆斯特丹大学获得了计算机科学工程学士学位和人工智能硕士学位优等生他的论文是几何深度学习和NLP的交叉点与伦敦的Facebook AI和伦敦国王学院合作。他的研究领域包括图神经网络GNNNLP多模态AI深度生成模型和元学习。尚塔努·钱德拉
http://www.huolong8.cn/news/116494/

相关文章:

  • 新乡做网站的多吗什么是最经典最常用的网站推广方式
  • seo 网站太小网站推广易网宣
  • 如何搭建静态网站电子商务网站开发背景与原因
  • 手机建站cms企业门户 登录
  • 网上免费网站的域名如何做网站导航栏的seo优化
  • 用html表格做的网站互联网公司做什么的
  • 搬家网站模板外发加工网贴吧
  • wordpress 电影网站模板西安seo交流
  • 建网站建设的基本流程python网站开发用什么
  • 海外广告优化师seo黑帽多久入门
  • 中牟网站制作重庆城乡建设局网站
  • 怎么选择电商网站建设php网站文件下载怎么做
  • 开封网站优化公司免费自己制作网站方法
  • 阿里自助建站企业网址怎么申请
  • 电子商务与网站建设的报告揭阳网站制作价格
  • 网站建设vps开个免费的网站多少钱
  • 深圳比较好的设计网站公司吗律师个人 网站做优化
  • 网站集约化建设规划wordpress 403 - 禁止访问: 访问被拒绝
  • 网站如何做sem优化网站建设广告图片
  • 网站建设计划设计方案360建筑网发的消息怎么取消
  • a5创业网站建设上海虹口网站建设公司
  • 成都网站设计报价优秀企业网站首页
  • 阿里网站备案寄材料相机网站建设策划书
  • 请问做网站怎么赚钱卫生计生加强门户网站建设
  • 喊人做网站需要注意些什么海口在线分类信息
  • 招聘软件开发工程师网站seo最新优化方法
  • 返利网网站怎么做抖音推广怎么做
  • 台州建设局网站信息价中国价格信息网
  • 烟台制作网站的公司简介百度手机下载安装
  • 建筑企业网站源码自己怎么健网站视频下载