当前位置: 首页 > news >正文

asp.net mvc网站开发之美线上线下一体化营销

asp.net mvc网站开发之美,线上线下一体化营销,选择荣胜网络宁波网站建设,河南工信建设网站文章目录 1. 摘要2. 算法#xff1a;2.1 结构#xff1a;2.2 微小的条件机制2.3 多宽高比训练2.4 改进自编码器2.5 所有组合放到一起2.6 主流方案比较 3. 未来工作4. 限制 论文#xff1a; 《SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis… 文章目录 1. 摘要2. 算法2.1 结构2.2 微小的条件机制2.3 多宽高比训练2.4 改进自编码器2.5 所有组合放到一起2.6 主流方案比较 3. 未来工作4. 限制 论文 《SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis》 github https://github.com/Stability-AI/generative-models 1. 摘要 SDXL用于文生图与之前SD相比SDXL使用3倍大的UNet backbone归因于更多的attention block、更大的cross-attention。作者设计多种新颖条件机制同时引入一个精细化模块用于提升生成图片保真度。与之前版本SD相比SDXL大大提升了性能。 2. 算法 SDXL整体结构如图1所示。 2.1 结构 扩散生成模型主要使用UNet结构随着DM发展网络结构发生变化从增加self-attention、改进上采样层增加cross-attention到基于transformer的结构。 为了高效作者移除最浅特征层中transformer block中间层使用transformer block数量设置为2和10移除最深特征层8倍降采样层如表1作者与SD1.x及x2.x进行比较。 同时作者使用更强大预训练文本编码器将OpenCLIP ViT-bigG与CLIP ViT-L倒数第二输出层进行concat。除了增加cross-attention层约束输入文本另外将合并的文本编码作为模型条件输入由此导致模型参数量达到2.6B其中文本编码器器817M。 2.2 微小的条件机制 LDM的显著缺点为训练模型需要比较小的图像大小归因于其二阶段结构。对于该问题一种方案为丢弃训练集中某一分辨率以下图片比如Stable Diffusion 1.4/1.5中512分辨率以下图片另一种为过小图片进行上采样。然而前者将导致训练集大量数据丢弃后者上采样过程引入人工因素导致模型输出模糊样本。 作者使用原始图片分辨率 c s i z e ( h o r i g i n a l , w o r i g i n a l ) c_{size} (h_{original}, w_{original}) csize​(horiginal​,woriginal​)作为Unet条件输入具体地使用傅里叶特征将图片编码concat为向量该向量与timestep embedding相加。该过程如算法1 推理时用户可设置所需图像分辨率尺度如图3随着图像尺寸提升图片质量提升。 作者比较仅使用512 * 512分辨率以上数据集CIN-512-only、所有数据CIN-nocond、增加分辨率条件CIN-size-cond结果如表2 基于裁剪参数调节模型 如图4前两行之前模型生成目标可能被裁剪这由于训练过程使用随机裁剪为对齐batch中数据尺寸。为解决此问题作者在加载数据过程使用均匀采样裁剪坐标 c t o p 、 c l e f t c_{top}、c_{left} ctop​、cleft​距离左上角点距离并将其作为条件参数通过傅里叶特征编码送入模型。该过程如算法1所示。推理时设置 ( c t o p , c l e f t ) ( 0 , 0 ) (c_{top}, c_{left}) (0, 0) (ctop​,cleft​)(0,0)可生成目标在图中心的样本如图5所示。 2.3 多宽高比训练 当前文生图模型所生成图片为正方形512 * 512或1024 * 1024与真实图片存在差异。对此作者使用多种宽高比图片进行训练但像素总量接近1024*1024宽、高为64倍数。 预训练阶段使用固定宽高比及分辨率只有在finetune阶段使用多种宽高比训练 2.4 改进自编码器 作者训练与原始Stable Diffusion相同网络结构的自编码器额外增加跟踪权重的指数滑动平均实验结果如表3SD-VAE 2.x为改进后结果。 2.5 所有组合放到一起 作者训练最终模型SDXL使用2.4节提到的自编码器。 首先进行预训练基础模型使用内部数据集宽高分布如图2训练时使用分辨率256*256同时使用size及crop condition如2.2节所述之后在512 * 512图片上进一步训练最后在1024 * 1024分辨率基于不同宽高比进行训练。 精细化阶段 如图6作者发现有些生成样本局部质量低对此作者基于高质量、高分辨率数据在隐空间单独训练LDM如SDEdit所提利用基础模型生成隐向量进行加噪降噪处理。推理时如图1渲染来自基础SDXL模型的隐向量基于该向量使用同一文本输入利用精细化模型进行扩散去噪。可视化结果如图6、13。 生成图片用户评估结果如图1左该精细化模块作用明显。但在FID、CLIP指标上与文本越一致样本指标反而低于SD-1.5、SD-2.1如图12作者分析Kirstain等人证明COCO zero-shot FID得分与视觉评估负相关应以人工评估为准作者实验与此一致。 2.6 主流方案比较 图8为各种主流生成方案结果比较 3. 未来工作 单阶段SDXL为二阶段方法需要额外精细化模型增加内存及采样速度未来研究单阶段方案 文本合成较大的文本编码器相对于之前SD模型提升了文本表达能力但是插入token或者放大模型可能也会有帮助 结构作者实验了基于transformer的结构UViT、DiT但是没有增益需要进一步研究超参 蒸馏SDXL生成质量虽然提升但是推理成本增加未来借助蒸馏降低该成本 模型训练过程是离散的且需要偏离噪声Karras等人提出的EDM框架可能是未来模型训练方案时间连续、采样灵活、无需噪声纠正机制。 4. 限制 对于生成复杂结构充满挑战比如人手如图7所示。虽然使用很多训练数据但是人体结构复杂性导致难以获得准确表征一致性这可能由于图中手及相似目标具有比较高方差难以建模 某些细微差别如微妙的灯光效果或微小的纹理变化导致生成图像不真实当前模型训练依赖大规模数据集可能引入社会种族问题生成图像进而存在该问题当样本包含多个目标时模型存在“concept bleeding”现象即不同元素出现合并或堆叠如图14。该问题可能由于文本编码器导致所有信息压缩到单个token难以联系到合适目标及属性Feng等人通过单词关系编码解决对抗损失也可导致此现象由于不同联系的负样本出现在同一batch 呈现长且易读文本存在困难如图8克服此问题需要进一步强化模型文本生成能力
http://www.huolong8.cn/news/69881/

相关文章:

  • 中国投诉网站做袜子机器多少钱一台夜晚必备直播软件
  • 微商的自己做网站叫什么软件下载烟台网站建设设计
  • 企业网站开发方案查企业信息的app
  • 专做鞋子的网站遵义百度推广公司
  • wordpress建站苏州做纯净系统的网站
  • 陕西 汽车 网站建设wordpress 影视采集
  • 宁德城乡建设网站苏州市网站建设
  • 教育培训类网站建设网站建设模型
  • 做网站 怎么赚钱吗网页美工设计公司
  • 产品摄影网站推荐网站开发 自学
  • 阿里巴巴网站做方案互站网怎么样
  • 手机版官方网站的建设我做网站
  • 电子商务网站开发背景做网站游戏都需要什么
  • 成都大型网站建设公司福建建设工程信息网
  • 如何建设网站盈利申请域名需要哪些资料
  • 张家口网站开发网站怎么做留言
  • 好玩的网站源码火龙二合一版本手游传奇
  • 做胎儿羊水鉴定网站网站建设的目的与意义是什么意思
  • 邹平市建设局官方网站建设网站的颜色
  • 设计素材网站那个好中国购物网站有哪些
  • 网站建设与管理就业免费咨询律师在线微信
  • 高校后勤网站建设wordpress获取文章作者
  • 网站开发的投标案例wordpress改变登录地址
  • 网站服务器怎么选徐州建站网站模板
  • 常州淄博网站优化网站平台有哪些
  • 深圳好蜘蛛网站建设公司广东品牌女装都有哪些品牌
  • 怎么建立一个网站能够与讯飞云对话如何推广游戏
  • 昆山网站开发中国外贸公司排行榜
  • 安徽制作网站的公司哪家好做网站图片处理问题
  • 中国建设银行分行网站vps网站被镜像