网站托管维护,论客企业邮箱官网,上海建筑工程有限公司,做酒店网站所用到的算法文 | 梦晨 鱼羊 发自 凹非寺源 | 量子位在让AI搞创作这件事上#xff0c;谷歌和OpenAI正面刚起来了。这不#xff0c;震惊全网的DALLE 2才新鲜出炉一个月#xff0c;谷歌就派出名为Imagen的选手来打擂台。直接上图对比#xff0c;左边是谷歌Imagen选手眼中的“猫猫绊倒人类… 文 | 梦晨 鱼羊 发自 凹非寺源 | 量子位在让AI搞创作这件事上谷歌和OpenAI正面刚起来了。这不震惊全网的DALL·E 2才新鲜出炉一个月谷歌就派出名为Imagen的选手来打擂台。直接上图对比左边是谷歌Imagen选手眼中的“猫猫绊倒人类雕像”右边则是DALL·E 2选手的同题创作。你觉得哪一位选手的作品更符合题意而让网友们直呼“DALL·E 2这就过时了”的还不只是这种正面PK的刺激。看到这么一张照片如果不说是AI生成的是不是要先感叹一句两脚兽的摆拍技术越来越高超了输入“折纸作品一只狐狸和一只独角兽在飘雪的森林里”Imagen创作出的画面则是酱婶的还可以试试把文字写得长一点。比如《一只非常快乐的毛茸熊猫打扮成了在厨房里做面团的厨师的高对比度画像他身后的墙上还有一幅画了鲜花的画》…啊先让我喘口气Imagen也轻松拿下要素齐全看到这机器学习圈的网友反应是这样的不是吧这才一个月就又更新换代了求求别再震惊我了。这事儿热度一起很快就破了圈。吃瓜群众们立刻就想到一块去了。以后可能没图库网站什么事儿了。那么这个来自谷歌的新AI又掌握了什么独家秘技具体详情我们一起接着往下看。增强「理解」比优化「生成」更重要文本到图像生成我们之前介绍过不少基本都是一个套路CLIP负责从文本特征映射到图像特征然后指导一个GAN或扩散模型生成图像。但谷歌Imagen这次有个颠覆性的改变——使用纯语言模型只负责编码文本特征把文本到图像转换的工作丢给了图像生成模型。语言模型部分使用的是谷歌自家的T5-XXL训练好后冻结住文本编码器。图像生成部分则是一系列扩散模型先生成低分辨率图像再逐级超采样。这样做最大的好处是纯文本训练数据要比高质量图文对数据容易获取的多。T5-XXL的C4训练集包含800GB的纯文本语料在文本理解能力上会比用有限图文对训练的CLIP要强。这一点也有着实验数据做支撑人类评估上T5-XXL在保真度和语义对齐方面表现都比CLIP要好。在实验中谷歌还发现扩大语言模型的规模对最后效果影响更大超过扩大图像生成模型的影响。看到这有网友指出谷歌最后采用的T5-XXL参数规模还不到最新PaLM语言模型5400亿参数的1%如果用上PaLM又会是啥样除了语言模型部分的发现谷歌通过Imagen的研究对扩算模型作出不少优化。首先增加无分类器引导classifier-free guidance的权重可以改善图文对齐但会损害图像保真度。解决的办法是每一步采样时使用动态阈值能够防止过饱和。第二使用高引导权重的同时在低分辨率图像上增加噪声可以改善扩散模型多样性不足的问题。第三对扩散模型的经典结构U-Net做了改进新的Efficient U-Net改善了内存使用效率、收敛速度和推理时间。对语言理解和图像生成都做出改进之后Imagen模型作为一个整体在评估中也取得了很好的成绩。比如在COCO基准测试上达到新SOTA却根本没用COCO数据集训练。在COCO测试的人类评估部分也发现了Imagen的一个缺点不擅长生成人类图像。具体表现是无人类图像在写实度上获得更高的人类偏好度。同时谷歌推出了比COCO更有挑战性的测试基准DrawBench包含各种刁钻的提示词。实验发现DALL·E 2难以准确理解同时出现两个颜色要求的情况而Imagen就没问题。反常识情况比如“马骑着宇航员”两者表现都不佳只能画出“宇航员骑着马”。但是Imagen对“一只熊猫在做咖啡拉花”理解更准确只错了一次。DALL·E 2则全都把熊猫画进了拉花图案里。▲大概“马骑着宇航员”有点反常识狗头对于要求图像中出现文字的也是Imagen做得更好。除了最基本的把文字写对以外还可以正确给文字加上烟花效果。AI画画越来越出圈说起来AI作画这件事最早便源起于谷歌。2015年谷歌推出DeepDream开创了AI根据文本生成图像的先河。▲DeepDream作品但要说相关技术真正开“卷”、出圈标志性事件还得数2021年OpenAI的DALL·E横空出世。当时吴恩达、Keras之父等一众大佬都纷纷转发、点赞DALL·E甚至被称为2021年第一个令人兴奋的AI技术突破。随后语言理解模型和图像生成模型多年来的技术进展便在“AI作画”这件事上集中爆发一系列CLIPGAN、CLIP扩散模型的研究和应用频频在网络上掀起热潮。从此一发不可收拾技术更新迭代越来越快。DALL·E 2刚发布的时候就有网友发起一个投票问多长时间会出现新的SOTA。当时大多数人选了几个月或1年以上。但现在Imagen的出现只用了6周。随着AI画画效果越来越强大受众范围也不断扩大突破技术圈进入大众视野。前一阵就有AI画画应用登上苹果App Store图形与设计排行榜榜首。现在最新的潮流是各路设计师排队申请Midjourney、Tiamat等商业化产品的内测刷爆社交网络。如此出圈也给OpenAI和谷歌这样的大公司带来很大压力。出于AI伦理、公平性等方面考虑DALL·E 2和Imagen都没有直接开源或开放API。各自也都在论文里有大篇幅涉及风险、社会影响力的内容。OpenAI选择了内测模式而谷歌还在做进一步研究和规范等到确保AI不被滥用之后再择机公开。现在想体验Imagen的话有一个在线Demo演示。可以从给定的几个提示词中自由组合出不同场景。快来试试吧Demo地址https://gweb-research-imagen.appspot.com论文地址https://gweb-research-imagen.appspot.com/paper.pdf后台回复关键词【入群】加入卖萌屋NLP、CV与搜推广与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1]https://twitter.com/ak92501/status/1528861980702146560