制作微信网站模板免费下载,wordpress股票api,建站公司网站源码,品牌网站建设權威大蝌蚪来自#xff1a;知乎 作者#xff1a;谢凌曦、数据误码率、Zhifeng编辑#xff1a;极市平台 在目前的深度学习领域#xff0c;有些研究方向已经较为成熟#xff0c;实现新突破的难度与过去相比显著提升。那么就目前来看#xff0c;还有哪些方向处于朝阳阶段#xff0c;相… 来自知乎 作者谢凌曦、数据误码率、Zhifeng编辑极市平台 在目前的深度学习领域有些研究方向已经较为成熟实现新突破的难度与过去相比显著提升。那么就目前来看还有哪些方向处于朝阳阶段相比之下更有研究潜力问题链接https://www.zhihu.com/question/46050020401作者谢凌曦来源链接https://www.zhihu.com/question/460500204/answer/1930151239注本回答所有内容均只代表作者本人观点均有可能被推翻二次转载务必连同声明一起转载。我的主要研究方向是计算机视觉所以本文也会比较偏重CV方向。1. 不适合的研究方向首先我要反对两个方向对比学习为代表的自监督学习算法包括BYOL等和Transformer。它们的上限几乎是肉眼可见的在没有非平凡的改进之前很难有本质上的突破。在大量研究者投入精力的情况下只要没有持续的产出就必然会导致其加速衰落。前些年盛极一时的网络架构搜索NAS就是一个非常典型的例子。我们首先分析NAS、对比学习、Transformer的局限性1 原本以NAS为代表的AutoML技术受到了广泛的期待我还主张“自动机器学习之于深度学习就好比深度学习之于传统方法”不过后来发现它的缺陷是明显的。在搜索空间指数级扩大之后算法就必须在精度和速度之间做出选择。后来盛行的权重共享类搜索方法相当于追求搜索空间中的平摊精度而平摊精度与最佳个体的精度往往并不吻合。2对比学习被广泛引入图像领域作为自监督任务以后前世代的自监督算法如预测旋转、拼图、上色等纷纷被吊打甚至开始在下游任务中超越有监督训练的模型。然而当前的对比学习类方法包括BYOL对于数据扩增data augmentation的依赖过重因而不可避免地陷入了invariance和consistency之间的矛盾强力的augmentation能够促进学习效果但是如果augmentation过强不同view之间的可预测性又无法保证。3至于Transformer虽然目前还处在比较兴盛的状态然而它的上限也是明显的。除了更快的信息交换似乎这种模型并没有体现出显著的优势。问题是CV任务真的需要频繁而快速的视觉信息交换吗遗憾的是学界依然沉浸在“先将所有任务用Transformer刷一遍”的廉价快乐中鲜有人愿意思考一些更深入的问题。因此我特别希望初学者不要看到一个热门方向就一拥而上而要冷静地思考这个问题如果全世界都知道这个方向火热那么你的研究要想脱颖而出就必然有某些过人之处——比如你有特别多的卡或者你有丰富的PR资源。否则很可能还是捧红了别人的文章浪费了自己的时间。2. 应该关注的方向但未必能够保证产出我认为CV领域还是存在很多本质问题没有解决的。但是这些问题往往非常困难投入长期研究的风险也比较大因而大部分研究者会回避这些问题。然而要从根源上推进CV的发展这些问题就不得不去面对、解决1是否存在神经网络之外的推理方式当前神经网络成为训练以后的唯一产物而几乎所有算法均假设将输入送给神经网络以后一次性地得到输出结果。然而是否能够设计直接向前传递以外的其他推理方式例如当一个物体处于罕见的视角或者被严重遮挡时能否通过多次迭代式的处理逐渐恢复其缺失的特征最终完成识别任务这就涉及到将强化学习引入训练或者通过类似于image warping的方式找到一条困难样例和简单样例之间的路径。后者可以导向一个非常本质的问题如何以尽可能低的维度刻画语义空间GAN以及相关的方法或许能够提供一些思路但是目前还没有通用的、能够轻易跨越不同domain的方法。2是否存在更精细的标注方式能够推进视觉的理解我最近提出了一个假想当前所有的视觉识别算法都远远没有达到完整[1]而这很可能是当前不够精细的标注所导致的。那么是否能够在可行的范围内定义一种超越instance segmentation的标注方式进一步推进视觉识别这就涉及到一系列根本问题什么是一个物体如何定义一个物体物体和部件之间有什么联系这些问题不得到解决物体检测和分割将步图像分类的后尘迅速陷入过拟合的困境。3如何解决大模型和小样本之间的矛盾当前大模型成为AI领域颇有前景的规模化解决方案。然而大模型的本质在于通过预训练阶段大量吸收数据有标签或者无标签均可缓解下游小样本学习的压力。这就带来了一个新的矛盾大模型看到的数据越多模型就越需要适应一个广泛而分散的数据分布因而通过小样本进行局部拟合的难度就越大。这很可能是制约大模型思路落地的一个瓶颈。4能否通过各种方式生成接近真实的数据生成数据包括虚拟场景或者GAN生成的数据很可能会带来新的学习范式然而这些数据和真实数据之间存在一种难以逾越的domain gap制约了其在识别任务中发挥作用。我们提出问题这种domain gap本质上是不是特定的识别任务带来的learning bias我们希望通过改变学习目标使得这种domain gap得到缓解甚至消失从而能够在有朝一日消灭人工标注真正开启新的学习范式。5是否存在更高效的人机交互模式目前人机之间的交互效率还很低我就经常因为为做PPT而头疼不已。我认为AI算法或许会深刻地改变人机交互的模式使得以下场景变得更容易多媒体内容设计和排版、跨模态信息检索、游戏微操作等等。多模态算法很可能会在这波“人机交互革命”中发挥重要作用。在我看来上述任何一个问题相比于无止境的烧卡刷点都要有趣且接近本质但是风险也要更大一些。因此大部分研究人员迫于现实压力而选择跟风是再正常不过的事情。只要有人在认真思考这些问题并且稳步推进它们AI就不是一个遥不可及的梦。限于时间无法将上述每个点写得太仔细同时限于水平和视野我也无法囊括所有重要的问题如可解释性——虽然我对深度学习的可解释性感到悲观不过看到有学者在这个领域深耕还是能够感觉到勇气和希望。非常欢迎针对各种问题的讨论也希望这些观点能够引发更多的思考吧。[1] https://zhuanlan.zhihu.com/p/37614566402作者数据误码率来源链接https://www.zhihu.com/question/460500204/answer/1915471641如果以CVPR为CV的导向的话目前发展大概是这样MLP2012年的前—CNN2012-约2020—transformer2020年以后—MLPGoogle最近又把这玩意刨出来了至于是不是不敢推测结果如何先说结论越来越比拼硬件资源能力了。总之就我做的医学图像分割上来说最直观的感受就是几个点吧1传统基于CNN的文章除非在理论上、网络结构上万年薅UNet各种魔改有大的创新否则给人的感觉创新性都不大甚至可以归为“水文”二区都难。2独立于网络之外的用于提升网络性能的模块上attention-gate、channel- attention、spatial- attention、channel- spatial attention、non-local、scale- attention……反正就是魔改要说最近的方向可能就是类似ECA-module这种类似的走轻量注意力上才有的发paper。3transformer是个很新的方向目前应该是医学图像分割上最好灌水的方向之一了我记得去年开组会刚想把Unet的编码器或者解码器部分改成transformer试试效果如何结果一上知乎我校某实验室就在编码器部分搞了出来一篇transUnet。看完swin-tranformer我一拍大腿我去这个好这下解码器编码器都可以改了对我这个小菜鸡还好理解点结果马上有人做出来了swin-unet。总的来说就是目前想水医学图像分割的transformer文章的代码硬件两手都硬的同行们可以抓紧了。因为目前只要你速度够快method部分不需要写大量公式计算也不用憋着想如何写创新点创新点统一为“本文首次把transformer应用于XXX检测/识别/分类/分割”4大显存、多数量GPU无论显存还是数量越多越好堪比挖矿。我曾经尝试把DA-Net中的PAM和CAM丢到UNet里去结果直接out of memory….you need another 64GB。把我吓得团队只有4卡RTX2080Ti瑟瑟发抖。transformer那种基于self-attention的大型注意力包理论上计算资源只会多不会少等忙完这段时间我准备搞一个3层的swin结构的编解码结构试试但愿能跑起来这样毕业论文就显得新一点 。03作者Zhifeng来源链接https://www.zhihu.com/question/460500204/answer/1902459141回答几个我最近在研究的方向 我主要在做生成模型不过乱七八糟的也有涉猎。1. 可解释性feature-based研究的很多了instance-based个人感觉在上升期从研究的角度来说缺乏benchmark/axiom/sanity check. 主流方法是influence function, 我觉得这里面self influence的概念非常有趣应该很值得研究。当然更意思的方向是跳出influence function本身比如像relatIF 加一些regularization也是水文章的一贯套路(relatIF是好文章)。Influence function for generative models也是很值得做的。Influence function for GAN已经有人做了虽然文章直接优化FID是有点问题的但是框架搭好了换一个evaluation换个setting就可以直接发paper.我最近写了Influence function for VAE, 有不少比较有意思的observation (paper[1]; code repo: VAE-TracIn-pytorch).2. 无监督生成学习最近的denoising diffusion probabilistic model(DDPM)绝对是热坑效果好但是速度慢没有meaningful latent space限制了很多应用有待发掘。我去年实习写了一篇DiffWave是这个方法在语音上的应用效果很好最近应该能看到这个模型的application井喷比如3D point cloud生成。DDPM的加速最近已经有不少paper了目前来看有几类有的用conditioned on noise level去重新训练有的用jumping step缩短Markov Chain有的在DDPM里面研究更快的solver. 我最近写了FastDPM, 是一种结合noise level和jumping step的快速生成的框架(无需retrain, original DDPM checkpoint拿来直接用)统一并推广了目前的好几种方法给出了不同任务(图像, 语音)的recipe (paper[2]; code repo: FastDPM_pytorch).生成模型里的Normalizing flow模型用可逆网络转化数据分布很fancy 能提供likelihood和比较好的解释性但是效果偏偏做不上去一方面需要在理论上有补充因为可逆或者Lipschitz网络的capacity确实有限。另一方面实际应用中training不稳定可能是效果上不去的原因其中initialization 和training landscape都是有待研究的问题。潜在的突破口augmented dimension或者类似surVAE那种generalized mapping. 除此之外normalizing flow on discrete domain也是很重要的问题潜在突破口是用OT里面的sinkhorn network.我对residual flow这个模型有执念很喜欢这个框架虽然它不火。今年早些时候我写了residual flow的universal approximation in MMD的证明很难做需要比较特殊的假设 (paper[3])。之后可能继续钻研它的capacity和learnability.再补充一个3. 生成模型的overfitting是一个长久的问题但是本身很难定义很大一个原因是mode collapse和copy training data耦合在一起。我们组去年发表了data-copying test用于检测相关性质不过这个idea还停留在比较初级的阶段我觉得这一块需要更多high level的框架。4. Meta learning generative model方向个人十分看好meta learning 框架可以直接套loss改成生成模型的loss就可以了。Again, GAN已经被做了不过GAN的paper那么多随便找上一个加上meta learning还是很容易的。类似可以做multitask GAN.[1] https://arxiv.org/pdf/2105.14203.pdf[2] https//arxiv.org/pdf/2106.00132.pdf[3] https://arxiv.org/pdf/2103.05793.pdf未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏近千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”20210712未来智能实验室收录资料特别推荐置顶收录未来智能实验室在人民日报《学术前沿》发表的城市大脑最新综述研究论文和报告《城市大脑的起源、发展与未来趋势》从城市大脑的起源和理论基础城市大脑的定义和与智慧城市的关系城市大脑在产业界的发展情况与存在的问题城市大脑基于全球框架下的标准化研究新一代城市大脑的1N模式与建设框架城市大脑到世界数字神经系统对人类社会的意义等6个方面对城市大脑进行了深入探讨。1.2021综述论文《几何深度学习/GNN/对抗攻击/机器学习/知识图谱/NLP/CV》2.李德毅用脑和认知科学解开博伊德环之谜3.雷声技术公司天基预警解决方案4.GPU的发展历程、未来趋势及研制实践5.最美数学公式的150年麦克斯韦方程组与“无用”的科学6.2021年深度学习还有哪些未饱和、有潜力且处于上升期的研究方向7.华为云出品AI 赋能智慧城市报告20218. 5G智慧能源行业解决方案9.了解AGV机器人的12种导航导引方式10.美国DIU2020年科技创新成果述析11.数字孪生等前沿技术将如何解码未来交通12.Science大脑中参与人脸识别与记忆的关键细胞群13.从1G到5G从回顾过去到展望未来14.AI数字孪生发展现状、应用场景及典型企业案例分析15.数字化工厂建设的探索实践【物联网智商精选】16.中国边缘云计算行业报告艾瑞202117.郭明智能化战争的基本形态