创建网站做搞笑视频,网站建设技术网站建,建设网站成本,网站建设问题清单ACL2017年中#xff0c;腾讯AI-lab提出了DeepPyramidConvolutionalNeuralNetworksforTextCategorization(DPCNN)。论文中提出了一种基于word-level级别的网络-DPCNN#xff0c;由于上一篇文章介绍的TextCNN不能通过卷积获得文本的长距离依赖关系#xff0c;而论文中DPCNN通过…ACL2017年中腾讯AI-lab提出了DeepPyramidConvolutionalNeuralNetworksforTextCategorization(DPCNN)。论文中提出了一种基于word-level级别的网络-DPCNN由于上一篇文章介绍的TextCNN不能通过卷积获得文本的长距离依赖关系而论文中DPCNN通过不断加深网络可以抽取长距离的文本依赖关系。实验证明在不增加太多计算成本的情况下增加网络深度就可以获得最佳的准确率。DPCNN结构究竟是多么牛逼的网络呢我们下面来窥探一下模型的芳容。DPCNN结构细节模型是如何通过加深网络来捕捉文本的长距离依赖关系的呢下面我们来一一道来。为了更加简单的解释DPCNN这里我先不解释是什么是Regionembedding我们先把它当作wordembedding。等长卷积首先交代一下卷积的的一个基本概念。一般常用的卷积有以下三类假设输入的序列长度为n卷积核大小为m步长(stride)为s,输入序列两端各填补p个零(zeropadding),那么该卷积层的输出序列为(n-m2p)/s1。(1)窄卷积(narrowconvolution):步长s1,两端不补零即p0卷积后输出长度为n-m1。(2)宽卷积(wideonvolution)步长s1,两端补零pm-1卷积后输出长度nm-1。(3)等长卷积(equal-widthconvolution):步长s1,两端补零p(m-1)/2卷积后输出长度为n。如下图所示左右两端同时补零p1,s3。池化那么DPCNN是如何捕捉长距离依赖的呢这里我直接引用文章的小标题——Downsamplingwiththenumberoffeaturemapsfixed。作者选择了适当的两层等长卷积来提高词位embedding的表示的丰富性。然后接下来就开始Downsampling(池化)。再每一个卷积块(两层的等长卷积)后使用一个size3和stride2进行maxpooling进行池化。序列的长度就被压缩成了原来的一半。其能够感知到的文本片段就比之前长了一倍。例如之前是只能感知3个词位长度的信息经过1/2池化层后就能感知6个词位长度的信息啦这时把1/2池化层和size3的卷积层组合起来如图所示。固定featuremaps(filters)的数量为什么要固定featuremaps的数量呢?许多模型每当执行池化操作时增加featuremaps的数量导致总计算复杂度是深度的函数。与此相反作者对featuremap的数量进行了修正他们实验发现增加featuremap的数量只会大大增加计算时间而没有提高精度。另外夕小瑶小姐姐在知乎也详细的解释了为什么要固定featuremaps的数量。有兴趣的可以去知乎搜一搜讲的非常透彻。固定了featuremap的数量每当使用一个size3和stride2进行maxpooling进行池化时每个卷积层的计算时间减半(数据大小减半)从而形成一个金字塔。这就是论文题目所谓的Pyramid。好啦看似问题都解决了目标成功达成。剩下的我们就只需要重复的进行等长卷积等长卷积使用一个size3和stride2进行maxpooling进行池化就可以啦DPCNN就可以捕捉文本的长距离依赖啦Shortcutconnectionswithpre-activation但是如果问题真的这么简单的话深度学习就一下子少了超级多的难点了。(1)初始化CNN的时往往各层权重都初始化为很小的值这导致了最开始的网络中后续几乎每层的输入都是接近0这时的网络输出没有意义(2)小权重阻碍了梯度的传播使得网络的初始训练阶段往往要迭代好久才能启动(3)就算网络启动完成由于深度网络中仿射矩阵(每两层间的连接边)近似连乘训练过程中网络也非常容易发生梯度爆炸或弥散问题。当然上述这几点问题本质就是梯度弥散问题。那么如何解决深度CNN网络的梯度弥散问题呢当然是膜一下何恺明大神然后把ResNet的精华拿来用啦ResNet中提出的shortcut-connection/skip-connection/residual-connection(残差连接)就是一种非常简单、合理、有效的解决方案。类似地为了使深度网络的训练成为可能作者为了恒等映射所以使用加法进行shortcutconnections即zf(z),其中f用的是两层的等长卷积。这样就可以极大的缓解了梯度消失问题。另外作者也使用了pre-activation这个最初在何凯明的“IdentityMappingsinDeepResidualNetworks上提及有兴趣的大家可以看看这个的原理。直观上这种“线性”简化了深度网络的训练类似于LSTM中constanterrorcarousels的作用。而且实验证明pre-activation优于post-activation。整体来说巧妙的结构设计使得这个模型不需要为了维度匹配问题而担忧。Regionembedding同时DPCNN的底层貌似保持了跟TextCNN一样的结构这里作者将TextCNN的包含多尺寸卷积滤波器的卷积层的卷积结果称之为Regionembedding意思就是对一个文本区域/片段(比如3gram)进行一组卷积操作后生成的embedding。另外作者为了进一步提高性能还使用了tv-embedding(two-viewsembedding)进一步提高DPCNN的accuracy。上述介绍了DPCNN的整体架构可见DPCNN的架构之精美。本文是在原始论文以及知乎上的一篇文章的基础上进行整理。本文可能也会有很多错误如果有错误欢迎大家指出来建议大家为了更好的理解DPCNN看一下原始论文和参考里面的知乎。用Keras实现DPCNN网络这里参考了一下kaggle的代码模型一共用了七层模型的参数与论文不太相同。这里滤波器通道个数为64(论文中为256)具体的参数可以参考下面的代码部分我写了注释。defCNN(x):blockConv1D(filter_nr,kernel_sizefilter_size,paddingsame,activationlinear,kernel_regularizerconv_kern_reg,bias_regularizerconv_bias_reg)(x)blockBatchNormalization()(block)blockPReLU()(block)blockConv1D(filter_nr,kernel_sizefilter_size,paddingsame,activationlinear,kernel_regularizerconv_kern_reg,bias_regularizerconv_bias_reg)(block)blockBatchNormalization()(block)blockPReLU()(block)returnblockdefDPCNN():filter_nr64#滤波器通道个数filter_size3#卷积核max_pool_size3#池化层的pooling_sizemax_pool_strides2#池化层的步长dense_nr256#全连接层spatial_dropout0.2dense_dropout0.5train_embedFalseconv_kern_regregularizers.l2(0.00001)conv_bias_regregularizers.l2(0.00001)commentInput(shape(maxlen,))emb_commentEmbedding(max_features,embed_size,weights[embedding_matrix],trainabletrain_embed)(comment)emb_commentSpatialDropout1D(spatial_dropout)(emb_comment)#regionembedding层resize_embConv1D(filter_nr,kernel_size1,paddingsame,activationlinear,kernel_regularizerconv_kern_reg,bias_regularizerconv_bias_reg)(emb_comment)resize_embPReLU()(resize_emb)#第一层block1CNN(emb_comment)block1_outputadd([block1,resize_emb])block1_outputMaxPooling1D(pool_sizemax_pool_size,stridesmax_pool_strides)(block1_output)#第二层block2CNN(block1_output)block2_outputadd([block2,block1_output])block2_outputMaxPooling1D(pool_sizemax_pool_size,stridesmax_pool_strides)(block2_output)#第三层block3CNN(block2_output)block3_outputadd([block3,block2_output])block3_outputMaxPooling1D(pool_sizemax_pool_size,stridesmax_pool_strides)(block3_output)#第四层block4CNN(block3_output)block4_outputadd([block4,block3_output])block4_outputMaxPooling1D(pool_sizemax_pool_size,stridesmax_pool_strides)(block4_output)#第五层block5CNN(block4_output)block5_outputadd([block5,block4_output])block5_outputMaxPooling1D(pool_sizemax_pool_size,stridesmax_pool_strides)(block5_output)#第六层block6CNN(block5_output)block6_outputadd([block6,block5_output])block6_outputMaxPooling1D(pool_sizemax_pool_size,stridesmax_pool_strides)(block6_output)#第七层block7CNN(block6_output)block7_outputadd([block7,block6_output])outputGlobalMaxPooling1D()(block7_output)#全连接层outputDense(dense_nr,activationlinear)(output)outputBatchNormalization()(output)outputPReLU()(output)outputDropout(dense_dropout)(output)outputDense(6,activationsigmoid)(output)modelModel(comment,output)model.summary()model.compile(lossbinary_crossentropy,optimizeroptimizers.Adam(),metrics[accuracy])returnmodelDPCNN实战上面我们用keras实现了我们的DPCNN网络这里我们借助kaggle的有毒评论文本分类竞赛来实战下我们的DPCNN网络。具体地代码大家可以去我的GitHub上面找到源码https://github.com/hecongqing/TextClassification/blob/master/DPCNN.ipynb