当前位置: 首页 > news >正文

台州网站搭建做商品推广有那些网站

台州网站搭建,做商品推广有那些网站,ps怎样做网站首页图,做网站首页文件作者 #xff1a;范少华 研究方向 #xff1a;图神经网络 论文标题 #xff1a;基于学习解纠缠因果子结构的图神经网络去偏 论文链接 #xff1a;https://arxiv.org/pdf/2209.14107.pdf        https://doi.org/10.48550/arXiv.2209.14107 大多数图神经网络(GNNs)通… 作者 范少华 研究方向 图神经网络 论文标题 基于学习解纠缠因果子结构的图神经网络去偏 论文链接 https://arxiv.org/pdf/2209.14107.pdf        https://doi.org/10.48550/arXiv.2209.14107 大多数图神经网络(GNNs)通过学习输入图和标签之间的相关性来预测不可见图的标签。然而通过对具有严重偏差的训练图进行图分类调查我们惊奇地发现即使因果关系始终存在GNNs也总是倾向于探索虚假相关来进行决策。这意味着现有的基于这些有偏差数据集训练的GNNs泛化能力较差。从因果关系的角度分析这个问题我们发现从有偏图中分解和解相关因果变量和偏差潜变量都是消除偏差的关键。 在此启发下我们提出了一个通用的解纠缠GNN框架来分别学习因果子结构和偏差子结构。特别地我们设计了一个参数化的边缘掩码生成器来显式地将输入图分割成因果和偏差子图。然后训练两个由因果/偏差感知丢失函数监督的GNN模块将因果子图和偏差子图编码成相应的表示。利用解纠缠表征我们合成反事实的无偏训练样本进一步解关联因果变量和偏倚变量。 此外为了更好地对严重偏差问题进行基准测试我们构造了3个新的图数据集它们的偏差程度可控易于可视化和解释。实验结果表明该方法具有较好的泛化性能。此外由于学习边缘掩码的存在所提出的模型具有良好的可解释性和可移植性 一、引言 图神经网络(GNNs)在各种应用中显示了对图数据的强大性能。一个主要的应用类别是图分类任务如分子图属性预测、超像素图分类和社会网络分类。众所周知图的分类通常是由一个相关的子结构决定的而不是由整个图结构决定的。例如对于MNIST超像素图分类任务数字子图对于标签来说是因果的(即确定性的)。分子图的致突变特性取决于官能团(即二氧化氮(NO2))而不是不相关的模式(即碳环)。因此识别因果子结构从而做出正确的预测是GNNs的基本要求。 理想情况下当图是无偏的即只有因果子结构与图标签相关时GNNs能够利用这些子结构来预测标签。然而由于数据采集过程的不可控图形不可避免地会有偏倚即存在无意义的子结构与标签虚假关联。以3.1节中的有色MNIST超像素图数据集为例(如图1(a)所示)每一类数字子图主要对应一种颜色背景子图如数字 0 子图与红色背景子图相关。因此颜色背景子图将被视为偏差信息在训练集中与标签高度相关但不确定标签。在这种情况下GNNs还会稳定地利用因果子结构进行决策吗? 图1CMNIST-75sp的示例图以及该数据集上GNN的性能。 为了研究偏差对GNNs的影响我们进行了一项实验研究以证明偏差(特别是在严重偏差情景下)对GNNs的泛化能力的影响(第3.1节)。我们发现GNNs实际上利用了偏差和因果子结构来进行预测。然而由于偏倚相关性较强即使是偏倚子结构也不能像因果子结构那样准确地确定标签因此GNNs主要利用偏倚子结构作为捷径进行预测导致泛化性能大幅度下降。为什么会这样?我们使用因果图分析图分类背后的数据生成过程和模型预测机制(第3.2节)。偶然图表明观测图是由因果潜变量和偏差潜变量生成的现有的GNNs无法区分因果子结构和纠缠图。如何从观测图中分离出因果和偏差子结构使GNNs只能在出现严重偏差时利用因果子结构进行稳定的预测?要解决这个问题我们需要面对两个挑战。1)、如何识别严重偏倚图中的因果子结构和偏倚子结构在严重偏置的情况下偏置子结构更容易学习最终主导预测结果。使用正常的交叉熵损失如DIR不能完全捕获这种侵略性的偏置特性。2)、如何从一个纠缠图中提取因果子结构统计因果子结构通常是由整个图总体的全局性质决定的而不是由单个图决定的。从图中提取因果子结构时需要建立所有图之间的关系。 在本文中我们提出了一种新的GNNs通过学习解纠缠因果子结构的去偏框架称为DisC。给定一个输入偏置图我们提出通过参数化边缘掩码生成器显式地将边缘过滤成因果和偏置子图其参数在整个图种群中共享。因此边缘掩盖器自然能够指定每个边缘的重要性并从整个观察的全局视图中提取因果和偏差子图。然后分别利用“偶然”感知(加权交叉熵)损失和“偏差”感知(广义交叉熵)损失来监督两个功能GNN模块。在此监督的基础上边缘掩码发生器生成相应的子图GNNs将相应的子图编码为解纠缠嵌入。在解纠缠嵌入中我们将从不同图中提取的潜在向量随机置换在嵌入空间中生成更多的无偏反事实样本。新生成的样本仍然包含因果信息和偏倚信息而它们的相关性已不相关。此时只有因果变量与标签之间存在相关性这样模型就可以专注于因果子图与标签之间的真正相关性。我们的主要贡献如下: • 据我们所知我们首先研究的是gnn的泛化问题它是在一个更具挑战性但更实用的场景下即图具有严重的偏差。我们从实验研究和因果分析两方面系统地分析了偏差对gnn的影响。我们发现偏置子结构比因果子结构更容易支配gnn的训练。 • 为了消除GNN的偏差我们开发了一种新的GNN框架来分解因果子结构该框架可以灵活地构建在各种GNN的基础上以提高泛化能力同时具有固有的可解释性、鲁棒性和可移植性。 • 我们构建了三个新的数据集这些数据集具有不同的性质和可控的偏差程度可以更好地对新问题进行基准测试。我们的模型比相应的基本模型有很大的优势(从4.47%到169.17%的平均改进)。各种调查研究表明我们的模型可以发现和利用因果子结构进行预测。 二、相关工作 野外环境下gnn的泛化 现有的大多数GNN方法都是在IID假设下提出的即训练集和测试集都是从同一分布中独立抽取的。然而在现实中理想假设很难得到满足。近年来人们提出了多种方法来提高gnn在野生环境下的泛化能力。一些文献研究了节点分类的OOD问题。对于OOD图分类任务StableGNN提出学习图中的稳定因果关系。OOD-GNN提出将学习嵌入的各个维度独立约束。DIR发现了广义gnn的不变原理。它们虽然具有较好的OOD性能但并不是针对偏差较大的数据集设计的这对于保证gnn的泛化能力具有更大的挑战性。 解纠缠图神经网络 目前研究解纠缠GNN的方法有很多。DisenGCN利用邻居路由机制将节点的邻居划分为几个互斥的部分。IPGDN通过独立约束嵌入特性的不同部分来提升DisenGCN。DisenGCN和IPGDN是节点级解纠缠因此FactorGCN考虑了整个图信息并将目标图解纠缠为几个分解后的图。尽管前人的研究成果他们并没有考虑对图的因果信息和偏倚信息进行梳理。 一般的去偏方法 最近去偏问题引起了机器学习界的广泛关注。其中一种方法是明确地预先定义某种偏差类型来减轻。例如Wang et al.和Bahng et al.设计了一个纹理和颜色引导的模型来对抗有偏差的神经网络训练去偏差的神经网络。最近的研究方法没有定义特定类型的偏差而是依赖于一个简单的假设即模型容易利用偏差作为捷径来做出预测。与最近的研究一致我们的研究属于第二类。然而现有的方法大多是针对图像数据集设计的不能有效地从图数据中提取因果子结构。值得注意的是我们首先研究了图数据的严重偏倚问题该方法可以有效地从图数据中提取因果子结构。 三、初步研究与分析 在本节中我们首先说明现有的GNNs倾向于利用偏差子结构作为通过一个激励实验进行预测的捷径。然后从因果关系的角度分析了GNNs的预测过程。基于这种因果关系的观点它促使我们采取解决方案来减轻偏见的影响。 激励范例 为了度量受偏差影响的gnn的泛化能力我们构造了一个偏差程度可控的图分类数据集CMNIST-75sp。我们首先构建一个像[1]这样的有偏MNIST图像数据集其中每个类别的数字与背景中的预定义颜色高度相关。例如在训练集中90%的0位数背景为红色(即有偏样本)剩余10%的图像背景为随机颜色(即无偏样本)此时的偏度为0.9。我们考虑四个偏差度{0.8,0.85,0.9,0.95}。 对于测试集我们构造有偏测试集和无偏测试集。偏置测试集与训练集具有相同的偏置程度目的是衡量模型依赖偏置的程度。无偏测试集其中数字标签与背景颜色不相关旨在测试模型是否可以利用固有的数字信号进行预测。注意训练集和测试集具有相同的预定义颜色集。然后利用将有偏置的MNIST图像转换为每个图节点数不超过75的超像素图其中基于超像素二维坐标采用KNN方法构造边缘节点特征为超像素坐标和平均颜色的拼接。每个图都用它的数字类标记因此它的数字子图对于标签是确定的而背景子图与标签是假相关的但不是确定的。图1(a)举例说明了图的示例。 图1CMNIST-75sp的示例图以及该数据集上GNN的性能。 我们在CMNIST-75sp上执行了三种常用的GNN方法:GCN、GIN和GCNII结果如图1(b)所示。虚线和实线的相同颜色分别表示相应方法在有偏测试集和无偏测试集上的结果。总的来说GNNs在有偏测试集中比在无偏测试集中获得了更好的性能。这一现象表明虽然GNNs仍然可以学习一些因果信号进行预测但意外偏差信息也被用于预测。具体来说随着偏置程度的增大GNNs在偏置测试集上的性能有所提高精度值与偏置程度基本一致而在无偏测试集上的性能急剧下降。因此虽然因果子结构可以很好地确定标签但在严重的偏倚情况下GNNs倾向于利用更容易学习的偏倚信息而不是固有的因果信号进行预测最终偏倚子结构将主导预测。 问题分析 去偏GNN进行无偏预测需要理解图分类任务的自然机制。我们提出了任务背后数据生成过程和模型预测过程结合的因果观点。在这里我们通过检查5个变量之间的因果关系将因果观形成化为结构因果模型(SCM)或因果图这5个变量分别是未观察到的因果变量C、未观察到的偏差变量B、观察到的图G、嵌入图E和基本事实标签/预测Y我们将变量Y用于基本事实标签和预测因为它们被优化为相同的。图2(a)显示了结构因果模型其中每个链接表示一个因果关系。 图2结构因果模型灰色和白色变量分别表示未观测变量和观测变量。 • C → G ← B  观测图数据由两个未观测到的潜在变量生成因果变量C和偏倚变量B如CMNIST-75sp数据集中的数字子图和背景子图。所有下列关系都由CMNIST-75sp说明。 •C → Y  这一联系意味着因果变量C是决定基本事实(ground-truth)标签Y的生成的唯一内生父变量。例如C是oracle数字子图这正好解释了为什么标签被标记为Y。 • C⇠⇢ B  这个链接表明了C和B之间的虚假关联。这种概率依赖通常是由直接原因或未观察到的混杂物引起的。这里我们不区分这些场景只观察B和C之间的伪相关例如颜色背景子图和数字子图之间的伪相关。 • G → E → Y  现有的GNN通常是根据观察图G学习嵌入E的图然后根据学习到的嵌入E进行预测Y。 根据结构因果模型GNNs将利用这两种信息进行预测。由于偏置子结构(如背景子图)通常比有意义的因果子结构(如数字子图)具有更简单的结构如果GNN利用这种简单的子结构可以很快实现低损耗。因此当大多数图都有偏倚时GNN更倾向于利用偏倚信息。根据图2(a)中的结构因果模型根据d-connection 理论(参见App. a)两个变量是相互依赖的如果它们之间至少有一条畅通的路径相连那么我们可以找到两条路径这两条路径会导致偏差变量B和标签Y之间产生假相关(1) B → G → E → Y和(2) B ↔ → Y要使预测Y与偏置B不相关需要截取两条畅通的路径。为此我们建议从因果关系的角度对GNN进行去偏 如图2(b)所示。 • C ← G → B 和 C → Y 要截取路径(1)我们需要从观察图G中分离出潜在变量C和B仅基于因果变量C进行预测。 要截取路径(2)由于我们无法改变C和Y之间的链接一种可能的解决方案是使C和B不相关。 (a)结构因果模型的数据生成与现有GNNs的预测过程的结合。(b)我们的去偏GNN方法的结构因果模型。 图2结构因果模型灰色和白色变量分别表示未观测变量和观测变量。 四、方法 基于上述原因分析在本节中我们提出了我们提出的去偏GNN框架DisC以去除伪相关。总体框架如图3所示。首先学习边缘掩码发生器将原始输入图的边缘掩码成因果子图和偏置子图其次训练两个独立的GNN模块及其对应的掩码子图分别将对应的因果子结构和偏置子结构编码为解纠缠表示最后在解纠缠表征经过良好训练后对训练图中的偏差表征进行置换生成反事实的无偏样本从而消除了因果表征与偏差表征之间的相关性。 4.1 因果和偏置子结构发生器 给定一个小批量有偏图 G {G1⋯Gn}我们的思想是取一组图实例并设计一个生成概率模型来学习将边缘掩码成因果子图或有偏子图。特别地给定一个图 G { A , X }其中A为邻接矩阵 X 为节点特征矩阵我们利用多层感知器(MLP)对节点 i 的节点特征 Xi 和节点 j 的节点特征 Xj 进行拼接来度量因果子图的边 (i, j) 的重要性:           αij MLP([xi, xj])                  (1) 然后利用sigmoid函数 σ ( ⋅ ) 将 αij 投影到(0,1)范围内表示边(i, j)边为因果子图中边的概率为            cij σ(αij)                     (2) 自然地我们可以通过bij 1− cij 得到边 (i, j) 是偏置子图中的边的概率。现在我们可以构造因果边缘掩码 Mc [cij] 和偏置边缘掩码 Mb [bij] 。最后将原始图G分解为因果子图 Gc { Mc ⊙ A, X } 和偏置子图 Gb { Mb ⊙A, X } 。边缘掩码可以直观地显示原始图的结构信息的不同部分从而在不同子图上构建的GNNs可以对图信息的不同部分进行编码。 此外掩模发生器还有两个优点 (1) 全局视图(Global view)在单个图层掩码生成器 ( mask generator ) (例如MLP ) 的参数由图中的所有边共享对图中的所有边采取全局视图使我们能够识别图中的社区。众所周知边的作用是不能独立判断的因为边之间通常会相互协作形成一个社区来进行预测。因此从全球的角度来评估一个优势是至关重要的。在整个图种群级别掩码生成器对训练集中的所有图采取全局视图这使我们能够识别因果/偏倚子图。特别是由于因果/偏倚是总体水平上的统计信息因此需要查看所有的图表来确定因果/偏倚的子结构。同时考虑了这种联合效应和种群水平的统计信息该生成器能够更准确地度量边缘的重要性。 (2) 概化 掩码生成器可以将掩码生成机制概化到新的图上而不需要再进行训练因此能够有效地裁剪不可见的图。 4.2 学习解纠缠图表示 给定Gc和Gb如何确保它们分别是因果子图和偏倚子图 受[23]的启发我们的方法用线性分类器(Cb, Cc)同时训练一对GNNs (gb, gc)如下所示(1) 由于在3.1节中观察到偏置子结构更容易学习我们利用偏置感知损失来训练偏置GNN gb和偏置分类器Cb(2) 相比之下我们在偏置GNN难以学习的训练图上训练因果GNN gc和因果分类器Cc。接下来我们将详细介绍每个组件。 如图3所示GNN gc和gb将对应的子图嵌入因果嵌入zc gc(gc;γc)和偏置嵌入zb gb(gb;γb)其中γ为gnn的参数。随后串联向量z [zc;为了训练gb和Cb作为偏置提取器我们利用广义交叉熵(GCE)[51]损失来放大偏置GNN和分类器的偏置: 式中Cb(z;αb)和C y b (z;为偏置分类器的softmax输出其概率分别属于目标类别y为分类器的参数。这里q∈(0,1)是控制放大偏置程度的超参数。假设θb [γb αb] GCE损失的梯度增加了样品的标准交叉熵(CE)损失的梯度具有预测正确目标类别的高可信度C y b如下所示 因此与CE损失相比GCE损失将通过置信度(C y b)q放大θb对样品的梯度。根据我们的观察偏置信息通常更容易被学习所以偏置图比无偏置图有更高的(cy b)q。因此通过GCE损耗训练的模型gb和Cb将聚焦于偏置信息最终得到偏置子图。注意为了确保Cb主要基于该zb预测目标标签Cb的损失不会反向传播到gc即只更新式(4)中的θb反之亦然。 同时我们还利用加权CE损耗同时训练一个因果GNN。与低CE损耗的样品相比高CE损耗的样品可视为无偏样品。因此我们可以得到每个图的无偏分为 W的值越大说明图是一个无偏样本因此我们可以使用这些权值来重新加权这些图的损失以训练gc和Cc强制它们学习无偏信息。因此学习解纠缠表示的目标函数为 4.3 反事实无偏样本生成 到目前为止我们已经实现了第3.2节中分析的第一个目标即解开因果和偏见的子结构。接下来我们将展示如何实现第二个目标使因果变量zc和偏倚变量zb不相关。虽然我们已经解开了因果和偏差信息但它们是从有偏差的观察图中解开的。因此因果变量和偏倚变量之间将存在从有偏倚观察图继承来的统计相关性。为了进一步去关联zc和zb根据数据生成过程的因果关系:C→G←B我们提出通过交换zb在嵌入空间中生成反事实无偏样本。更具体地说我们对每个小批量的偏差向量随机置换得到zunbiased [zc;ˆzb]其中ˆzb表示zb随机排列的偏差向量。由于zunbiased中的zc和ˆzb是由不同的图随机组合而成的它们的相关性比z [zc;Zb]这两个都来自同一个图。为了使gb和Cb仍然关注偏差信息我们还将标签y交换为ˆy和ˆzb这样ˆzb和ˆy之间的伪相关仍然存在。利用生成的无偏样本我们利用以下loss函数来训练两个GNN模块 结合解缠损耗总损耗函数定义为 其中λG是表示生成分量重要性的超参数。此外使用更多样化的样本进行训练还可以在不可见的测试场景中获得更好的泛化。我们的方法在App. b中进行了总结。注意由于我们需要很好的解纠缠表征来生成高质量的无偏样本所以在训练的早期阶段我们只使用LD来训练模型。经过一定的时间后我们使用L来训练模型。 五、实验 数据集   我们构建了三个具有不同属性和偏差比率的数据集来对这个新问题进行基准测试这些数据集有清晰的因果子图使得结果可以解释。在3.1节中引入CMNIST-75sp之后我们使用类似的方法基于Fashion-MNIST[44]和Kuzushiji-MNIST[4]数据集构建CFashion-75sp和CKuzushiji-75sp数据集。由于这两个数据集的因果子图更复杂(时尚产品和平假名字符)它们更具有挑战性。由于页面的限制这里我们设置偏移度为{0.8,0.9,0.95}。我们报告无偏测试集上的主要结果。详情见章末C.1部分。 基线和实验设置   由于DisC是一个通用的框架可以建立在各种基础GNN模型上因此我们选择了三个常用的GNN: GCN[19]、GIN[45]和GCNII[3]。相应的模型分别称为DisCGCN、DisCGIN和DisCGCNII。因此基本模型是最直接的基线。另一种基线是基于因果关系的GNN方法DIR[43]和StableGNN[7]。我们还用gnn替代了一般的去偏方法LDD[23]并与之进行了比较。并对图池法DiffPool[48]和图解纠缠法FactorGCN[46]进行了比较。为了保持公平的比较我们的模型与相应的基模型使用相同的GNN架构和超参数。所有的实验用不同的随机种子进行了4次我们报告了准确度和标准误差。更多细节见章末C.2部分。 5.1 定量评估 主要结果 总体结果见表1我们有以下观察: (1) DisC具有比基模型更好的泛化能力。 DisC表现优于相应的基本模型并有较大的差额。由于偏差较大我们的模型比基本模型有更大的改进。其中CMNIST-75sp、CFashion-75sp和CKuzushiji-75sp偏差度较小(0.8)时我们的模型比相应的基模型平均分别提高了40.02%、4.47%和29.82%。令人惊讶的是在更严重的偏差(0.9和0.95)下DisC在三个数据集上分别比基本模型实现了169.17%、14.67%和49.35%的平均改进。结果表明本文提出的方法是一个通用的框架可以帮助现有的导航网络克服偏差的负面影响。 (2) DisC显著优于现有的去偏方法。 我们注意到DIR不能取得令人满意的结果。原因是DIR利用CE损耗来提取偏置信息在严重偏置情况下不能完全捕捉到偏置的性质。而DIR对分割子图设置一个固定的阈值这是次优的。StableGNN优于其基础模型DiffPool并取得了具有竞争力的结果表明其提出的因果变量区分正则化的有效性。然而该框架基于原始数据集调整数据分布当无偏样本稀缺时难以生成无偏分布。基于解纠缠表示DisC可以产生更多的无偏样本。此外LDD是一种通用的去偏方法它不是为图数据设计的。DisC的平均性能优于相应LDD变体的23.15%表明全局种群感知边缘掩码与去偏解杂框架的无缝连接是非常有效的。 表1:在无偏测试集上评估的图分类精度无偏测试集与训练集具有相同的颜色(偏置)集。每个基础模型变体的最佳性能以粗体显示。 消融研究 为了验证我们方法中每个模块的重要性在图4中我们对我们的变量(w.o. G的平均值没有样本生成模块)和LDD的相关变量进行消融研究。DisC/w.o之间的主要区别。G, LDD /w.o。G为边缘掩码。在大多数情况下DisC/w.o。G显著优于LDD /w.o。G表示学习图数据边缘掩码的必要性。而具有反事实样本生成模块的DisC可以进一步提高基于解纠缠嵌入的DisC/w.o的性能。然而LDD很少优于LDD /w.o。G甚至达到更差的性能。也就是说生成高质量的反事实样本需要很好地解开因果和偏见嵌入。如果嵌入没有很好地解纠缠反事实样本可能会成为噪声样本从而阻碍模型的进一步改进。边缘掩码可以帮助模型生成良好的解纠缠嵌入这对整体性能至关重要。 图4:在每个数据集的三个偏置度上DisC相对于LDD的消融研究。 对不可见偏差的鲁棒性 表2报告了在具有不可见偏差的测试集上DisC与其相应的基模型的比较结果即训练集和测试集的预定义颜色(偏差)集是不相交的。与表1中偏倚情景下的结果相比基本模型的性能进一步下降。然而我们的模型仍然取得了非常稳定的性能充分展示了我们的模型在不可知论偏见情景下的泛化能力。 表2:在未见过的无偏测试集上的结果即在训练集上未见过颜色。 超参数实验 图5为GCE损耗中放大偏置程度q和产生分量λG重要性的超参数实验。对于q我们确定λG 10, q在{0.1,0.3,0.5,0.7,0.9}范围内变化。对于λG我们定q 0.7使λG从{1,5,10,15}变化。从结果可以看出我们的模型在不同的q值和λG值下都取得了稳定的性能。当q 0.1时表示GCE损耗几乎降低到正常的CE损耗。我们可以看到DisCGCN的性能比其他场景要差证明了利用GCE损耗的有效性。 图5:q和λG超参数实验 5.2 定性评价 边缘掩码的可视化。为了更好地说明DisCGCN提取的显著的因果和偏倚子图我们将原始图像、原始图以及CMNIST-75sp相应的因果子图和偏倚子图以0.9偏倚程度进行可视化如图6所示其中边的宽度表示学习权重cij或bij的值。图6(a)显示了在训练集中看到的带有偏置(颜色)的测试图的可视化结果。正如我们所看到的我们的模型可以发现因果子图中最显著的边在数字子图中。由于这些因果子图突出了数字结构信息因此gnn可以更容易地提取出这些因果信息。图6(b)为不可见偏差测试图的可视化结果。根据可视化我们的模型仍然可以发现因果子图的大纲表明我们的模型可以识别因果子图无论偏差是可见的还是不可见的。CFashion-75sp和CKuzushiji-75sp的可视化结果显示在App. D中。 图6:DisC提取的子图的可视化。边的宽度是边权值cij或bij。 解纠缠表示的投影。从DisCGCN的因果GNN gc和偏置GNN gb中分别提取潜在向量zc和zb使用t-SNE[21]在CMNIST-75sp上进行投影结果如图7所示。图7 (a-b)为目标标签(数字)和偏置标签所标记的zc的投影(颜色)。图7 (c-d)为目标标签和偏置标签所标记的zb的投影分别我们观察到zc是根据目标标签聚类的而zb是聚类的带有偏置标签。zc与偏置标签混合zb与目标标签混合。结果表明DisC成功地学习了解开的因果和偏倚表征。 图7:zc和zb的可视化颜色由数字和偏置(颜色)标签标记。我们观察到zc和zb分别根据groundtruth标签和bias标签很好地聚类。 学习面具的可转移性。由于我们的模型可以提取与gnn无关的子图因此可以使用学习的边权值来净化原始的有偏图。这些稀疏子图代表了重要的语义信息可以普遍地转移到任何gnn上。为了验证这一点我们通过DisCGCN学习了边缘掩码并删除了{0%、20%、40%、60%}权重最少的边缘同时保留了其余的边缘权重。然后在这些加权剪枝数据集上训练香草杜松子酒和GCNII。图8为结果比较虚线表示基模型在原始有偏图上的结果实线表示gnn在加权修剪数据集上的性能。结果表明在经过修剪的数据集上训练的gnn具有较好的性能说明我们学习的边缘掩码具有相当大的可移植性。 图8:在DisCGCN找到的加权剪枝图上GIN和GCNII的性能。 六、总结 本文首先研究了gnn在严重偏差数据集上的泛化问题这对于研究gnn的透明知识学习机制至关重要。我们从因果的角度分析了这个问题即纠缠表示以及因果变量和偏差变量之间的相关性会阻碍gnn的泛化。为了消除这两个方面的影响我们提出了一个通用的分离框架——DisC它分别用两种不同的功能gnn来提取因果子结构和偏置子结构。在表示被很好地解纠缠后我们通过随机交换解纠缠向量来扩充反事实无偏样本。通过新构造的基准我们清楚地验证了我们方法的有效性、健壮性、可解释性和可移植性。 A、因果推理的必备知识 A.1 结构因果模型 为了严格形式化数据集背后的因果假设我们采用结构因果模型SCM。 SCM 是一种描述特定问题的相关特征变量以及它们如何相互作用的方法。特别是SCM 描述了系统如何为感兴趣的变量分配值。 形式上SCM 由一组外生变量 U 和一组内生变量 V 以及一组函数 f 组成该函数 f 根据模型中的其他变量确定 V 中变量的值。随意地如果 X 存在于确定 Y 值的函数中则变量 X 是变量 Y 的直接原因。如果 X 是 Y 的直接原因或 Y 的任何原因的直接原因则 X 是 Y 的原因。 外生变量U 粗略地表示它们是模型外部的因此在大多数情况下我们选择不解释它们是如何引起的。每个内生变量都是至少一个外生变量的后代。外生变量只能是根变量。如果我们知道每个外生变量的值利用 f 中的函数我们可以完美地确定每个内生变量的值。在许多情况下我们通常假设所有外生变量都是不可观察的变量例如噪声并且独立分布期望值为零因此我们只关心与内生变量的相互作用。每个 SCM 都与一个图形因果模型相关联或者简称为“因果图”。因果图由代表 U 和 V 中变量的节点以及代表 f 中函数的节点之间的直接边组成。请注意在第 3.2 节的 SCM 中我们仅显示我们感兴趣的内生变量。 A.2 d-separation/connection 给定 SCM我们对嵌入模型中的条件依赖信息特别感兴趣。 SCM 中存在三种基本的变量关系即链、叉子和碰撞器如图 9 所示。对于链和叉子如果 Z 不在条件集中即路径则 X 和 Y 是相关的已畅通无阻反之亦然。对于碰撞器如果 Z 不在条件集中即路径被阻塞则 X 和 Y 将是独立的。基于这些规则d-分离是一个可以应用于任何复杂程度的因果图中的标准以便预测由图生成的所有数据集共享的依赖关系[13]。如果两个节点 X 和 Y 之间的每条路径都被阻塞则它们是 d 分离的。即使 X 和 Y 之间的一条路径畅通X 和 Y 也是 d 连接的。形式上我们对 d-分离有以下定义 根据这个原理我们可以发现3.2节中的路径1B→G→E→Y和2B↔C→Y是畅通的路径这会导致偏差变量B和预测Y之间出现意想不到的相关性。 B、算法 C、实验细节 C.1 数据集详细信息 我们在表3中总结了本文构建的数据集的统计数据。请注意验证集的偏差度为0.5我们用它来调整训练过程中的学习率。不失一般性这里我们将原始 60K 训练样本二次采样为 10K 训练样本以使训练过程更加高效。人们可以使用我们的方法轻松构建完整的数据集。 CFashion-75sp 的每张图都标有其所属的时尚产品类别CKuzushiji-75sp 的每张图均标有 10 个平假名字符之一。此外我们希望在表 4 中列出所有数据集的标签和预定义相关颜色之间的映射。源图像数据集的链接如下 MNIST: http://yann.lecun.com/exdb/mnist/.Fashion-MNIST: https://github.com/zalandoresearch/fashion-mnist. MIT License.Kuzushiji-MNIST: https://github.com/rois-codh/kmnist. CC BY-SA 4.0 License. 表 4标签和颜色之间的映射。 对于表 2 中使用的具有不可见偏差的无偏差测试数据集预定义颜色集的 RGB 值为 {(199, 21, 133), (255, 140, 105), (255, 127, 36), (139, 71, 38), (107, 142, 35), (173, 255, 47), (60, 179, 113), (0, 255, 255), (64, 224, 208), (0, 191, 255) }。 C.2 实验装置 对于GCN和GIN我们使用与[15]6相同的模型架构有4层GCN有146个隐藏维度GIN有110个隐藏维度。 GIN 使用其 GIN0 变体。对于GCNII它有4层和146个隐藏维度。 DIR7 使用原始论文中 MNIST-75sp 数据集的默认参数。对于我们模型中的因果 GNN 或偏差 GNN它与基础模型具有相同的架构。我们使用 Adam [18] 优化器和 0.01 的学习率来优化所有实验的所有模型。所有方法的批量大小均为 256。我们用 200 个 epoch 训练所有模型并将方法 tgen 的生成迭代设置为 100。对于我们的模型我们将所有实验的 GCE 损失 q 设置为 0.7将 λG 设置为 10 。我们的子结构生成器是一个两层 MLP其激活函数是 sigmoid 函数。对于 StableGNN我们使用他们的 GraphSAGE 变体。对于其他基线我们使用它们的默认超参数。 LDD8 与我们的模型具有相同的超参数。为了更好地反映无偏样本生成的性能我们将最后一步的性能作为最终结果。所有实验均在单个 NVIDIA V100 GPU 上进行。 D、CFashion-75sp 和 CKzushiji-75sp 的可视化 图10和图11是CFashion-75sp和CKuzushiji-75sp数据集的可视化结果。正如我们所看到的我们的模型还可以为这些具有挑战性的数据集发现合理的因果子图。 图 10掩模生成器从 CFashion-75sp 中提取的子图的可视化。 图 11掩模生成器从 CKuzushiji-75sp 中提取的子图的可视化。 6 https://github.com/graphdeeplearning/benchmarking-gnns 7 https://github.com/Wuyxin/DIR-GNN 8 https://github.com/kakaoenterprise/Learning-Debiased-Disentangled
http://www.huolong8.cn/news/195864/

相关文章:

  • 如何把网站提交给百度在线制作动画的网站
  • 自助建站系统个人网站网站开发与规划就业前景
  • 槐荫区网站建设如何做房地产微信推送网站广告
  • 网站开发流程介绍广州白云区今天的消息
  • 义乌义亭招工做网站养猪工作学生简单网站制作教程
  • 一个网站做seowordpress 问答插件
  • 站长之家网站排行榜怎样登入网站后台
  • 做国外营销型网站找网络公司做网站
  • 网站升级的内容包括哪些网站建设如何做用户名密码
  • 做网站广告推广平台新手淘宝客在百度推广网站么做
  • 石家庄营销型网站建设费用电信 网站备案
  • 云南省城乡住房与建设厅网站做外贸有效的网站
  • 唐尧文化 网站建设工作总结程序外包接单
  • 搜索引擎营销是目前最主要的网站推广营销wordpress缩略图完美方案
  • 如何让自己做的网站可以播放歌曲策划书
  • 电商类网站有几个主流程深圳自适应网站建设
  • 有什么网站做可以国外的生意环球购物官方网站
  • 手机写文章用wordpress无锡网站建设seo
  • 网站关键词写在哪里wordpress无法连接到ftp服务器
  • 快速开发企业网站小型教育网站的开发建设论文
  • 网站换模板影响小程序开发平台需要网站吗
  • 企业网站seo维护苏州培训网站建设
  • 网站收录检测食品包装设计ppt
  • 有免费建站的网站装修效果图怎么做出来
  • 陕西住房和城乡建设厅网站wordpress 留言
  • 药材网网站技术建设wordpress 公司插件
  • 太原cms建站网络营销案例介绍
  • 网站建设时间怎样看网站兼容9
  • 金华金东区建设局网站无锡网站推
  • 网站所有人查询dw外部网站链接怎么做